Подписывайся на Telegram-канал — пишем про нейросети и ИИ сервисыПодписаться

RLHF

Обучение

Метод обучения, при котором модель улучшается на основе оценок людей. Используется для выравнивания (alignment) моделей — чтобы они были полезными, безопасными и следовали инструкциям.

Связанные термины

Файн-тюнинг (Fine-tuning)Выравнивание (Alignment)