RLHF
← ГлоссарийМетод обучения, при котором модель улучшается на основе оценок людей. Используется для выравнивания (alignment) моделей — чтобы они были полезными, безопасными и следовали инструкциям.
Метод обучения, при котором модель улучшается на основе оценок людей. Используется для выравнивания (alignment) моделей — чтобы они были полезными, безопасными и следовали инструкциям.