Бенчмарк
← ГлоссарийСтандартизированный тест для оценки качества AI-моделей. Популярные бенчмарки: MMLU (знания), HumanEval (код), MT-Bench (чат), LMSYS Chatbot Arena (ELO-рейтинг от пользователей).
Стандартизированный тест для оценки качества AI-моделей. Популярные бенчмарки: MMLU (знания), HumanEval (код), MT-Bench (чат), LMSYS Chatbot Arena (ELO-рейтинг от пользователей).