Подписывайся на Telegram-канал — пишем про нейросети и ИИ сервисыПодписаться

Бенчмарк

Основы

Стандартизированный тест для оценки качества AI-моделей. Популярные бенчмарки: MMLU (знания), HumanEval (код), MT-Bench (чат), LMSYS Chatbot Arena (ELO-рейтинг от пользователей).

Связанные термины

Большая языковая модель (LLM)