Подписывайся на Telegram-канал — пишем про нейросети и ИИ сервисыПодписаться

Квантизация

← Глоссарий
Инфраструктура

Метод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.

Связанные термины