Квантизация
← ГлоссарийМетод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.
Метод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.