Подписывайся на Telegram-канал — пишем про нейросети и ИИ сервисыПодписаться

Квантизация

Инфраструктура

Метод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.

Связанные термины

GGUF LoRA VRAM