AI-глоссарий
← В ленту49 терминов из мира искусственного интеллекта и нейросетей.
Основы
Область информатики, которая занимается созданием систем, способных выполнять задачи, обычно требующие человеческого интеллекта: распознавание речи, принятие решений, перевод языков и генерация контента.
Подраздел ИИ, в котором алгоритмы учатся находить закономерности в данных без явного программирования. Включает обучение с учителем, без учителя и обучение с подкреплением.
Подраздел машинного обучения, использующий нейронные сети с множеством слоёв (глубокие сети). Лежит в основе современных достижений в обработке языка, компьютерном зрении и генерации контента.
Математическая модель, вдохновлённая биологическими нейронами. Состоит из слоёв узлов (нейронов), каждый из которых выполняет простые вычисления. Вместе слои способны аппроксимировать сложные функции.
AI-модели с открытыми весами и/или кодом, которые можно скачать и запускать локально. Примеры: Llama, Mistral, Qwen, DeepSeek, Gemma. Противоположность проприетарным (GPT-4, Claude).
Стандартизированный тест для оценки качества AI-моделей. Популярные бенчмарки: MMLU (знания), HumanEval (код), MT-Bench (чат), LMSYS Chatbot Arena (ELO-рейтинг от пользователей).
Модели
Архитектура нейронной сети, предложенная Google в 2017 году. Использует механизм внимания (attention) для обработки последовательностей. Лежит в основе GPT, BERT, Claude, Gemini и большинства современных языковых моделей.
Нейронная сеть с миллиардами параметров, обученная на огромных текстовых корпусах. Способна генерировать, анализировать и трансформировать текст. Примеры: GPT-4, Claude, Gemini, Llama, DeepSeek.
Максимальное количество токенов, которое модель может обработать за один запрос (включая входные и выходные данные). У GPT-4o — 128K, у Claude 3.5 — 200K, у Gemini — до 1M.
Ключевой компонент трансформеров, позволяющий модели фокусироваться на релевантных частях входных данных. Self-attention позволяет каждому токену «смотреть» на все остальные токены в последовательности.
Расширение механизма внимания, при котором несколько «голов» внимания работают параллельно, каждая фокусируясь на разных аспектах входных данных, что улучшает качество представлений.
AI-модель, способная работать с несколькими типами данных: текст, изображения, аудио, видео. Примеры: GPT-4o (текст + изображения), Gemini (текст + изображения + видео + аудио).
Автономная система на базе LLM, способная планировать действия, использовать инструменты (поиск, код, API) и итеративно решать задачи без постоянного контроля человека.
Способность LLM вызывать внешние функции и API: поиск в интернете, выполнение кода, работа с базами данных. Ключевая функция для AI-агентов.
Архитектура, в которой модель состоит из нескольких «экспертов», но для каждого запроса активируется только часть из них. Позволяет масштабировать параметры без пропорционального роста вычислений. Используется в Mixtral и DeepSeek V3.
Способность AI-модели логически рассуждать, решать задачи и делать выводы. Модели с явным reasoning: o1, o3, DeepSeek R1. Используют chain-of-thought внутри.
AI-модель, обученная анализировать изображения: классификация, детекция объектов, сегментация, описание. Современные LLM (GPT-4o, Claude, Gemini) включают vision-возможности.
Обучение
Процесс дообучения предварительно обученной модели на специализированном датасете для адаптации под конкретную задачу. Требует меньше данных и вычислений, чем обучение с нуля.
Эффективный метод файн-тюнинга, при котором обновляются не все веса модели, а только низкоранговые адаптеры. Значительно сокращает требования к памяти и вычислениям.
Метод обучения, при котором модель улучшается на основе оценок людей. Используется для выравнивания (alignment) моделей — чтобы они были полезными, безопасными и следовали инструкциям.
Подход, при котором модель, обученная на одной задаче, адаптируется для решения другой. Основа файн-тюнинга: базовая модель обучается на общих данных, а затем дообучается на специализированных.
Обработка языка
Минимальная единица текста, которую обрабатывает языковая модель. Один токен — это примерно 4 символа на английском или 1–2 символа на русском. Стоимость API-запросов обычно рассчитывается в токенах.
Алгоритм, который разбивает текст на токены перед подачей в языковую модель. Разные модели используют разные токенизаторы (BPE, SentencePiece, tiktoken).
Практика составления текстовых инструкций (промптов) для AI-моделей с целью получить наилучший результат. Включает техники: few-shot, chain-of-thought, system prompts.
Подход, при котором модели дают несколько примеров (shots) в промпте, чтобы она поняла формат и стиль ожидаемого ответа. Не требует дообучения.
Способность модели выполнять задачу без примеров — только по текстовому описанию. Чем мощнее модель, тем лучше её zero-shot возможности.
Техника промптинга, при которой модель рассуждает пошагово перед тем, как дать финальный ответ. Улучшает точность на задачах с логикой, математикой и многошаговым анализом.
Архитектурный паттерн, при котором модель сначала ищет релевантную информацию в базе знаний, а затем генерирует ответ на основе найденных данных. Снижает галлюцинации и позволяет работать с актуальными данными.
Числовое представление текста (или другого объекта) в виде вектора фиксированной длины. Используется для поиска по смыслу, кластеризации и рекомендаций. Модели: text-embedding-ada-002, Cohere Embed.
Алгоритм токенизации, который итеративно объединяет самые частые пары символов. Используется в GPT, Claude и большинстве современных LLM.
Параметр генерации, контролирующий случайность ответов модели. Низкая температура (0.0–0.3) даёт детерминированные ответы, высокая (0.7–1.0) — более креативные и разнообразные.
Метод сэмплирования, при котором модель выбирает следующий токен из наименьшего набора токенов, суммарная вероятность которых >= p. Альтернатива top-k сэмплированию.
Генерация
Тип генеративной модели, которая учится создавать данные (обычно изображения) путём постепенного удаления шума. Используется в Stable Diffusion, DALL-E 3, Midjourney, FLUX.
Открытая диффузионная модель для генерации изображений из текста. Может работать локально на потребительских GPU. Версии: SD 1.5, SDXL, SD 3.
Задача генерации изображения по текстовому описанию. Основные сервисы: Midjourney, DALL-E 3, Stable Diffusion, FLUX, Ideogram.
Архитектура из двух нейросетей: генератор создаёт данные, дискриминатор оценивает их реалистичность. Использовались для генерации изображений до появления диффузионных моделей.
Технология преобразования текста в естественную речь. Современные TTS используют нейросети для генерации реалистичных голосов. Примеры: OpenAI TTS, ElevenLabs, Bark.
Технология распознавания речи и преобразования в текст. Примеры: OpenAI Whisper, Google Speech-to-Text, Deepgram. Whisper — открытая модель с высоким качеством.
Инфраструктура
База данных, оптимизированная для хранения и поиска эмбеддингов. Позволяет быстро находить семантически похожие тексты. Примеры: Pinecone, Weaviate, Qdrant, ChromaDB.
Метод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.
Формат файлов для квантизированных моделей, используемый llama.cpp и другими инструментами для локального запуска LLM. Поддерживает различные уровни квантизации (Q4, Q5, Q8).
Видеопамять графического процессора. Определяет максимальный размер модели, которую можно загрузить для инференса. Для LLama 70B в FP16 нужно ~140 GB VRAM.
Процесс получения ответа от обученной модели — подача входных данных и генерация выходных. В отличие от обучения, инференс требует значительно меньше вычислительных ресурсов.
Время отклика модели — от отправки запроса до получения первого токена ответа (TTFT) или полного ответа. Ключевая метрика для production-систем.
Количество токенов в секунду, которое модель может генерировать. Зависит от размера модели, квантизации, GPU и количества параллельных запросов.
Программный интерфейс для взаимодействия с AI-моделями. Позволяет отправлять запросы и получать ответы по HTTP. Основные провайдеры: OpenAI, Anthropic, Google, DeepSeek.
Высокооптимизированный движок для локального запуска LLM на CPU и GPU. Поддерживает GGUF-формат и различные квантизации. Один из самых популярных инструментов для запуска моделей на домашнем железе.
Безопасность
Ситуация, когда AI-модель генерирует правдоподобный, но фактически неверный ответ. Одна из ключевых проблем LLM, решаемая через RAG, ground truth и верификацию.
Процесс настройки AI-модели, чтобы её поведение соответствовало человеческим ценностям и ожиданиям. Включает RLHF, constitutional AI и другие техники безопасности.