AI-глоссарий

49 терминов из мира искусственного интеллекта и нейросетей.

Основы (6)Модели (11)Обучение (4)Обработка языка (11)Генерация (6)Инфраструктура (9)Безопасность (2)

Основы

Область информатики, которая занимается созданием систем, способных выполнять задачи, обычно требующие человеческого интеллекта: распознавание речи, принятие решений, перевод языков и генерация контента.

Машинное обучение (ML)

Подраздел ИИ, в котором алгоритмы учатся находить закономерности в данных без явного программирования. Включает обучение с учителем, без учителя и обучение с подкреплением.

Глубокое обучение

Подраздел машинного обучения, использующий нейронные сети с множеством слоёв (глубокие сети). Лежит в основе современных достижений в обработке языка, компьютерном зрении и генерации контента.

Нейронная сеть

Математическая модель, вдохновлённая биологическими нейронами. Состоит из слоёв узлов (нейронов), каждый из которых выполняет простые вычисления. Вместе слои способны аппроксимировать сложные функции.

Open Source AI

AI-модели с открытыми весами и/или кодом, которые можно скачать и запускать локально. Примеры: Llama, Mistral, Qwen, DeepSeek, Gemma. Противоположность проприетарным (GPT-4, Claude).

Бенчмарк

Стандартизированный тест для оценки качества AI-моделей. Популярные бенчмарки: MMLU (знания), HumanEval (код), MT-Bench (чат), LMSYS Chatbot Arena (ELO-рейтинг от пользователей).

Модели

Трансформер

Архитектура нейронной сети, предложенная Google в 2017 году. Использует механизм внимания (attention) для обработки последовательностей. Лежит в основе GPT, BERT, Claude, Gemini и большинства современных языковых моделей.

Большая языковая модель (LLM)

Нейронная сеть с миллиардами параметров, обученная на огромных текстовых корпусах. Способна генерировать, анализировать и трансформировать текст. Примеры: GPT-4, Claude, Gemini, Llama, DeepSeek.

Контекстное окно

Максимальное количество токенов, которое модель может обработать за один запрос (включая входные и выходные данные). У GPT-4o — 128K, у Claude 3.5 — 200K, у Gemini — до 1M.

Механизм внимания (Attention)

Ключевой компонент трансформеров, позволяющий модели фокусироваться на релевантных частях входных данных. Self-attention позволяет каждому токену «смотреть» на все остальные токены в последовательности.

Многоголовое внимание

Расширение механизма внимания, при котором несколько «голов» внимания работают параллельно, каждая фокусируясь на разных аспектах входных данных, что улучшает качество представлений.

Мультимодальная модель

AI-модель, способная работать с несколькими типами данных: текст, изображения, аудио, видео. Примеры: GPT-4o (текст + изображения), Gemini (текст + изображения + видео + аудио).

AI-агент

Автономная система на базе LLM, способная планировать действия, использовать инструменты (поиск, код, API) и итеративно решать задачи без постоянного контроля человека.

Использование инструментов (Tool Use)

Способность LLM вызывать внешние функции и API: поиск в интернете, выполнение кода, работа с базами данных. Ключевая функция для AI-агентов.

Mixture of Experts (MoE)

Архитектура, в которой модель состоит из нескольких «экспертов», но для каждого запроса активируется только часть из них. Позволяет масштабировать параметры без пропорционального роста вычислений. Используется в Mixtral и DeepSeek V3.

Рассуждение (Reasoning)

Способность AI-модели логически рассуждать, решать задачи и делать выводы. Модели с явным reasoning: o1, o3, DeepSeek R1. Используют chain-of-thought внутри.

Модель компьютерного зрения

AI-модель, обученная анализировать изображения: классификация, детекция объектов, сегментация, описание. Современные LLM (GPT-4o, Claude, Gemini) включают vision-возможности.

Обучение

Файн-тюнинг (Fine-tuning)

Процесс дообучения предварительно обученной модели на специализированном датасете для адаптации под конкретную задачу. Требует меньше данных и вычислений, чем обучение с нуля.

LoRA

Эффективный метод файн-тюнинга, при котором обновляются не все веса модели, а только низкоранговые адаптеры. Значительно сокращает требования к памяти и вычислениям.

RLHF

Метод обучения, при котором модель улучшается на основе оценок людей. Используется для выравнивания (alignment) моделей — чтобы они были полезными, безопасными и следовали инструкциям.

Трансферное обучение

Подход, при котором модель, обученная на одной задаче, адаптируется для решения другой. Основа файн-тюнинга: базовая модель обучается на общих данных, а затем дообучается на специализированных.

Обработка языка

Токен

Минимальная единица текста, которую обрабатывает языковая модель. Один токен — это примерно 4 символа на английском или 1–2 символа на русском. Стоимость API-запросов обычно рассчитывается в токенах.

Токенизатор

Алгоритм, который разбивает текст на токены перед подачей в языковую модель. Разные модели используют разные токенизаторы (BPE, SentencePiece, tiktoken).

Промпт-инженерия

Практика составления текстовых инструкций (промптов) для AI-моделей с целью получить наилучший результат. Включает техники: few-shot, chain-of-thought, system prompts.

Few-shot обучение

Подход, при котором модели дают несколько примеров (shots) в промпте, чтобы она поняла формат и стиль ожидаемого ответа. Не требует дообучения.

Zero-shot обучение

Способность модели выполнять задачу без примеров — только по текстовому описанию. Чем мощнее модель, тем лучше её zero-shot возможности.

Chain-of-thought (CoT)

Техника промптинга, при которой модель рассуждает пошагово перед тем, как дать финальный ответ. Улучшает точность на задачах с логикой, математикой и многошаговым анализом.

RAG (Retrieval-Augmented Generation)

Архитектурный паттерн, при котором модель сначала ищет релевантную информацию в базе знаний, а затем генерирует ответ на основе найденных данных. Снижает галлюцинации и позволяет работать с актуальными данными.

Эмбеддинг (Embedding)

Числовое представление текста (или другого объекта) в виде вектора фиксированной длины. Используется для поиска по смыслу, кластеризации и рекомендаций. Модели: text-embedding-ada-002, Cohere Embed.

BPE (Byte Pair Encoding)

Алгоритм токенизации, который итеративно объединяет самые частые пары символов. Используется в GPT, Claude и большинстве современных LLM.

Температура (Temperature)

Параметр генерации, контролирующий случайность ответов модели. Низкая температура (0.0–0.3) даёт детерминированные ответы, высокая (0.7–1.0) — более креативные и разнообразные.

Top-p (Nucleus Sampling)

Метод сэмплирования, при котором модель выбирает следующий токен из наименьшего набора токенов, суммарная вероятность которых >= p. Альтернатива top-k сэмплированию.

Генерация

Диффузионная модель

Тип генеративной модели, которая учится создавать данные (обычно изображения) путём постепенного удаления шума. Используется в Stable Diffusion, DALL-E 3, Midjourney, FLUX.

Stable Diffusion

Открытая диффузионная модель для генерации изображений из текста. Может работать локально на потребительских GPU. Версии: SD 1.5, SDXL, SD 3.

Генерация изображений (Text-to-Image)

Задача генерации изображения по текстовому описанию. Основные сервисы: Midjourney, DALL-E 3, Stable Diffusion, FLUX, Ideogram.

GAN (Генеративно-состязательная сеть)

Архитектура из двух нейросетей: генератор создаёт данные, дискриминатор оценивает их реалистичность. Использовались для генерации изображений до появления диффузионных моделей.

Text-to-Speech (TTS)

Технология преобразования текста в естественную речь. Современные TTS используют нейросети для генерации реалистичных голосов. Примеры: OpenAI TTS, ElevenLabs, Bark.

Speech-to-Text (STT)

Технология распознавания речи и преобразования в текст. Примеры: OpenAI Whisper, Google Speech-to-Text, Deepgram. Whisper — открытая модель с высоким качеством.

Инфраструктура

Векторная база данных

База данных, оптимизированная для хранения и поиска эмбеддингов. Позволяет быстро находить семантически похожие тексты. Примеры: Pinecone, Weaviate, Qdrant, ChromaDB.

Квантизация

Метод уменьшения размера модели путём снижения точности весов (с FP16 до INT8 или INT4). Позволяет запускать большие модели на потребительских GPU с минимальной потерей качества.

GGUF

Формат файлов для квантизированных моделей, используемый llama.cpp и другими инструментами для локального запуска LLM. Поддерживает различные уровни квантизации (Q4, Q5, Q8).

VRAM

Видеопамять графического процессора. Определяет максимальный размер модели, которую можно загрузить для инференса. Для LLama 70B в FP16 нужно ~140 GB VRAM.

Инференс

Процесс получения ответа от обученной модели — подача входных данных и генерация выходных. В отличие от обучения, инференс требует значительно меньше вычислительных ресурсов.

Латентность

Время отклика модели — от отправки запроса до получения первого токена ответа (TTFT) или полного ответа. Ключевая метрика для production-систем.

Пропускная способность

Количество токенов в секунду, которое модель может генерировать. Зависит от размера модели, квантизации, GPU и количества параллельных запросов.

API (Application Programming Interface)

Программный интерфейс для взаимодействия с AI-моделями. Позволяет отправлять запросы и получать ответы по HTTP. Основные провайдеры: OpenAI, Anthropic, Google, DeepSeek.

llama.cpp

Высокооптимизированный движок для локального запуска LLM на CPU и GPU. Поддерживает GGUF-формат и различные квантизации. Один из самых популярных инструментов для запуска моделей на домашнем железе.

Безопасность

Галлюцинация

Ситуация, когда AI-модель генерирует правдоподобный, но фактически неверный ответ. Одна из ключевых проблем LLM, решаемая через RAG, ground truth и верификацию.

Выравнивание (Alignment)

Процесс настройки AI-модели, чтобы её поведение соответствовало человеческим ценностям и ожиданиям. Включает RLHF, constitutional AI и другие техники безопасности.