Большие языковые модели: возможности и ограничения

GPT-4, Claude, Gemini, LLaMA — большие языковые модели (LLM) стали трансформирующей технологией 2020-х. Понимание их возможностей, механизмов обучения и ограничений — необходимость для каждого специалиста в AI.

Законы масштабирования

Закон масштабирования (Kaplan et al., OpenAI, 2020):

Loss ∝ N^{−0.076} · D^{−0.095} · C^{−0.050}

Расшифровка: N — число параметров, D — размер датасета в токенах, C — вычислительный бюджет в FLOPs. Loss убывает степенным образом при росте каждого фактора — улучшение предсказуемо и непрерывно. Практический вывод: больше данных + модель + вычисления → лучше.

Закон Хоффмана-Chinchilla (DeepMind, 2022): Оптимальное соотношение при фиксированном C: N∝D — параметры ≈ токены (умноженные на константу ≈ 20). GPT-3 (175B) обучен на 300B токенах → «недообучен». Chinchilla (70B, 1.4T токенов) лучше Gopher (280B, 300B токенов). Стратегия: меньше параметров, больше данных → эффективнее.

Inference efficiency: LLaMA-3-8B (8B параметров, 15T токенов): 90% производительности GPT-3 при 22× меньше параметров и свободном доступе.

Emergent Abilities

Явление: При достижении порогового масштаба (~10²³ FLOPs) модели внезапно приобретают новые возможности, которых нет у меньших моделей. Нельзя предсказать заранее из экстраполяции.

Примеры emergent abilities: multi-step arithmetic (GPT-3-small: 0%, GPT-3-large: 75%), chain-of-thought reasoning, multilingual translation (без мультиязычных данных!), code generation, analogical reasoning.

Chain-of-Thought (Wei et al., 2022): Промпт «давай думать шаг за шагом» + несколько примеров с рассуждениями → резкое улучшение reasoning. GSM8K (арифметические задачи): zero-shot GPT-3: 17%. CoT GPT-3: 57%. CoT GPT-4: 92%. Self-consistency (несколько CoT, majority vote): 95%.

RLHF: обучение с подкреплением от человека

Проблема alignment: Языковая модель, оптимизированная на следующий токен (LM), может быть полезной, вредной, честной и нечестной одновременно — в зависимости от промпта. Нужен дополнительный этап обучения.

RLHF pipeline (InstructGPT, Ouyang et al., 2022):

SFT (Supervised Fine-Tuning): Дообучаем LLM на парах (вопрос, высококачественный ответ) от людей-аннотаторов (≈50K пар). Модель учится «правильно отвечать».
Reward Model: Аннотаторы ранжируют 4 ответа модели на один вопрос. Обучаем RM: r_θ(x, y) — скалярная оценка качества ответа y на вопрос x. Объективная функция (Bradley-Terry): L = −E[log σ(r_θ(x, yw) − r_θ(x, yl))], yw ≻ yl.
PPO: Оптимизируем LLM через PPO с наградой r = RM(x, y) − β·KL(π_θ || π_SFT). KL-penalty предотвращает коллапс («говорить только то, что нравится людям»).

DPO (Rafailov et al., 2023): Прямая оптимизация предпочтений без RM и PPO:

L_DPO = −E[log σ(β(log π_θ(yw|x)/π_ref(yw|x) − log π_θ(yl|x)/π_ref(yl|x)))]

Проще, стабильнее, не хуже RLHF на большинстве задач.

Ограничения LLM

Галлюцинации: LLM уверенно генерирует фактически неверную информацию. Причина: нет явной «памяти о фактах» — только статистические паттерны. Не разделяет «я знаю» и «я не знаю». Исследование: GPT-4 галлюцинирует в 15–30% юридических/медицинских запросов.

Reasoning: Плохо на формальных задачах (логика, арифметика), когда нельзя воспроизвести шаблон из обучения. Tool use (Python интерпретатор, калькулятор) решает арифметику, RAG — память.

Context window: Конечное контекстное окно (4K–200K токенов). LLM хуже использует информацию в середине контекста (Lost in the Middle, Liu et al., 2023). Нет истинной долгосрочной памяти.

Prompt injection: Злоумышленник может «перехватить» управление LLM через специальный текст в контексте. Проблема безопасности для автономных AI-агентов.

Численный пример

GPT-3 (text-davinci-003) на GSM8K задаче: «В автобусе 48 пассажиров. На остановке вышли 12, сели 8. Сколько?»

Zero-shot: «48 − 12 + 8 = 44». ✓ (простая задача)

«Лавка продала 52 яблока в первый день, вдвое больше во второй. Сколько яблок за оба дня?» Zero-shot: «52 + 104 = 156». ✓

Chain-of-thought: «Первый день: 52. Второй: 52×2=104. Итого: 52+104=156». ✓ (CoT помогает на многошаговых задачах, не на простых)

«Для 3 задач: A + B + C = X. Если A = X/3, B = X/4, найти C» (формальная логика). Zero-shot: неверный ответ в 65% случаев. CoT: 78% верных. Symbolic reasoning через Python: 100%.

Задание: Используйте GPT-3.5 API (или open-source LLaMA-7B через ollama). (1) Создайте 3 промпта для задачи reasoning (логическая задача, 5-шаговая): zero-shot, few-shot (3 примера), chain-of-thought. (2) Оцените точность на 20 задачах. (3) Для 5 неверных ответов: проанализируйте тип ошибки (отвлечение, арифметика, логика). (4) Реализуйте RAG: встраиваем текст Wikipedia, ищем релевантные фрагменты, добавляем в контекст. Как улучшается точность на фактических вопросах?