Модуль VIII·Статья II·~1 мин чтения

NLP и обработка естественного языка: как машина понимает речь

Цифровой язык и будущее коммуникации

Превратить статью в подкаст

Выберите голоса, формат и длину — AI запишет аудио

NLP и обработка естественного языка: как машина «понимает» речь

История NLP: от правил к нейронным сетям

Обработка естественного языка (Natural Language Processing, NLP) — раздел ИИ, занимающийся пониманием и генерацией человеческого языка. История: от ранних символических систем (правила плюс словарь) через статистические методы (машинный перевод на основе частот) к нейронным сетям и трансформерам.

Ранний машинный перевод (1950-е–60-е) — правила и словари. Провал: язык слишком сложен для правил. Georgetown-IBM experiment (1954): энтузиасты обещали решить проблему за 5 лет. Через 10 лет — ALPAC report (1966): машинный перевод недостижим и не нужен. Первая «зима» NLP.

Статистический поворот (1980-е–90-е): вместо правил — статистика больших корпусов. «Каждый раз, когда лингвист увольняется, качество перевода растёт» — полушутка исследователей IBM. IBM Candide, Google Translate — корпусный подход.

Глубокое обучение (2012–): нейронные сети на огромных данных. Word2Vec — векторное представление слов: «король — мужчина + женщина ≈ королева». BERT (Google, 2018) — двунаправленные трансформеры, предобучение на огромных корпусах. GPT — генеративный вариант.

Что NLP-системы умеют и не умеют

Современные LLM впечатляют: перевод, суммаризация, ответы на вопросы, генерация кода, написание эссе. Но они не «понимают» в том смысле, как понимают люди. «Китайская комната» Сёрля (мысленный эксперимент): человек в комнате следует правилам обработки китайских иероглифов — отвечает «правильно», не понимая ни слова.

Что хуже всего даётся NLP: здравый смысл (common sense reasoning), понимание физического мира, причинность, долгосрочная когерентность текста, надёжность фактических утверждений («галлюцинации»).

Вопрос для размышления: Вы использовали LLM для рабочих задач. Где он был полезен, а где разочаровал? Что это говорит о природе языка и понимания?

§ Акт · что дальше