Цифровой шаман: как искусственный интеллект пытается воскресить язык, которого никто не слышал

13 марта 2026
0
50
Представьте, что вы держите в руках камень, высеченный тысячу лет назад. Его покрывают письмена, которые не видел никто из ныне живущих. Расшифровать их — значит услышать голос давно исчезнувшей цивилизации. Но что делать, если сам камень разбит, а уцелевшие фрагменты можно пересчитать по пальцам? Лингвисты нашли ответ на этот вызов, создав «машину предсказаний». В этой статье мы расскажем о технологии, которая способна реконструировать не только утерянные слова, но, возможно, и целые главы истории человечества, бросив вызов самому времени.

В мире исторической науки есть особый вид артефактов, которые дразнят исследователей своей загадочностью. Они подобны закрытым шкатулкам, ключи от которых утеряны навсегда. Фестский диск с его неповторимыми иероглифами, загадочное Линейное письмо А минойской цивилизации — и Сингапурский камень. Долгое время этот скромный обломок песчаника был лишь молчаливым свидетелем истории, которую он мог бы рассказать, но упорно молчал. Однако сегодня, в эпоху цифровых технологий, у учёных появился новый союзник. Имя ему — алгоритм.

Камень, взорванный во имя прогресса

История Сингапурского камня — это детектив, достойный пера Дэна Брауна, но с печальным началом. В 1819 году, когда сэр Стэмфорд Раффлз только ступил на землю Сингапура, британцы обнаружили в устье реки Сингапур внушительный песчаниковый монолит. Это была грубая глыба размером около трёх квадратных метров, покрытая затейливой резьбой. Для местного населения камень, несомненно, был священным или историческим артефактом, окутанным ореолом тайн. Европейцы же, захваченные прагматизмом колониальной эпохи, увидели в нём лишь препятствие.

Молчаливый свидетель веков.Молчаливый свидетель веков.Сингапурский камень.CC BY 4.0

Прошло всего 24 года. В 1843 году, чтобы расчистить место для строительства форта и расширения русла реки, британские инженеры приняли волевое решение: монолит мешает, значит, его нужно убрать. Но не просто убрать, а взорвать. Динамит разнёс древнее послание на сотни осколков. Большая часть из них навсегда исчезла в строительном мусоре или была использована как щебень. Лишь три фрагмента учёные успели спасти и отправить для изучения в музей Королевского Азиатского общества в Калькутту.

Там следы теряются на долгие десятилетия. Лишь в 1918 году один-единственный фрагмент необъяснимым образом вернулся в Сингапур, в музей Раффлза. Именно он и является единственным физическим свидетельством существования загадочной надписи, доступным сегодня. Всё, что у нас есть — это этот небольшой кусок камня да несколько грубых зарисовок, сделанных до взрыва. На них видно, что оригинальная надпись состояла примерно из 50 строк, но содержание большей части текста безвозвратно утеряно.

Язык-призрак

Главная загадка Сингапурского камня — не только в его трагической судьбе, но и в самом тексте. Уцелевшие символы явно относятся к индийско-малайскому миру. Они напоминают древнее яванское письмо Кави, которое использовалось для записи произведений на одноименном литературном языке, или старо-балийский шрифт. Однако, как это ни парадоксально, надпись на камне не соответствует ни одному из известных письменных языков планеты. Это уникальная система, которая, возможно, была разработана специально для записи какого-то конкретного языка или диалекта, либо является неизвестным ответвлением более крупной языковой семьи.

Это обстоятельство породило множество легенд. Самая популярная связывает камень с могучим силачом Бадангом — героем малайского эпоса, служителем при дворе султана. Согласно преданию, именно в честь его подвигов и была воздвигнута стела. Другие теории отсылают к влиянию империи Маджапахит, чья экспансия в XIV веке затронула большую часть Юго-Восточной Азии. Но пока текст не прочитан, все эти версии — не более чем красивые догадки, танцующие вокруг пустоты.

Рождение «Грамматиатора»

Перед группой лингвистов, включая автора этих строк, стояла задача, казавшаяся невыполнимой. Как работать с текстом, 99% которого уничтожено? Как искать закономерности там, где нечего анализировать? Традиционные методы эпиграфики (науки о надписях на твердых материалах) и филологии требовали если не целого текста, то хотя бы связных отрывков. У нас же были разрозненные символы.

Ответ пришел из мира больших данных и машинного обучения. Мы задались вопросом: а что, если компьютер сможет предсказать утерянные части текста так же, как поисковая система предсказывает следующий символ в вашем запросе? Так родилась идея создания программного инструмента, который мы назвали «Read-y Grammarian» (игра слов: «готовый грамматист» или «читающий грамматист»).

Разработка заняла несколько лет и была сопряжена с множеством трудностей. Главной проблемой было обучить алгоритм не просто механическому подбору символов, а пониманию (пусть и математическому) структуры человеческого языка. Мы должны были научить машину «думать» как лингвист.

Машина предсказаний: как это работает

Представьте себе гигантскую головоломку, от которой уцелело всего несколько десятков фрагментов, причём некоторые из них — лишь угловые кусочки, по которым невозможно понять общий рисунок. «Read-y Grammarian» действует как супер-компьютер, который способен перебрать триллионы вариантов сборки, опираясь на знание того, как обычно выглядят подобные картинки.

Реконструкция оригинального текста Сингапурского камня.Реконструкция оригинального текста Сингапурского камня.

Процесс начинается с оцифровки. Мы сканируем всё, что у нас есть: уцелевший фрагмент, старые рисунки, зарисовки утерянных кусков. Каждому символу, каждому штриху присваивается уникальный буквенно-цифровой код. Мы фиксируем не только форму знака, но и его точное положение в строке, расстояние до соседей, наклон. Таким образом, физический артефакт превращается в цифровую матрицу.

Затем в дело вступает алгоритм. Он анализирует плотность текста, количество символов в сохранившихся строках и, учитывая физические размеры оригинального камня, начинает реконструировать геометрию текста. Он определяет, сколько строк было на самом деле и где именно проходили разрывы. Это первый этап — восстановление «скелета» надписи.

Второй этап — это настоящая магия статистики. Алгоритм использует частотный анализ. Он знает, что ни один язык в мире не является хаотичным набором символов. В любом языке есть определённые паттерны: частота появления гласных и согласных, наиболее употребительные сочетания букв (биграммы и триграммы), типичная длина слов. «Read-y Grammarian» применяет эти универсальные лингвистические законы к нашей матрице.

Допустим, в начале строки мы имеем три символа, а затем пробел. Далее — разрушенный участок, а затем ещё два символа. Машина начинает «предсказывать», какие знаки могли находиться в промежутке, чтобы получилось осмысленное с точки зрения лингвистических паттернов слово или фраза. Она генерирует сотни, тысячи вариантов.

Но самое интересное — мы можем подсказывать машине. В настройках системы мы задаем так называемый «референсный язык». Это может быть древнеяванский, санскрит, один из австронезийских языков. Мы также можем настроить параметры морфологии (правила образования слов) и синтаксиса (правила построения предложений), характерные для этой языковой группы. Алгоритм затем использует эти параметры как фильтр, отсеивая варианты, которые невозможны для данного типа языков.

На выходе мы получаем несколько версий реконструированного текста. Задача исследовательской группы — проанализировать эти версии и выбрать те, которые выглядят наиболее логичными, связными и лингвистически обоснованными. По сути, мы не просто угадываем буквы, мы создаём каркас, на который в будущем можно будет нанизать фонетику и смысл.

Прорыв в тишине

Работа над Сингапурским камнем была похожа на блуждание в полной темноте. Но после запуска финальной версии «Read-y Grammarian» свет начал пробиваться. На сегодняшний день мы достигли того, что казалось невозможным ещё десятилетие назад: мы реконструировали несколько лингвистически правдоподобных версий полного текста надписи.

Важно подчеркнуть: реконструировать — не значит прочитать. У нас есть несколько вариантов того, КАКИЕ символы могли быть на месте утраченных фрагментов. Мы можем с высокой долей вероятности сказать, что в строке 12 было 24 символа, и что предпоследний из них, судя по паттернам, должен быть именно таким, а не иным. Мы восстановили объём и форму послания, но его содержание — тайна за семью печатями. Однако это колоссальный шаг вперёд. Теперь у нас есть полный текст для анализа, пусть и виртуальный. Теперь мы можем применять к нему методы криптоанализа, не спотыкаясь на каждом шагу о «чёрные дыры» пустоты.

Новая эра эпиграфики

Созданный нами инструмент выходит далеко за рамки работы с одним артефактом. «Read-y Grammarian» — это универсальный солдат в мире повреждённых текстов. С минимальными настройками его можно применить для восстановления обугленных свитков папируса из Геркуланума, которые погубило извержение Везувия, или для соединения фрагментов глиняных табличек с аккадской клинописью, разбившихся тысячелетия назад.

Мы уже работаем над улучшенной версией алгоритма. Новая модель будет включать в себя элементы исторической фонологии. Это позволит машине не просто подбирать символы, но и предсказывать, как эти символы могли звучать и как менялось их звучание с течением времени. Это критически важно, если мы имеем дело с языком, на котором говорили много веков назад. Мы надеемся, что вскоре сможем перейти от реконструкции графики к озвучиванию текста.

Непознанное рядом

Сингапурский камень — это не просто историческая загадка. Это символ того, как много мы ещё не знаем о собственном прошлом. Каждая такая находка — как нить Ариадны в лабиринте веков. Легенда о силаче Баданге, тайны империи Маджапахит, связи между культурами Индии и островной Юго-Восточной Азии — всё это может оказаться либо вымыслом, либо неопровержимой правдой, записанной на куске песчаника.

Сейчас мы стоим на пороге возможного открытия. Мы не знаем, сколько времени займет расшифровка. Язык на камне может оказаться диалектом, который исчез, не оставив потомков, или же он может быть записью хорошо известного языка, но доселе неизвестным письмом. «Read-y Grammarian» — это наш цифровой шаман, который пытается вызвать дух древнего писца и попросить его заговорить вновь.

И если это произойдёт, мы наконец услышим голос из камня, который молчал тысячу лет, пережил взрыв, забвение и теперь, благодаря строкам кода, готов поведать свою историю. История человечества, как пазл, собирается по кусочкам. И теперь у нас есть инструмент, способный найти даже те кусочки, которые, казалось, рассыпались в пыль навсегда.
Информация
Добавить комментарий
Главное
Публикации
Обновления сайта
Подписка на обновления:

Подписка на рассылку:
Рассылка The X-Files - ...все тайны эпохи человечества

Группы в социальных сетях:
Это интересно