Новости ГрузииПолитика

Как искусственный интеллект помогает прочитать утерянные тексты: от обуглившихся папирусов к философским трудам

Автор фото, Vesuvius Challenge

  • Автор, Отдел новостей
  • Место работы, Русская служба Би-би-си
  • Twitter,

Исследователи смогли виртуально «развернуть» папирусный свиток из библиотеки Геркуланума — древнеримского города, который вместе с Помпеями стал жертвой извержения Везувия в 79 г. н. э.

Свиток обуглился настолько, что физически развернуть его и попытаться прочитать невозможно — он просто развалится в руках. Поэтому ученые используют рентген и искусственный интеллект, чтобы воссоздать содержание папируса.

«Мы уверены, что мы сможем прочитать более-менее весь свиток целиком. Мы впервые можем заявить об этом с уверенностью», — сказал Стивен Парсонс, управляющий проектом Vesuvius Challenge.

Несколько обуглившихся папирусных свитков на белой подложке.

Автор фото, Getty Images

Огромная библиотека — более 1800 свитков — на вилле в Геркулануме, которая с тех пор получила название Вилла папирусов, была обнаружена археологами еще в XVIII веке. Считается, что это единственная античная библиотека, сохранившаяся в полном объеме.

Геркуланумские папирусы хранятся в Бодлианской библиотеке в Оксфорде, Институте Франции и музее Getty в Лос-Анджелесе. В течение многих десятилетий к ним никто не прикасался: исследователи опасаются навредить хрупким артефактам.

«Раньше мы не верили, что технологии могут быть достаточно безопасными или достаточно эффективными, чтобы извлечь хоть какую-то информацию из свитков», — объясняет глава отдела сохранности книг Бодлианской библиотеки Николь Гилрой.

Рисунок с планом виллы.

Автор фото, Getty Images

Но ради этого проекта команда достала один свиток из запасников. Его поместили в специально изготовленный для этой цели корпус и привели в Diamond Light Source — синхротрон в Оксфордшире.

Синхротрон ускоряет электроны почти до скорости света и производит изучение сильнее обычного рентгена. При помощи излучения можно получить изображения свитка, не повредив хрупкий папирус.

«Это позволяет увидеть объекты в масштабе нескольких тысячных миллиметра», — объясняет директор физических наук в Diamond Адриан Манкузо.

Получив изображения при помощи синхротрона, ученые создают 3Д-реконструкцию. Затем им предстоит идентифицировать слои внутри свитка (а это около 10 метров папируса).

«Мы должны определить, где заканчивается один слой и начинается другой, чтобы затем „развернуть» цифровое изображение свитка», — поясняет Манкузо.

Затем искусственный интеллект помогает ученым найти чернила на развернутом свитке. Это не так-то просто: и папирус, и чернила состоят из углерода и их почти невозможно отличить друг от друга.

«Уже понятно, что свиток полностью исписан», — говорит Стивен Парсонс. «Теперь мы можем работать над тем, чтобы четче проявить текст».

Вид на Геркуланум.

Автор фото, Getty Images

Предыдущий прорыв в работе над папирусами из Геркуланума произошел в начале 2024 года, когда группе ученых под руководством Грациано Раноккья из Пизанского университета удалось прочитать около 1000 слов на одном из свитков. Это открытие позволило уточнить детали о смерти древнегреческого философа Платона, в том числе выдвинуть новую теорию о месте его захоронения.

Бодлианский свиток, вероятно, тоже содержит философский текст, но команде потребуется больше изобретательности — как со стороны людей, так и со стороны компьютеров — чтобы это можно было сказать с большой уверенностью.

Междисциплинарное сотрудничество

Междисциплинарное сотрудничество с давних пор помогает расшифровать неизведанные письменности и прочитать тексты, которые раньше казались утерянными. Одно из самых главных открытий в классической филологии и античной истории в XX веке — расшифровка линейного письма Б — оказалось возможным благодаря архитектору Майклу Вентрису. Работу Вентриса дополнил и закончил лингвист Джон Чедвик.

Исследователь в пластиковых перчатках кладет обуглившийся свиток на инструмент, напоминающий весы.

Автор фото, Bodleian library

Цифровое «развертывание» свитков из Геркуланума началось в 2000-х благодаря Бренту Силсу — профессору университета Кентукки, специалисту по машинному обучению, ИИ и компьютерному зрению.

В 2005 году, когда многие институты начали оцифровывать тексты из своих коллекций, Силс задумался о том, нельзя ли виртуально «развернуть» свитки из Геркуланума.

Спустя четыре года у него был готов прототип, и ученый смог убедить Институт Франции предоставить ему свиток из их коллекции (при условии, что свиток не покинет институт). Однако доступных тогда вычислительных мощностей оказалось недостаточно, чтобы работать с изображениями свитка.

К 2015 году наконец-то технологии продвинулись достаточно для того, чтобы группа исследователей под руководством Силса смогла расшифровать манускрипт из израильской синагоги Эйн-Геди.

Подписывайтесь на наши соцсети и рассылку

Но применить ту же самую технологию для свитков из Геркуланума оказалось намного сложнее. Материал манускрипта Эйн-Геди — пергамент, который реагирует на рентгеновское излучение иначе, чем чернила. Этого достаточно, чтобы получить текст. Но чернила на папирусе различить при помощи снимков почти невозможно.

Тогда Силс решил обратиться к искусственному интеллекту, чтобы восстановить написанное на папирусах из Геркуланума.

Так появился проект Vesuvius Challenge. В 2022 году бывший исполнительный директор айти-компании GitHub Нат Фридман предложил Силсу организовать конкурс по расшифровке свитков, открытый для любых желающих. Фридман и его соратник по инвестициям в ИИ Дэниэль Гросс вложили 125 тыс. долларов, еще 1 млн был собран среди других инвесторов в Кремниевой долине и пользователей соцсетей, и в марте 2023 года проект был запущен

Силс поделился своими разработками и сканами папирусов в высоком разрешении с участниками конкурса. Они, в свою очередь, должны были разработать модели машинного обучения, которые позволили бы отличить текст от обугленного пепла.

С тех пор организаторы несколько раз награждали участников. В каждом раунде заявляется конкретная цель и размер награждения для победителей.

Участники и победители зачастую совсем не знают древнегреческого языка, на котором (скорее всего) написаны тексты. Результаты их работы передают папирологам, которые, в свою очередь, оценивают получившийся текст.

Весной 2024 года международная команда из трех студентов смогли выявить около 2000 греческих букв — и получили за это 700 тыс. долларов.

Комментарии в Facebook

NewsTbilisi

Информационное агентство NewsTbilisi было создано в 2015 году для объективного освещения политических и социально-экономических процессов на Евразийском континенте.