Цивилизация

Цивилизация — мореплаватели, первопроходцы, исследователи

ИИ привлекут к созданию первого в мире корпуса древнеславянских текстов

  • 18
  • марта

Категории: Цивилизация

Институт русского языка им. Виноградова РАН, НИУ ВШЭ, НИТУ «МИСиС», Комиссия по работе с вузами и научным сообществом при Епархиальном совете Москвы создадут с помощью искусственного интеллекта уникальный свод памятников письменности – корпус рукописных древнеславянских текстов. Благодаря ИИ гигантская по человеческим меркам работа может не растянуться на века, а быть выполненной в обозримом будущем.

Корпус станет мощным инструментом изучения современных славянских языков и культур и ключом к их наследию для исследователей-лингвистов и историков. Он будет представлять собой структурированную, обработанную базу данных, информационно-справочную систему, основанную на собрании оцифрованных текстов.

К древнеславянским текстам относятся рукописные памятники 11-17 веков. Создание их системного корпуса – трудоемкая, тонкая, кропотливая работа. Для нее требуется объединение усилий профессионалов различных сфер. Ученые считают, что это задача общенационального характера.

Согласно пояснению зампреда Комиссии по работе с вузами и научным сообществом при Епархиальном совете Москвы иеромонаха Родиона (Ларионова), к древнеславянским относятся древнерусские, сербские, болгарские рукописи – тысячи богослужебных текстов, язык которых от века к веку менялся. Если их систематизировать и анализировать с помощью человеческих ресурсов, то такой астрономический труд мог бы растянуться на века, тем более профессионалов, способных на такое дело, очень мало. Современные технологии оцифровки, распознавания, машинного перевода и глубокого обучения нейросетей позволят закончить такой важный проект в обозримом времени.

ИИ позволит оперировать всем этим гигантским массивом данных, систематизировать его, создавать алгоритмы для лингвистической разметки, что будет отличать корпус от привычных, даже цифровых, библиотек.

Цифровые проекты работы с культурным наследием активно создаются в Европе и показывают прекрасный пример междисциплинарного взаимодействия. Языковые памятники преобразуют из сканированных картинок в «машиночитаемые» тексты и создают языковые модели, помогающие анализировать и понимать тексты. Для славянских текстов с их витиеватым написанием и множеством диакритических знаков это будет первый опыт.

По мнению ведущего эксперта Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ МИСиС Андрея Устюжанина, новый проект – мостик между культурой прошлого и технологиями будущего. Опыт междисциплинарных проектов показывает: еще важнее, чем самые продвинутые технологии, оказывается закладывание основ общения специалистов друг с другом – языковедов, разработчиков искусственного интеллекта и других.

Первый этап проекта – перевод в цифровой вид и разметка древнерусских, болгарских и сербских церковных служебных миней 11-17 веков из собраний ГИМ, государственной и национальной библиотек, РГАДА, Свято-Троицкой Сергиевой лавры.



© 2007-2020 Цивилизация