Честно скажу, я в этой статье далеко не все слова понимаю, но меня неизменно восхищает то, что делают в ABBYY на стыке IT и гуманитарщины (средствами IT для гуманитарщины?), а тут они еще исключительно правильно выбрали тему для примера ))
Вкратце: компания ABBYY рассказывает о своем методе компьютерного анализа литературных текстов -- на примере трилогии Верна.
От Англии до Таинственного острова вместе с героями романов Жюля Верна
mashaka 21 июля в 00:03 10,9k
С постоянно растущим объемом текстовой информации и уровнем развития инструментов web-визуализации возникает желание все эти объемы визуализировать. Демонстрация возможности такой визуализации — задача, которая была поставлена перед командой студентов в рамках работы ABBYY Labs и курса “Промышленное программирование” на Факультете инноваций и высоких технологий (ФИВТ) в МФТИ (если вы ещё ни разу не читали в нашем блоге о студенческих лабораториях ABBYY, есть смысл вернуться вот к этому посту).
Пятнадцати третьекурсникам-разработчикам и четырем четверокурсникам-менеджерам, студентам ФИВТ, было предложено за три месяца исследовать современные open-source решения визуализации структурированных данных и затем, выбрав для себя тему, визуализировать текстовую информацию на естественном языке. Переход от неструктурированной информации к структурированной предлагалось осуществить при помощи семантико-синтаксического парсера ABBYY Compreno.
А если не Жюль Верн, то кто?
Одно из самых бурных обсуждений за всё время работы над проектом было посвящено выбору текста-основы визуализации. Вариантов было множество: от старых советских газет и научных статей до серии романов “Песнь Льда и Пламени” и комиксов вселенной Marvel.
Поскольку многие тексты, которые нам нравились, были защищены авторскими правами, мы решили остановиться на классических литературных произведениях с истекшим сроком действия авторского права. Тут тоже не обошлось без дискуссий: предлагали и Шерлока Холмcа, и Тома Сойера, и многие другие романы, в итоге мы сошлись на том, что трилогия романов Жюля Верна “Дети капитана Гранта”, “Двадцать тысяч лье под водой” и “Таинственный остров” хорошо подходит для наших целей и нравится нам всем . Для анализа мы взяли англоязычный и русскоязычный переводы.
Желающих читателей мы сразу приглашаем на сайт julesvernetrilogy.com — вы можете параллельно читать статью и нажимать на кнопки. Итак, выбираем язык (русский или английский) — и поехали.
Переходим к структурированной информации
Извлечением данных из текстов романов занималась отдельная группа. Ребятам нужно было выделить локации и события, которые встречаются в романах, найти взаимосвязи между героями, составить описание внешности и речевые портреты персонажей, а также сделать умную разметку текстов книг. Чтобы решить каждую из этих задач, студенты использовали разнообразную информацию о тексте, полученную при помощи парсера ABBYY Compreno. Подробно о работе парсера мы писали здесь, а сейчас расскажем, как он нам помог структурировать информацию из романов Жюля Верна.
Читать дальше на стороннем ресурсе
И обязательно перейдите на сайт - в иконки потыкать