Stella Lontana
Тоска по совершенству? Ну-ну! (с) Ундервуд
Давно хотела притащить сюда эту статью, но не знала как: на Хабре нет кнопочки "Перепостить", а копировать текст - все картинки потеряются. Так что я дам тут начало текста, а потом переходите по ссылке (и обязательно загляните на сайт!)

Честно скажу, я в этой статье далеко не все слова понимаю, но меня неизменно восхищает то, что делают в ABBYY на стыке IT и гуманитарщины (средствами IT для гуманитарщины?), а тут они еще исключительно правильно выбрали тему для примера ))

Вкратце: компания ABBYY рассказывает о своем методе компьютерного анализа литературных текстов -- на примере трилогии Верна.

От Англии до Таинственного острова вместе с героями романов Жюля Верна
mashaka 21 июля в 00:03 10,9k

С постоянно растущим объемом текстовой информации и уровнем развития инструментов web-визуализации возникает желание все эти объемы визуализировать. Демонстрация возможности такой визуализации — задача, которая была поставлена перед командой студентов в рамках работы ABBYY Labs и курса “Промышленное программирование” на Факультете инноваций и высоких технологий (ФИВТ) в МФТИ (если вы ещё ни разу не читали в нашем блоге о студенческих лабораториях ABBYY, есть смысл вернуться вот к этому посту).

Пятнадцати третьекурсникам-разработчикам и четырем четверокурсникам-менеджерам, студентам ФИВТ, было предложено за три месяца исследовать современные open-source решения визуализации структурированных данных и затем, выбрав для себя тему, визуализировать текстовую информацию на естественном языке. Переход от неструктурированной информации к структурированной предлагалось осуществить при помощи семантико-синтаксического парсера ABBYY Compreno.



А если не Жюль Верн, то кто?

Одно из самых бурных обсуждений за всё время работы над проектом было посвящено выбору текста-основы визуализации. Вариантов было множество: от старых советских газет и научных статей до серии романов “Песнь Льда и Пламени” и комиксов вселенной Marvel.

Поскольку многие тексты, которые нам нравились, были защищены авторскими правами, мы решили остановиться на классических литературных произведениях с истекшим сроком действия авторского права. Тут тоже не обошлось без дискуссий: предлагали и Шерлока Холмcа, и Тома Сойера, и многие другие романы, в итоге мы сошлись на том, что трилогия романов Жюля Верна “Дети капитана Гранта”, “Двадцать тысяч лье под водой” и “Таинственный остров” хорошо подходит для наших целей и нравится нам всем :). Для анализа мы взяли англоязычный и русскоязычный переводы.

Желающих читателей мы сразу приглашаем на сайт julesvernetrilogy.com — вы можете параллельно читать статью и нажимать на кнопки. Итак, выбираем язык (русский или английский) — и поехали.

Переходим к структурированной информации

Извлечением данных из текстов романов занималась отдельная группа. Ребятам нужно было выделить локации и события, которые встречаются в романах, найти взаимосвязи между героями, составить описание внешности и речевые портреты персонажей, а также сделать умную разметку текстов книг. Чтобы решить каждую из этих задач, студенты использовали разнообразную информацию о тексте, полученную при помощи парсера ABBYY Compreno. Подробно о работе парсера мы писали здесь, а сейчас расскажем, как он нам помог структурировать информацию из романов Жюля Верна.



Читать дальше на стороннем ресурсе

И обязательно перейдите на сайт - в иконки потыкать ;-)

@темы: Жюль Верн, Мир вокруг нас