Как цифровые гуманитарии зафрендились с ABBYY
На прошлой неделе цифровые гуманитарии с образовательной программы «Цифровые методы в гуманитарных науках» впервые покинули аудитории на Басманной и отправились пить чай с печеньками где-то еще — а именно, в центральный офис ABBYY, международной IT-компании с российскими корнями, которая занимается оцифровкой документов, OCR-распознаванием, инженерией знаний и компьютерной лингвистикой.
Студенты в гостях у компании ABBYY // Фото: Полина Старосоцкая, ОП «Цифровые методы в гуманитарных науках»
Основной темой встречи была программа для оптического распознавания символов ABBYY FineReader. Цифровым гуманитариям уже доводилось пользоваться FineReader в работе над учебными задачами и проектами по оцифровке. Поэтому они активно интересовались преимуществами программы на фоне других OCR-систем. Вот некоторые полезные «фичи» FineReader:
- наличие широких параметров настроек для языков. Так, только для русского существует несколько видов: современный, дореволюционный, с выделенными ударениями;
- автоматическое фоновое распознавание, которое не требует применение основного OCR при высоком качестве оцифровки документа или изображения;
- функция редактирования pdf-документа, а также защита паролем или цифровой подписью от несанкционированных изменений;
- удобное копирование объектов: текста, таблиц, картинок, ссылок, сносок.
- функция сравнения двух документов, которая позволяет обнаружить количество несоответствий или несанкционированных изменений;
- сохранение комментариев к документу из предыдущих версий;
- возможность пользовательской настройки языков и словарей;
Не желая отпускать рассказчиков, студенты начали расспрашивать об алгоритмах, заложенных в основу программы. Не обошлось без многослойных нейронных сетей и сквозного (end-to-end) подхода.
Тимлид OCR New Technologies Group в ABBYY Андрей Упшинский рассказывает о новых технологиях в оптическом распознавании символов // Фото: Полина Старосоцкая, ОП «Цифровые методы в гуманитарных науках» НИУ ВШЭ
Однако нейросети применяют не для всех языков и в особо сложных для распознавания случаях. А все дело во времени работы и большой нагрузке на вычислительные ресурсы компьютера. Оказывается, в большинстве случаев классические алгоритмы машинного обучения тоже хорошо справляются.
И о высоком
На третьем часу встречи, когда гости почти уничтожили заботливо приготовленные для них фрукты и печенья, разговор перешел на цифровые проекты, реализованные ABBYY. Наибольшее внимание уделили инициативам «Весь Толстой в один клик», «Открой историю Большого».
PR-директор ABBYY Россия Татьяна Поташева рассказывает о проектах по сохранению культурного наследия // Фото: Даниил Скоринкин, ОП «Цифровые методы в гуманитарных науках» НИУ ВШЭ
В проекте вокруг Льва Толстого участвовали волонтеры из 49 стран (всего — 3249 человек!), в «Открой историю Большого» — уже из 60. В обоих случаях количество участников соответствовало масштабности задач — создание электронной версии 90-томного собрания сочинений Льва Николаевича Толстого и архива афиш, программок и прочих документов Большого театра.
Фото: Даниил Скоринкин, ОП «Цифровые методы в гуманитарных науках» НИУ ВШЭ
К концу встречи возникло убеждение, что значительные проекты проще реализовать в команде и с применением качественных технологий. Так что цифровые гуманитарии, тепло попрощавшись с ABBYY, ушли с мыслями о проведении собственных исследований в сотрудничестве с этой компанией.