Стажеры-исследователи лаборатории языковой конвергенции разработали новый интерфейс для устных корпусов в Кракове
Работа проходила под руководством разработчика платформы SpoCo (Spoken Corpora) Михала Возняка в департаменте методологии института польского языка. До сих пор для создания корпусов русского языка использовалась первая версия SpoCo: она обеспечивала возможность поиска в корпусе по токену, лемме и грамматическим тегам, также можно было фильтровать выдачу, задавая метаданные. Версия SpoCo 2.0 обладает важными дополнительными функциями: в частности, стал доступен просмотр выдачи результата поиска в формате KWIC, появилась возможность скачать определенные примеры из выдачи, была реализована постраничная выдача результатов и др. Важным шагом в развитии устных корпусов лаборатории также стала смена морфологического анализатора: теперь при поиске по грамматическим тегам пользователь должен ориентироваться на формат грамматических разборов парсера pymorphy2, о чем подробно рассказывается в инструкции. Обновленный парсер позволяет присваивать грамматическую аннотацию практически всем токенам в корпусе, а также совершенствовать поиск благодаря более широкому спектру грамматических тегов. С обновленной версией платформы можно ознакомиться на примере корпусов Малинино и опочецких говоров.
Кроме работы над корпусами, Лере и Насте удалось поучаствовать в научной жизни института польского языка. В начале недели они посетили семинар научной группы “Computational Stylistics Group”, где рассказывалось о методах тематического моделирования текстов (topic modelling) при помощи машинного обучения. В пятницу же в рамках регулярного семинара “Digital humanities lunch” Лера и Настя сделали доклад о корпусах русского языка, созданных в лаборатории. Они рассказали о том, как создавались корпуса, какие теоретические исследования проводятся на материале корпусов и о не-корпусных ресурсах, также созданных в лаборатории.
На этом совершенствование корпусов лаборатории не заканчивается: в ходе работы в Кракове были сформулированы векторы для дальнейшего развития платформы, а также планы по расширению сферы совместной работы с польскими коллегами. В частности, планируется дальнейшее улучшение интерфейса SpoCo (например, выбор грамматических тегов при помощи формы), расширение функционала (возможность редактировать данные корпуса для авторизованных пользователей) и развитие кода платформы.
Морозова Валерия Алексеевна
Международная лаборатория языковой конвергенции: Стажер-исследователь
Панова Анастасия Борисовна
Международная лаборатория языковой конвергенции: Стажер-исследователь