Финальный отчет по студенческому проекту "Развитие онлайн-платформы для изучения языков Памира"
Как и в прошлом полугодии, мы вели работу в двух направлениях: пополнение корпуса и разработка сайта памирских языков. Мы достигли поставленных целей и делимся с вами нашими успехами.
Работа над корпусом
Основной задачей в работе над корпусом шугнанского языка всё еще являлась поморфемная разметка текстов с помощью специальных грамматических тегов - глосс, а также специальных тегов для частей речи. Во втором полугодии также размечались устные тексты. Таким образом, к концу учебного года удалось пополнить корпус более чем на четыре тысячи слов, что позволило довести общее число словоформ до 61,203. Кроме того, были исправлены недостатки предыдущей версии интерфейса, а также добавлен полностью английский вариант интерфейса. Последняя версия сайта пока не доступна в связи с техническими затруднениями со стороны сервера. Временно организован доступ к корпусу по этой ссылке.
Разработка сайта
В рамках разработки сайта памирских языков была проделана большая работа по добавлению трёх словарей в соответствующий раздел. Теперь наши посетители могут осуществлять поиск не только по шугнанско-русскому словарю Д. Карамшоева, но и по шугнанско-русскому словарю И.И. Зарубина, а также рушанско-русскому и хуфско-русскому словарям В.С. Соколовой.
В дополнение текущей словарной разметке был разработан интерфейс, позволяющий редакторам проставлять статьям метки, соответствующие мереологическим, таксономическим и топологическим классам. Наличие такой лексико-семантической разметки превращает онлайн-словарь в лингвистический инструмент. Использование размеченных параметров расширяет возможности поиска в словаре, а также позволяет разрешать лексико-семантические неоднозначности (например, для полисемичных глаголов). Ниже продемонстрирована словарная статья с размеченным таксономическим классом.