Промежуточный отчет по работе студенческого проекта "Новая шугнанская лексика"

Продолжается работа над проектом «Новая шугнанская лексика и материалы для глагольной базы: шугнанские глаголы в типологическом освещении. Проект поддержки шугнанского языка». Проект создан при поддержке фонда "Гуманитарные исследования" ФГН НИУ "Высшая школа экономики" в 2023-2024 гг.

О проекте

Наш проект посвящен развитию и наполнению данными из шугнанского языка базы данных глагольных колексификаций. Цель данной базы – подробная разметка каждой лексемы с учетом структуры события, аргументной структуры, полисемии и семантических переходов, что в перспективе позволит делать типологические обобщения для глаголов из разных языков.

На основе введенного материала проводится отладка работы интерфейса, добавляются новые возможности разметки (контролируемость каждой из стадий события, связи между разными семантическими шаблонами) и визуализации данных (разработан табличный формат представления материала).

Устройство базы

В базе есть две категории данных: “шаблоны” и “лексемы”.

Шаблоны представляют из себя более общие значения, которые могут выражаться разными лексемами. Для каждого шаблона отмечаются участники и подробно прописывается основная структура события. Шаблоны могут относиться к еще более общему “над-шаблону”.

Для шаблонов и значений подробно размечаются участники и структура события. Для участников размечаются их семантическая роли, а также таксономические и топологические свойства. Для структуры события подробно расписываются релевантные для события стадии (начальное состояние, начало действия, процесс, завершение действия, результат, следствие), контролируемость каждой из выделенных стадий структуры события; а также является ли выделенная стадия ассерцией или пресуппозицией.

Для конкретных значений также приводятся параметры, по которым они отличаются от других значений в данном шаблоне, примеры употребления и ссылка на полную словарную статью.

Разные значения многозначной лексемы могут входить в разные шаблоны и различаться по составу участников и структуре события. Так как данная работа нацелена во многом на анализ полисемии, база заполняется в первую очередь многозначными глаголами.

Результаты работы (отчет за первое полугодие)

Наполнение базы

Мы значительно увеличили объем аннотированных данных в нашей базе: за это время Лея Финкельберг, Полина Леонова, Мария Суворова и Валерия Маринина внесли в базу:

23 новых шаблона
64 лексемы
111 конкретных значений.

Таким образом, в нашей базе есть уже 462 аннотированных единицы!

Устройство базы

Юрий Макаров разработал и запустил поисковый интерфейс (http://lexicology.pamiri.online/search). Результаты нашей работы теперь доступны всем пользователям!

База постоянно дорабатывается, в ней появляются новые функции, позволяющие лучше структурировать и отображать данные.

Научные результаты

В течение первого полугодия участники проекта регулярно встречались для обсуждения текущей работы с Дарьей Александровной Рыжовой.

В октябре Дарья Рыжова, Юрий Макаров и Дарья Чистякова написали и подали статью на конференцию Language Resources and Evaluation про концепцию и устройство базы данных.