Аспирант Даниил Алексеевский рассказал о разработке электронного тезауруса для русского языка
Тезаурусы типа Princeton WordNet широко применяются для решения разнообразных задач автоматической обработки текста, в которых требуется определять семантическую близость слов, а также в задачах автоматического перевода. Несмотря на то, что потребность в таких ресурсах существует, сегодня для русского языка нет открытых тезаурусов, полностью соответствующих стандартам Princeton WordNet.
Даниил Алексеевский разработал цепочку программ для обработки толковых словарей с тем, чтобы извлекать из них отношения общее-частное (гипонимо-гиперонимические), являющиеся основой WordNet. На данный момент цепочка верно (точность 85%, что значительно превышает опубликованные аналогичные работы) определяет слово в толковании, являющиееся обобщающим термином, однако дизамбигуация (выбор толкования обобщающего термина) пока что требует улучшений. Тем не менее для некоторых классов существительных дизамбигуация работает успешно, например, из словаря корректно извлекаются и разделяются между собой музыкальные инструменты и технические инструменты-приборы.
Далее Даниил намерен улучшить дизамбигуацию, используя технологию Word2Vec, а затем проанализировать и сравнить результаты обработки нескольких словарей.