Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Аспирант Даниил Алексеевский рассказал о разработке электронного тезауруса для русского языка

Аспирант школы по филологическим наукам Даниил Алексеевский представил завершающий этап своей диссертационной работы по построению электронного русскоязычного тезауруса, аналогичного Princeton Wordnet.

Тезаурусы типа Princeton WordNet широко применяются для решения разнообразных задач автоматической обработки текста, в которых требуется определять семантическую близость слов, а также в задачах автоматического перевода. Несмотря на то, что потребность в таких ресурсах существует, сегодня для русского языка нет открытых тезаурусов, полностью соответствующих стандартам Princeton WordNet.

Даниил Алексеевский разработал цепочку программ для обработки толковых словарей с тем, чтобы извлекать из них отношения общее-частное (гипонимо-гиперонимические), являющиеся основой WordNet. На данный момент цепочка верно (точность 85%, что значительно превышает опубликованные аналогичные работы)  определяет слово в толковании, являющиееся обобщающим термином, однако дизамбигуация (выбор толкования обобщающего термина) пока что требует улучшений. Тем не менее для некоторых классов существительных дизамбигуация работает успешно, например, из словаря корректно извлекаются и разделяются между собой музыкальные инструменты и технические инструменты-приборы.

Далее Даниил намерен улучшить дизамбигуацию, используя технологию Word2Vec, а затем проанализировать и сравнить результаты обработки нескольких словарей. 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

По всем вопросам обращайтесь по телефону

+7 495 772-95-90 *22161

или пишите на почту

fgn@hse.ru

Адрес для корреспонденции:

101000, Москва, ул. Мясницкая 20