• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Факультет гуманитарных наук

 

Подписаться на новости

Игра «Толстой или компьютер» для сайта «Арзамас»

На сайте просветительского проекта «Арзамас» опубликована игра «Толстой или компьютер», подготовленная сотрудником центра цифровых гуманитарных исследований НИУ ВШЭ Борисом Ореховым.

Игра «Толстой или компьютер» для сайта «Арзамас»

Игра была разработана как часть большого курса, посвященного жизни и творчеству Л.Н. Толстого. Задача играющего — отличить подлинно толстовские слова в тексте от синонимов (или квазисинонимов), подобранных автоматически. Для подбора этих своеобразных «ложных целей» использовалась разработка сотрудника центра цифровых гуманитарных исследований НИУ ВШЭ, доцента школы лингвистики Бориса Орехова под названием novel2vec. 

Программа novel2vec опирается на достижения дистрибутивной семантики в сфере автоматического определения семантической близости слов. Подробнее об идее и применении программы мы рассказывали здесь, техническая реализация описана здесь. С помощью novel2vec в текстах Толстого были заменены все существительные, прилагательные, глаголы и наречия. 

Опыт показывает, что при замене слов на ближайшие квазисинонимы даже хорошие знатоки Л.Н. Толстого не могут пройти игру безошибочно. Таким образом, дистрибутивная семантика позволяет в автоматическом режиме «переписывать» художественные тексты так, что они не выглядят искусственно и остаются достаточно похожими на оригинал. Помимо популяризаторских и развлекательных целей, эту технологию можно применять в образовании, в частности, при подготовке тестов по русскому языку для иностранцев, аналогичных TOEFL и CAE.

Опыт показывает, что при замене слов на ближайшие квазисинонимы даже хорошие знатоки Л.Н. Толстого не могут пройти игру безошибочно. Таким образом, дистрибутивная семантика позволяет в автоматическом режиме «переписывать» художественные тексты так, что они не выглядят искусственно и остаются достаточно похожими на оригинал. Помимо развлекательных целей, эту технологию можно применять в образовании, в частности, при подготовке тестов по русскому языку для иностранцев, аналогичных TOEFLи CAE.