• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О проекте «Слово Толстого»

В сентябре 2021 года проект «Слово Толстого. Цифровой путеводитель по наследию писателя» выиграл грант президентского фонда культурных инициатив. Проект строится на базе сразу нескольких предыдущих проектов Центра цифровых гуманитарных исследований. В работе над проектом участвуют  студенты, выпускники и преподаватели НИУ ВШЭ и НКО Родное слово.

О проекте «Слово Толстого»

© www.culture.ru

Цель проекта - создание современного цифрового путеводителя по наследию Льва Толстого со справочным аппаратом, расширенным поиском, встроенным инструментарием как для каждого интересующегося литературой и культурой, так и для профессионального исследователя. Облегчить современному читателю понимание языка классики XIX века, актуализировать наследие Л.Н. Толстого.

Актуальность проекта

Лев Толстой сохраняет позицию одного из самых популярных русских писателей и всё чаще становится предметом исследований в научных и художественных целях. За один только 2021 год в Google Scholar насчитывается более 2 тысяч публикаций, связанных с Толстым.

Однако с каждым днем дистанция между языком Толстого (языком второй половины XIX века) и языком современного читателя становится всё больше. Некоторые слова ушли в забвенье, у других кардинально изменился смысл, а значение третьих опирается на неизвестный обывателю контекст — всё это может вызывать затруднения в интерпретации текстов. Проект «Слово Толстого» создаётся для решения таких проблем.   

Материальным основанием «Слова Толстого» стал оцифрованный многотомник Толстого с семантической разметкой — проект Tolstoy Digital (подробнее о результатах можно почитать здесь). Только если в Tolstoy Digital были оцифрованы произведения самого Толстого, то в «Слове Толстого» материал будет принципиально расширен критическим аппаратом с комментариями редакторов, примечаниями. Благодаря этому у пользователя возникает возможность увидеть текст в динамике (разные вариации) и контексте литературоведения.

Инструменты

С точки зрения функционала основной инструмент портала — поисковая система. Её прототип был подготовлен уже на этапе подачи заявки на грант, но интерфейс продолжает дорабатываться. Система поиска будет улучшена за счёт разметки и последующего связывания именованных сущностей. Этот подход облегчает, например, поиск по персоналиям (точнее, по именованным сущностям из Указателя к Толстому), позволяя ввести имя и увидеть произведения, где персоналия упоминается. Сам Указатель Толстого или «91-й том» был извлечён Борисом Ореховым ещё в 2017 году, а на его основе была построена отдельная сеть графов совместных упоминаний людей, где имена привязаны к страницам так, как на бумаге. Основная идея связывания именованных сущностей заключается в том, чтобы с помощью указателя в тексте можно было найти также и те сущности, которые не совпадают по форме написания с указателем, то есть то, что не найти простым поиском. Например, если в указателе написано «Диккенс», то будут учтены и вещи вроде «Холодный дом» или «Крошка Доррит». Эти именованные сущности также могут быть привязаны, например, к биографическим базам данных.

Соответственно, это вызывает необходимость подготовить и связать с текстами несколько словарей — словарь имен собственных, а также словарь редких слов с объяснениями и отдельный словарь, построенный на векторных моделях. Для подготовки словаря редких слов используется опыт Бориса Орехова и Любови Полянской, которые в 2018 году подготовили веб приложение Дрожки. Оно автоматически выявляет редкие слова по их частотности, указанной в частотном словаре Ляшевской-Шарова, и подбирает перевод из Малого академического словаря русского языка. Словарь, построенный на векторных моделях, покажет нам особенности Толстовского словоупотребления: какие слова изменили свой смысл в сегодняшнем языке, а какие слова Толстой употреблял не так, как современники.

Помимо этого, на портале у пользователя будет возможность скачать произведения по отдельности в формате TEI, ему будут доступны инструменты инфографики, а также форум для обсуждения текстов Толстого и личный кабинет, где можно будет сохранять цитаты и результаты поиска. Все эти расширения должны, с одной стороны, облегчить исследователям Толстого научный процесс, с другой — привлечь новых, заинтересовав возможностями «глубокого» чтения.

Подробнее о работе над проектом, сложностях и задачах, которые еще предстоит решить, можно прочитать здесь.