Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Командные DH-проекты: «Отечественные записки 2.0»

Считается, что хорошее обучение включает не только изучение теории и методологии, но и практическое применение полученных навыков. Поэтому с начала октября цифровые гуманитарии делают исследования для курсовых и разрабатывают командные проекты. Представляем «Отечественные записки 2.0».

«Отечественные записки» — знаковый журнал для русской культуры. С 1818 по 1884 гг. на его страницах публиковали свои произведения многие звезды русской литературы: В. А. Жуковский, В. Г. Белинский, М. А. Бакунин, Ф. М. Достоевский, Л. Н. Толстой. Перечисление полного списка известных имён займет минимум параграф. Кроме литературных произведений и изящной критики в журнале публиковались статьи, посвященные политике, экономике, науке, общественной жизни и повседневному быту. 

Обидно только, что доступ к нему отсутствует — полноценного текстового корпуса журнала просто не существует. У исследователя три варианта:

— довольствоваться наличием отсканированных выпусков журнала в архиве РНБ и некоторыми томами на Google Books;

— идти в Косой переулок и покупать волшебную палочку;

— создавать собственный цифровой архив. 

Именно этим и занимается команда «Отечественные записки 2.0» в магистратуре «Цифровые методы в гуманитарных науках». Сначала студенты применяют OCR-распознавание к отсканированным изображениям выпусков. Полученный текстовый слой они проверяют на наличие опечаток и ошибок. На каждого человека приходится по одному тому (около 1000 стр.). За вычиткой следует теговая разметка необходимого материала: названия произведений и статей, имена авторов, номер тома и т.д. Так проходит первый этап работы. Вторым этапом следует создание сайта и выгрузка материалов на сайт. 

На данный момент команда работает над ускорением процесса вычитки, составляя многострочный код и потребляя энергетики. Ссылка на репозиторий проекта здесь.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

По всем вопросам обращайтесь по телефону

+7 495 772-95-90 *22161

или пишите на почту

fgn@hse.ru

Адрес для корреспонденции:

101000, Москва, ул. Мясницкая 20