Оцифровка и digital editions

12-13 декабря прошёл онлайн-митап «DH-Advent». Он представлял из себя серию круглых столов, посвященных насущным проблемам цифровой гуманитаристики. Темой одного из них были оцифровка и, в более узком смысле, цифровые издания культурного наследия.

Модератор:

Андрей Юрьевич Володин, к.и.н., доцент кафедры исторической информатики исторического факультета МГУ, член ассоциации «История и компьютер», член Европейской ассоциации цифровой гуманитаристики (EADH)

Спикеры:

Фёкла Толстая, журналистка, организаторка проекта «Весь Толстой в один клик».
Виктор Аркадьевич Баранов, заведующий кафедрой лингвистики Ижевского государственного технического университета, автор уникального проекта «Манускрипт. Древние славянские памятники».
Сергей Иванович Корниенко, заведующий кафедрой гуманитарных дисциплин НИУ ВШЭ в Перми, создатель многочисленных проектов по оцифровке исторических источников.
Алексей Алексеевич Голубинский, главный научный сотрудник РГАДА.
Татьяна Олеговна Шаврина, руководительница направления обработки естественного языка Сбербанка и проекта по оцифровке нейросетями рукописей Петра Великого.

Каждый из спикеров рассказал про свой опыт проектов по оцифровке материалов из разных областей гуманитарной науки.

Tolstoy Digital

Фёкла Толстая подробно осветила текущее состояние и перспективы проекта Tolstoy Digital, задача которого состоит в переводе в цифровой вид литературного и не только наследия писателя Л.Н. Толстого. Центральное место в этом проекте занимает XML-файлы 90-томного собрания сочинений Толстого, размеченные по стандарту TEI, в котором сохранена вёрстка и разница шрифтов. Он представляет собой каркас системы, на который будет добавляться другая информация. Так, почти готов сайт с поиском по текстам Толстого с системой фильтрации на XML; по инициативе Бориса Орехова сделан электронный указатель на 16,5 тысячи упомянутых имён. «Хороший указатель отличается тем, что при упоминании, допустим, слова «Диккенс», он покажет не только на него, но и на героя произведения, он больше, чем автоматическая читалка.»

Также существует черновой вариант календаря Толстого, идёт проектирование некоторых онтологий-справочников, которые будут соединять все части системы – даты, персоналии, места, произведения, библиографию Толстого. Продолжаются работы по переписке Толстого, т.к. собрание произведений Толстого включает только письма самого писателя, а письма ему - нет, и восстановление этого диалога очень важно.

В дальнейшем в систему планируется также добавить не отсканированные рукописи Толстого, а также ссылки на книги из библиотеки Красной Поляны: «Каталоги библиотеки упоминаются в дневниках, письмах Толстого, можно выстраивать более широкие истории. Вот упоминание в дневнике, что Толстой это читал, а вот эта книга, связанная с Google Books, и вы реально можете почитать эту книгу. Было бы важно связать не только дневники Толстого, но и его окружения.

Фёкла Толстая считает, что их проект может стать моделью для цифрового представления наследия других писателей.

Манускрипт

В. А. Баранов рассказал о своей многолетней работе по созданию машиночитаемых ресурсов славянских рукописей X-XIII веков. «Цель проекта – не столько показать тогда ещё недоступные списки славянских памятников, сколько дать возможность для дальнейших лингвистических исследований. Сегодня коллекция полнотекстовых машиночитаемых наборов насчитывает более 140 кодексов и их отрывков, это рукописи в первую очередь X-XIII вв., но есть и несколько список XIV-XV веков. Объем коллекции в токенах более 3,5 миллиона, сегодня мы эту коллекцию называем славянским корпусом, но начиналась она с небольших изданий.»

Лингвист продемонстрировал работу сайта. Запросные формы текстов на нём - киевские глаголические листки. «Создавать машиночитаемые коллекции ради того, чтобы показать то, что мы видим в отсканированном изображении, было бы странно, поэтому мы можем просмотреть эти листы в старославянском алфавите или в латинице с определенными правилами транслитерации, что также используется лингвистами.»

Сайт имеет проработанную систему фильтрации – по авторам, через указатели (прямые, инверсированные, количественные), по составу или маргиналии (порча, удаления, утраты, различного рода модификации). Существует возможность проводить поиск на основе старославянского алфавита, а также современной кириллице или через регулярные выражения.

В.А. Баранов сказал несколько слов о не до конца решенных проблемах. «Сегодня мы не имеем законченных инструментов для морфологического анализа таких текстов, поскольку тексты очень сильно варьируются с точки зрения графики, орфографии, из-за чего осложняется создание лемматизатора, морфлогического анализатора. Тем не менее, на определенном этапе работы мы начали эксперимент над созданием автоматических морфлогических анализаторов». Последняя версия анализатора распознает от 75 до 93 % форм в зависимости от разных условий, от графематики в частности, и составляет от 75 до 93 %.

Помимо этого, работа ведётся над модулем статистики, где ещё предстоит упростить его интерфейс для конечного пользователя. Также существует модуль N-gramm, который позволяет извлекать пользователю n-граммы и задавать параметры.

Главным направлением работ учёный считает разработку способа для выгрузки данных из корпуса в тот формат, который будет понятен другим коллективам, поскольку в основе сайта лежит СУБД Oracle, несовместимая с другими платформами.

Модератор А.Ю. Володин отметил, что коллекция живет, несмотря на технологические перемены, произошедшие за годы с её запуска, и это показывает, что цифровые коллекции могут выжить.

Исторические проекты по оцифровке

Далее о серии проектов по оцифровке исторических источников рассказал С.И. Корниенко. Первый проект, созданный научным коллективом под руководством профессора, были «Журналы губернских земских собраний как источник истории земского самоуправления». В основе этой информационной системы лежит СУБД Firebird.

Историк поделился первоначальным замыслом проекта: «Почему мы стали этим заниматься? Один из основоположников земствоведения Б.Б. Веселовский, говоря о научном изучении истории земства, подчеркивал, что даже при наличии источников очень трудно систематизировать их, поскольку необходимо просматривать журналы год за годом. Применение же информационных технологий при наличии такой базы журналов губернских земских собраний позволяло это осуществить. Отсюда и появился этот проект.»

На сегодняшний день оцифрованы журналы по 8 земским губерниям, чтобы было сделано в сотрудничестве с РГБ. Интерфейс запросов был спроектирован так, чтобы пользователи могли сами структурировать журналы сообразно их научным целям.

Следующий проект объединен в форме портала «Парламентская история позднеимперской России». Оцифровке подлежали личные алфавитные указатели, указатели к стенографическим отчетам заседаний Государственной думы, которые, как правило, были немашиночитаемы и труднодоступны. Корниенко отмечает: «Реализуя этот проект, мы делали их, во-первых, доступными, во-вторых, стало возможным применять компьютерные методы обработки информации. Впоследствии было создано специальное приложение, с помощью которого мы теперь можем получать социокультурные портреты и характеристики деятельности депутатов Государственной думы.» Проект получил развитие как источниковедческий проект, и теперь в источниковом модуле можно получить доступ к стенографическим отчетам по заседаниям Государственной думы в формате PDF.

Наиболее успешные историк посчитал проект «Пермская губернская периодика 1914-1921 гг.». В ресурсах, которые он объединяет, имеются развитые системы поиска, где использован двойной формат представления - графический, автоматическое распознавание. «Почему мы были вынуждены использовать двоякую форму публикации и представления коллекции? Дореволюционная периодика в силу особенностей её хранения, несовершенства типографской техники и других причин характеризуется наличием существенных физических дефектов. Части отдельных публикаций невозможно распознать автоматически, поэтому мы решили дать возможность пользователям самим восстановить тот или иной смысл и текст, что даёт графическое представление. Кроме того, с точки зрения источниковедения важно дать возможность увидеть внешний вид источника.»

Опыт РГАДА

Взгляд на оцифровку не со стороны академии, а с точки зрения архива представлял А.А. Голубинский . Он напомнил, что РГАДА - организация, которая хранит более 3 миллионов единиц хранения с ХI по середину ХХ века, которые незаменимы при изучении социальной и культурной жизни России. Для исследователей из регионов и из-за рубежа архив старается упростить доступ к научно-справочному аппарату организации. Ряд описей ещё XVIII века со всеми последствиями может читать только подготовленный исследователь, а географические, институциональные именования требуют составления при индексации описей чего-то наподобие тезауруса, если для одного имени существует 5-6 несозвучных вариантов. При этом индексация описей становится отдельным исследованием, которое с трудом формализуется в виде частного технического задания для какой-либо сторонней организации, чтобы получить вменяемый результат.

Архиву удалось добиться определенных успехов в оцифровке этих материалов: «Нашлись небезразличные люди - волонтеры, - которые с одной стороны достаточно компетентны, чтобы разобрать описи на XVII, XVIII, XIX века, и с другой стороны обладают достаточным временем, чтобы посвятить его делам отечественной науки. Результат сотрудничества - десятки проиндексированных описей и десятки тысяч проиндексированных заголовков. Не менее перспективный путь – студенческие практики. За год мною были организованы три удаленные практики. В одной из них одновременно участвовали 114 студентов. Таким образом мы не только создаём опись, но и формируем сообщество людей, неравнодушных к истории России.»

Голубинский упомянул и главный ГИС-проект РГАДА - векторную карту административно-территориального деления России с атласами 1792 и 1821 гг.

Коллектив архива сталкивается и с неминуемыми трудностями оцифровки:

1) вопрос сохранности электронных материалов : «Чем масштабнее проект, тем он сложнее. Чем он больше, тем он более уязвим, тем меньше для него работают основные преимущества электронного обмена информации – возможности репликации, миграция с одного оборудования на другое, часто даже эти возможности искусственно ограничены. В этом году мы впервые серьёзно столкнулись с угрозой потери порядка 40 терабайт информации из-за проблем с массивом жестких дисков, при том что совокупный объем наших хранилищ 0,1 петабайта. Институциональные способы восстановления массива и покупки нового оказались недоступными».

2) проблемы с обеспечением сканирующей техникой : «Наиболее важным относительно нашего архива является вопрос разрешающей способности техники. Матрицы, сканирующие линейки, автоматика и устройства обработки не всегда производятся в России, поэтому нельзя сказать о стабильном пополнении фонда пользования.»

3) недостаток финансирования : «Сейчас на разных чашах весов находятся прибыль за удаленный доступ к архивным документам и плюсы для гуманитарного знания, роста общественного самосознания. Созвучна с этим и проблема кадрового резерва. В условиях сравнительной необеспеченности гуманитарного знания ресурсами в приоритете должна быть этическая сторона дела - желание сделать что-то для людей, исследователей, сохранности документов, что намного важнее, чем зарабатывание денег.»

Расшифровка рукописей Петра I

Последней по поводу совместного проекта Сбербанка с Российским историческим обществом и комьюнити Open Data Science по распознаванию рукописей Петра I выступала Т.О. Шаврина.

По её словам, из текущего объёма канцелярии императора переведено в текстовой формат около 10%. Почерк Петра читать неспециалисту крайне сложно (он писал скорописью со своими личными особенностями). Для соревнования по распознаванию было подготовлено 10 тысяч строк, где выделена строчка рукописная и подписано, что за буква. Это где-то 800 страниц, над которыми 15 специалистов из РИО трудились больше месяца.

Далее документы были автоматически переведены в первичный текстовый формат с дальнейшей проверкой человеком. Лингвистка отметила, что полученное решение в силу персональных особенностей автора годится только для оцифровки рукописных документов Петра. Для применения его в других областях потребуются некоторые изменения.

Проблемой было то, что Петр писал очень своеобразно - помимо скорописи он допускал большое количество ошибок, и орфографических, которые противоречили норме, и много описок, когда он пропускал много букв, а потом вставлял снизу/сверху слово. Большое количество не всегда конвенциональных сокращений, огромное число вариаций написания каждой буквы, множество лигатур.

Задача программистов складывалась из двух составляющих:

1) захват текста на странице : «Если посмотреть на фото документов, то видно, что строчки иногда накладываются друг на друга, расстояние между ними не ровное. В некоторых документах они расположены нестандартно – например, есть странички, где Петр рисует план парада, и там текст развернут иногда на 360 градусов. И алгоритмы должны повернуть текст.»

2) более лингвистическая, нужно сопоставить оцифрованный текст с буквами и составить правильно слова . Для участников соревнования было составлено базовое решение, которое они должны были улучшить. Облегчил эту задачу уже существующий корпус документов XVII века на русском языке, который был подготовлен к другому соревнованию во ВШЭ. Получилось сделать языковую модель, которая представляет собой вероятности встречаемости букв рядом друг с другом в XVII веке.

В результате лучшие алгоритмы распознавания рукописей Петра работают с точностью 98% распознавания букв, и это 86% распознавания слов: «98% точности – очень высокий результат для документов такого качества. Конкретные документы, где много клякс, схем, нетипичных поворотов строк, надо будет человеку перепроверить, но для документов, где слова расположены построчно, этого алгоритма достаточно.»

Образ идеальной цифровой публикации

После выступления всех спикеров модератор предложил каждому высказаться, как он видит идеальный цифровой проект публикации.

Фёкла Толстая считает, что важно развивать концепцию Open Linked Data и договариваться о стандартах, по которым можно связывать любые культурные проекты: «Про эту унификацию много говорится в том числе в Министерстве культуры, ведь есть стандарты музейные и библиотечные. Для меня как для человека, который работает в Литературном музее, это совершенно одно и то же. Однако у нас музейных памятников очень много, и чтобы каждый раз это не писать в сложные системы переходов, такая инициатива была бы важна.» Если в отношении геоданных и дат такая связанность уже неплохо работает, то относительно книжных памятников нужно продолжать работу.

В.А. Баранов говорит, что оптимальным вариантом цифрового представления рукописей является параллельная демонстрация транскрипции и другой информации о тексте вместе с его фотокопией в сканированном виде: «Такие издания мы видим на сайте РНБ, подобные возможности реализованы и в нашей коллекции, когда в свободном доступе древнехранилище выкладывает рукописи, например Остромирово Евангелие, или полнотекстовые сканированные копии. Вот в таком виде можно специалистам разных областей - лингвистам, историкам, текстологам - использовать то, что прошло через руки и видение рукописи при подготовке такой коллекции.»

С.И. Корниенко главным считает соблюдение требований таких наук, как источниковедения, архивоведения, библиографоведения при публикации цифровой копии: «Приходится в Сети сталкиваться с тем, что есть ресурсы, которые далеки от таких стандартов, а это иногда даже хуже, нежели их не было бы вообще.»

Т.О. Шаврина полагает, что существующие ресурсам и базам данных нужно двигаться к открытости. На первых порах это может привести к исследованиям с неправильными интерпретациями результатов из-за неопытности в использовании новых инструментов и материалов, но позже польза от этого перевесит негативные последствия: «Так случается почти всегда, когда появляются новые инструменты и постепенно формируются лучшие практики в сообществе. Так было с корпусной лингвистикой, когда стали появляться онлайн-поиски на НКРЯ, - на многих конференциях было огромное количество статей, где были сформированы недообоснованные гипотезы. Но сейчас такого уже практически нет и сформировались практики того, как надо работать с корпусами и источниками. То же самое случится и с широким рядом источников, если сообщество получит к ним открытый доступ.»

Кто должен оцифровывать?

Активную дискуссию вызвало мнение С.И. Корниенко, что оцифровкой источников должны заниматься не исследователи, а институции, в которых хранятся эти источники – архивы и библиотеки. Историк привёл в качестве примера лингвистическую лабораторию Лионского университета, работающую по подобной модели.

Юмашева Н. Ю., д.и.н., специалистка по оцифровке исторических источников согласилась с этой позицией, но подчеркнула, что текущие возможности архивов не позволяют проводить сканирование в должно объёме: « Я посчитала, сколько нужно российским архивам, для того чтобы оцифровать весь объем той документации (я про первичную документацию, а не про научно-справочный аппарат), которая хранится в архивах, - порядка 2000 лет при ежегодном финансировании 100 млн рублей. Это мы получим просто графические копии, без учета, что ежегодно документы прирастают на 5-6 миллионов единиц хранения, и соответственно их тоже надо оцифровывать. При обсуждении был вопрос, как выстраивать приоритеты, что оцифровывать первым. У всех библиотек, архивов, музеев есть свои взгляды на этот момент, опубликованы концепции и критерии. Однако большая часть этих критериев никак не связана с желаниями научного сообщества, и в общем понятно почему. Потому что сканирование прежде всего капиталоемкий процесс».

Помимо этого, по утверждению историка, ещё большие средства нужны на обеспечение сохранности и использования электронных ресурсов: «Давно подсчитано в США, что хранение электронной информации в 6 раз дороже, чем хранение бумаги. Это связано с необходимостью изменения платформ, конвертацией, миграцией и т.д. От данной большой проблемы мы будем зависеть в возможности дальнейшего использования этих самых электронных ресурсов.»

Илья Учитель, исследователь идиша, также подтвердил тезис о том, что текущий уровень финансирования библиотек и архивов не позволяет им одним справляться с каталогизацией и оцифровкой существующего фонда, рассказав о примере Ленинки: «Там есть замечательные библиографы, которые делают источниковедческое описание фондов и заносят всё в базу данных, потом это можно посмотреть в каталоге. Всё прекрасно, но очень долго. Одна сотрудница на полставки замечательно делает свою работу (сделан детский фонд и художественная литература), но все она сделает годам к 70, когда выйдет на пенсию, а когда доберется до газет, этим будут заниматься потомки. Каталог не оцифрован, а в архивах и библиотеках не всегда есть понимание, что надо делать что-то быстрее. По поводу оцифровки: действительно это дорого, но пока что даже не везде есть каталоги. Однако я смотрю библиотеку Конгресса - там это уже сделано.»

Филолог из Тартуского университета Р.Г. Лейбов высказался за кооперацию между учеными и организациями-хранителями в деле оцифровки: «Я сочувствую историкам, которые хотят заниматься своими темами и не хотят копаться с проблемами оцифровки. Но в результате позиции «пускай оцифруют те, кто хранит» мы получим эстафету - пусть оцифровывают те, которые сидят в хранилище. Есть исключительные случаи, когда мы можем положиться на хранителей – допустим, Пушкинский дом, который является и хранилищем рукописей, и научным учреждением. Но сотрудники библиотек и сотрудники архивов не могут нам подготовить равнодостоверные и равноавторитетные издания разных электронных материалов. Нам приходится в это дело ввязываться. Да, это страшно трудоёмкий, отнимающий десятилетия работы процесс, и этим должны заниматься профессиональные архивисты, но также должны участвовать ведущие специалисты, которые занимаются этой темой.»

Начавший эту дискуссию С. И. Корниенко подчеркнул, что он не отрицает необходимости совместной работы в деле оцифровки. Р. Г. Лейбов напомнил, что для этого и существуют DH-специалисты, которые помогают старым «бумажным» гуманитариям меньше задумываться о технической стороне вопроса.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Центр цифровых гуманитарных исследований НИУ ВШЭ

Оцифровка и digital editions