Масштабные краудсорсинговые проекты
12 декабря в рамках DH-адвента состоялся круглый стол, на котором обсудили рынок труда для цифровых гуманитариев. На нем присутствовали эксперты из самых разных сфер: малый и крупный бизнес, музеи, образование. DH Advent 2020 открылся обсуждением масштабных краудсорсинговых проектов.
Модератор:
Анастасия Бонч-Осмоловская, доцент Школы Лингвистики НИУ ВШЭ, руководитель Центра цифровых гуманитарных исследований НИУ ВШЭ.
Участники дискуссии:
- Дмитрий Сичинава, активный участник и бывший администратор Википедии.
- Михаил Мельниченко, создатель электронного корпуса личных дневников “Прожито”.
- Фекла Толстая, организатор проекта “Весь Толстой в один клик”.
- Екатерина Мишина, редактор портала “Открытый список”.
- Ольга Мегорская, руководитель краудсорсинговой платформы “Яндекс.Толока”.
- Илья Кутуков, руководитель лаборатории исследований и разработки, отдела инженеров знаний Российской государственной библиотеки.
Анастасия Бонч-Осмоловская, доцент Школы Лингвистики НИУ ВШЭ, руководитель Центра цифровых гуманитарных исследований НИУ ВШЭ.
Мы решили придумать новый формат, есть какие-то вещи, которые мы всегда обсуждаем в кулуарах и решили устроить сессию кулуарных обсуждений. Как правило, они происходят так, что люди пьют кофе, разговаривают, подходят слушают, приезжая домой думают какая была хорошая конференция! Мы сформулировали несколько тем, про которые обычно разговаривают: про которые интересно думать, но на которые нет ответа. Единственная вещь которую мы решили не так как в кулуарах – мы хотим сделать публикацию по мотивам того, что мы тут говорим, формат мы еще не до конца придумали, это лонгриды, но это не будет расшифровка.Это даст возможность читать, пересматривать и понять, о чем что здесь говорили. Тема – масштабный краудсорсинговый проект.
Почему это интересно обсуждать в контексте digital humanities?
Во-первых мы имеем дело с объектами, которые трудно оцифровать и собрать и с которыми очень долго работать в одиночку или группой. И дело даже не в том, что у тебя мало времени, а в том, что эти объекты столько разнообразны и столь сложны, что всегда не хватит ни одной головы, ни двух, ни даже пяти. И такое примеров достаточно много. С другой стороны, когда я писала пост в фейсбуке, я думала, что проекты связаны с людьми. Они связаны либо с историей людей, с внутренней мотивацией тех людей, которые включаются в этот проект просто потому, что они очень любят Толстого, или всю жизнь они хотели узнать что-то про какие то рукописи, или у них есть на полке где то там в сарае бабушкин дневник, который был не интересен никому, кроме родственников и вдруг стал интересен. Я потихонечку начинаю представлять наших спикеров. Мы собрали людей, которые так или иначе связаны с краудсорсинговыми проектами и начнем с того, что послушаем что они нам скажут.
Первый вопрос такой, наверное я хотела задать его Дмитрию и Екатерине: Мы думаем, когда придумываем какой-то проект, что есть много людей, которые могут и хотят в нем участвовать, они содержат некоторое знание. Например, у них какие-то сведения о репрессированных, есть, например, дневники, что-то что они могут положить в копилку, и это будет уже общее дело. Как вообще можно достучаться до таких людей и как можно понять, что они вообще то будут это делать.
Екатерина Мишина, редактор портала “Открытый список”.
Мы честно говоря взяли пример работы из Википедии, чтобы отличаться от Мемориала – от самой большой базы по репрессированным именно по тому принципу, что Википедия позволяет сиюминутно и онлайн базу изменять, пополнять, и это облегчает возможность взаимодействия с материалом и с базой обычным пользователям. И если говорить о том, какой является наша база, кто наши пользователи, это сообщество которое разделено на две части, но пересекаются. Это, в первую очередь, люди, которые работают с сайтом, родственники, которые приходят что что дополнить или написать о своих репрессированных, либо люди, которые заинтересованы в теме и хотят поискать в источниках. Есть люди которые сидят в соцсетях, в фейсбуке количество наших пользователей приближается уже к 150 тысячам, и это люди, которые скорее хотят поговорить об этой теме, высказаться и их не очень интересует само взаимодействие с сайтом. И мне кажется более интересным поговорить о тех, кто приходит на сайт, о родственниках . Я замечаю: проекту 5 лет и на первых этапах мы работали на его имидж, у нас было достаточно научных публикаций и в сми, мы рассказывали о проекте, где мы рассказывали почему он нужен, почему интересен. И конечно наш прекрасный совместный проект с Государственным архивом Российской Федерации по созданию книги памяти репрессированных москвичей, который мы активно пиарим. Вот это все привело к нам людей, и последние пару лет, сделало так, что имидж проекта работает на него. Если я отчитываюсь о количестве пользователей, то я вижу, что люди приходят из органического поиска. То есть либо люди прицельно ищут этот список в поисковых системах, либо они забывают имена своих родственников и получают ссылки на сайт. Мы не ведем активную тему по привлечению людей на сайт. Тема интересная, животрепещущая, она никуда не уходила с повестки.
И получается, что все что мы набрали за это время, краудсорсингом наш проект полнится. Сейчас сложно найти какой-то крупный сет данных, который куда-то не вошел, никак не обработан. База пополняется скорее из индивидуальных историй. Или если приходит какая-то общественная организация, которая хранила это все у себя на компьютере, и говорит, мы хотим с вами поработать и выложить это у вас наши данные. Последние - Правозащитный центр Азербайджана. Они выложили более 20 карточек репрессированных в Азербайджане, преимущественно высланных, депортированных. Эта работа стала огромным плюсом для проекта и тут же стали находится люди, которые ищут в новых списках родственников. То, что люди добавляют, это около нескольких тысяч разных историй, биографий, фотографий, документов, которые могут стать очень хорошим источником для исследований, исторических или в какой-то другой сфере. Этим надо пользоваться и это надо брать.
Дмитрий Сичинава, активный участник и бывший администратор Википедии.
Википедия была не полностью анархическим проектом, для этого есть более анархические площадки со словом архипедия в названии, но действительно функция администратора, которая у меня была на протяжении 10 лет, это не то же самое, что функция админа в привычных нам проектах. Более того, пока я был этим администратором все мои знакомые думали, что я и только я могу что-то написать или исправить в википедии. Когда с меня в начале этого года за неактивностью флаг администратора сняли, все были уверены, что я теперь не смогу написать ничего. И меня про это спрашивать нельзя, но зато я, наверное, знаю кого-то, кто может в Википедии что-то написать. Я все время вижу, массовые представления отличаются от реальности, написать может кто угодно, но некоторые животные равнее, и есть специальные люди, которые могут участников блокировать, это администраторы и есть. Есть тот, кто может откатывать неправильные правки, это любой человек с какой-то там приличной активностью, есть цветовая дифференциация штанов на этой шкале. Очень интересно что там есть суд, Арбитражный комитет, который избирается, это единственный избираемый и регулярно ротируемый орган, а не пожизненный, потому что администратор теоретически пожизненная должность, если он только не перестает делать исполнять свои обязанности, как я, и с меня это сняли. В общем, там есть конфликты, там есть разрешения, и с другой стороны это хоть и единый проект с Фондом Викимедия, который устанавливает, например, лицензии на публикуемые фотографии, известно, что там фотографии должны быть под лицензией, чтобы их можно было свободно распространять, в том числе коммерческие, в том числе с изменениями, только право на имя. Есть безусловно центральные международные органы, но вообще - это Федерация поместных википедий. Которые относятся к каждому конкретному языку, и у них свои Конституции, свои правила, свои указания и нечто обязательное для всех, например, утверждения должны прилагаться с ссылками, тексты должны излагаться в нейтральном стиле.
Было у многих коллег точно такое, и многим хотелось просто хлопнуть дверью и уйти. Был один хороший википедист, который ушел в английскую Википедию после того, как его просто травили, про него всякое рассказывали, а Арбитражный комитет не то, чтобы поддержал, но и не устроил разбирательство, которое его бы устроило. В общем бывает всякое и изначальный непрофессионализм проекта ведет к неустранимым сложностям, По сравнению с 2010 годам сейчас есть большие полупрофессиональные команды, где это все может развиваться, при условии свободного времени и отсутствия претензий на вознаграждение. Но вообще говоря у меня ощущение, что волонтерство у нас вызревает, это наша новая общая жизнь. Другое дело, у меня ощущение, что нынешние студенты не могут читать тексты больше одного экрана, и нынешние школьники тоже. У того коллеги который ушел в английскую Вики появилась мысль, что может быть Вики нужно мигрировать в сторону видеороликов. Это видео, аудио, такой контент.. Он наблюдает за своим сыном, и видит, что он часами слушает подкасты, но прочесть страницу - нет. Это одно из возможных.
Анастасия Бонч-Осмоловская, доцент Школы Лингвистики НИУ ВШЭ, руководитель Центра цифровых гуманитарных исследований НИУ ВШЭ.
На самом деле - важные вещи были затронуты, я хотела бы зацепиться, что этот проект был утопией и спросить Мишу и Феклу про то, насколько их собственная утопия реализовывалась. У Феклы проект закончился, у Миши набирает новые высоты. Насколько задуманное и реализация соответствовали друг другу, насколько вы ожидали встретить такой отклик, или же вы переоценивали мотивацию людей или недооценивали людей. Утопия это же идея о том, что люди бесплатно искренне пойдут работать и сделают работу прекрасно.
Фекла Толстая, организатор проекта “Весь Толстой в один клик”.
Мы делали проект “Весь Толстой в один клик”. Мы с Асей познакомились, когда запускали этот проект. Была задумана простая история. Есть знаменитое собрание Толстого и я стала спрашивать у коллег, а где он в интернете. Они не знали. Я думала, что мои более опытные коллеги не так разбираются в сети, но его действительно нет в интернете, Мы обратились к компании ABBY и они очень хорошо откликнулись на наше предложение и мы решили сделать это краудсорсинговым проектом. Мы не 90 корректорш посадили распознавать. Может быть, по деньгам и усилиям, было бы легче посадить 90 корректорш. Но для нас волонтерский проект был очень важным каналом продвижения. Мы получили огромную прессу и, соответственно, люди теперь знают, что есть оцифрованный Толстой. Для нас это была главная история. Этот проект полностью реализовался, задуманное получилось. Неожиданным был отклик и сроки, начинали проект летом, в июне, и мы считали, что к сентябрю мы постараемся сделать 1 том, а там дальше подкрутим, осенней прессой, у нас был очень хороший партнер Риа новости. То, что произошло, начиная с пресс конференции, во время которой скачали 6 томов, у нас было ощущени,е что у нас аврал, что трубу прорвало. Мы очень быстро перешли на режим 24 на 7. Нам кажется важным, что в результате мы правильно сделали: должен быть очень четкий ясный механизм того, что вы предлагаете волонтерам. И возвращаете.
Важна награда! Что вы все оценили, написали на сайте, их фамилии. Важно не бросать после. Создалось комьюнити, и немножко их приглашать. Чтобы не создавалось впечатления, что мы их юзали - кончилось, отлично, спасибо, досвидос! Ребята, а вот эти вот идеи, который Толстой, а мы их вычитали, как же, ну мы же вместе, вот Лев Николаевич говорил, что если плохие люди объединяются, то и хорошие могут, мы же объединились, давайте еще. Мне кажется, что в мотивации людей очень важны 2 вещи: принадлежность к чему-то большому и важному. Что мы доверили Толстого. Это то, что сделали академические издатели, то что делают текстологи, филологи, и это вот ощущение, к большому. И второе - принадлежность к сообществу.
Михаил Мельниченко, создатель электронного корпуса личных дневников “Прожито”.
Я и хотел бы рассказывать про разные типы волонтеров, которые мы для себя выделили за годы работы и их результативность. Оказывается, что большую результативность показывают люди, которые на входе в проект демонстрируют какой-то меньший потенциал. Коротко о нас: корпус Прожито.орг. Это комплекс дневников, из которых 80 % это то, что мы взяли из существующих публикаций, привели в порядок, загрузили . На самом деле около 20 % это наши собственные публикации, то, что мы нашли в рукописном виде, оцифровали, разметили. Сейчас общий объем корпуса был больше полмиллиона дневниковых записей. Над этим корпусом мы работали последние 6 лет и в этой работе приняло участие около 900 участников и волонтеров. Я не говорю про студентов и практикантов. Учет волонтеров был не очень точным. Только последние 3 года они нам заполняют довольно развернутую анкету, до этого мы фиксировали только имена и емейлы. И некоторые люди приходили в проект в обход всяких волонтерских анкет. Приблизительно 850 человек, но их несколько больше. Это люди, которые показали какой-то результат. Были волны участников, но некоторые волны оказались не супер продуктивными и практически не пополнили сообщество. Статистика: 90 % - крупные города России, 5% Европа и Америка, и 5% это бывшие республики Советского Союза. Большая часть людей 2/3 это люди с высшим образованием или получающие. И много людей которые работают не по своему профилю. В анамнезе филологическое, историческое журналистика или психология, но при этом сама деятельность связана с принципиально иными вещами. И реальная сфера деятельности очень разная - один из самых сильных и продуктивных участников это охранник в Израиле, который, судя по всему, во время ночных смен расшифровывает рукописи.
Есть 4 типа мотивации.
- Люди приходят работать с определенной темой.
- Люди хотят заполнить свой досуг
- Работать за идею
- Стать частью большего сообщества
В этом году у нас было 250 человек и значительная часть - филологи из Вышки. И последние месяцы мы занимаемся тем, что рассылаем письма в разные регионы на гуманитарные факультеты, и в целом я рассчитываю, что нас будет 400 человек и я надеюсь что большую часть наших задач мы будем решать силами волонтеров.
Анастасия Бонч-Осмоловская, доцент Школы Лингвистики НИУ ВШЭ, руководитель Центра цифровых гуманитарных исследований НИУ ВШЭ.
Когда к вам придет на практику это будет тоже краудсорсинг, то есть проект, который будет требовать технологий поддержания. Прозвучало много разных идей: с одной стороны, есть психология волонтеров, которые свободное время что-то делают не связанное с их професиональной деятельность. И есть технологии цифровые и они поддерживают в них это.
Ольга Мегорская, руководитель краудсорсинговой платформы “Яндекс.Толока”.
Я пока слушала, понимала, что у нас довольно сильно отличалась история и конструкция. Яндекс толока - это название от белорусского слова. Мы занимаемся промышленным производством обучающих данных для машинного обучения. Ирония современного мира, что все говорят про искусственный интеллект, который здесь и там, и когда мы в поиске что-то ищем, и когда беспилотники по Хамовникам ездят, и когда мы разговариваем с голосовыми ассистентами. Этот все искусственный интеллект, но на самом деле он весь обучается на естественном интеллекте. И для того, чтобы научить тот же беспилотный автомобиль ездить и останавливаться перед пешеходами, сначала нужно скормить системе компьютерного зрения миллионы размеченных фотографий, на которых обведена каждая машинка, каждый дорожный знак, каждый пешеход. И по сути каждое - это машинное обучение технологии основывается именно на промышленном производстве обучающих данных . Я этим занимаюсь последние 10 лет. Мы это в Яндексе развиваем в рамках открытой платформы Толока. Опишу наши масштабы: зарегистрировано 8 млн человек, треть - люди не из России и стран ближнего зарубежья, а из Азии, Африки и всех стран мира. И вся эта система производит каждый день около 15 млн единиц разметки, произведенной работы. Задания выполняют около 40 тысяч человек в день, они выполняют около 1000 разных заданий. От самых разных заказчиков. Все технологические компании в России используют Толоку, и сейчас все больше и больше международных заказчиков. Практически любой технологический продукт если поскрести, можно найти следы Толоки под капотом. Для нас самая главная задача это воспроизводимость процесса, его масштабируемость и стабильность. Потому что, если в один день этот конвейер перестанет работать, машины такси перестанут чистыми приезжать, курьеры перестанут работать. Когда на платформу приходит новый заказчик, с помощью машинного обучения мы можем предсказывать, что конкретный Вася и люди похожие по профилю на этого Васю будут справляться с похожими заданиями. И поскольку на платформе много много разных активностей, мы можем эффективно предсказывать качество. И получается, что эта история полезна и заказчикам, и исполнителям, потому что мы можем им предлагать задания, с которыми они справятся лучше, чем с другими. Я все жду, когда гуманитарные науки придут в толоку, мне кажется это такой инструмент, которым грех не пользоваться. И чем дальше, тем более мы в контексте того, что хотим использовать.
Наталья Перхова.
Я сейчас живу не в Латвии, в основном в Швеции, в Стокгольмском и Упсальском университетами, меня знают еще как человека, который занимается параллельными корпусами НКРЯ. А расскажу я про платформу краудсорсинговую которую я знаю с ее основания, это платформа Латвийского фольклорного архива. Основная платформа называется дословно “Духовное наследие”, но они потом делали несколько подплатформ, которые ведут на один источник. Просто люди могут заходить на разные сайты, могут размещать разные данные. Я попробую кратко тезисно сказать, как это перекликается. Это была хорошо продуманная платформа, то есть люди сначала продумали, как осуществить хранение всех своих единиц, и как осуществить эту разметку, как вписать ее в интерфейс, как добавить инструкцию для разметчиков. Это фольклорный архив, то есть понятно с какими данными люди работают. В случае Латвии это единственная организация для всей страны, которая с начала 1920 годов занималась фольклорными экспедициями и у них все эти записи хранятся. То есть это обычно тетради. В России все немножко по-другому, потому что условно каждый педагогический институт занимался своими экспедициями, все это лежит по куче регионов, что-то лежит в Пушкинском доме, что-то лежит в каких-то институтах отдельных Академии наук и это сложнее централизовать. В Латвии проще, одна организации. То есть сканирование они берут на себя, то есть у них есть отдельные люди, которые отдельно сканируют эти тетради и отдельно выкладывают их. То есть идет разбивка на файлы, всем даются конкретные айдишки, привязываются к определенной коллекции, то есть все метаданные они делают сами,собственно, на участников ложится важная задача распознавания рукописного текста.
Тут упоминали качество контента, как с Толстым, здесь может быть не очень хорошего качества контента, но среди него можно найти что-то интересное для себя, частушки, легенды, сказки, найти записи 30 годов и понятно, что это тоже какая то уникальность собрания, которая имеется. Я бы хотела отметить, что коллекции не только на латышском, хотя у него больше материала, но поскольку это длительно проводилось, в том числе в советское время, собирался материал о староверах Латгалии, то есть восточной части Латвии, есть большая коллекция русских текстов. То есть даже человек который не ощущает причастности к титульной нации, он все равно может для себя что-то такое интересное найти. Там есть несколько языков, это пытались разметить сами сотрудники Латвийского архива, на каких языках есть файлы. Привлекали активно школьников, сделали подсайт, где можно было регистрироваться, и потом тех, кто больше всего расшифровал файлов приглашали в Национальную библиотеку, и им вручали призы, это тоже кто-то отмечал, хотя это не только чувство комьюнити, но и это поощрение прямое материальное и очень важный момент. В соцсетях они представлены, в какой-то момент появились подгруппы, где можно задавать вопросы, например, палеографические вопросы, как расшифровать такой подчерк, или слово, и люди помогают по конкретную файлу. Завели группу и для русскоязычной аудитории, мне было приятно, что об этом кто то задумался, есть маленькая группа которая занимается исследованием коллекции Ивана Фридриха, который эту коллекцию собрал. Там тоже благодарят участников которые расшифровали файлы и публикуют забавные песни или частушки. Эта коллекция все еще пополняется, тексты сканируются и добавляются и есть какие то подпроекты и это выросло в ещё более масштабную платформу Поучаствую. Там стихи одного из поэтов у которого юбилей и люди могли зачитать, как они читают какой-то стих и на сайте можно сравнить чтение стихов. Не для всех сайтов и проектов доступны версии на всех языках. Мне это лет 5-6 назад показалось очень круто! Очень круто, что российские пошли похожие. Мне жалко, что с российским материалом сложнее работать, его нужно централизовать, сотрудничать с Российской государственной библиотекой.
Анастасия Бонч-Осмоловская, доцент Школы Лингвистики НИУ ВШЭ, руководитель Центра цифровых гуманитарных исследований НИУ ВШЭ .
Огромное спасибо, оно было оптимистически завершающее, с проектом где нужен краудсорсинг!
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.