ibegtin Jan 22 2015 at 10:06

Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные

3 min

12K

«Информационная культура» corporate blogData Mining*Open data*

Comments 22

Melkij Jan 22 2015 at 10:24

можем ли мы автоматизировать проверку

Ну разумеется. Если открытые данные в машиночитаемом формате нельзя автоматизировать — это это ни разу не открытые данные в машиночитаемом формате.

Что угодно левое под видом XML — банально не пройдёт XML-валидацию. Больше, в сущности, об этом якобы xml говорить и нечего. Библиотеки чтения XML есть под любой язык программирования.
Соответствие схеме — если вообще есть схема — то аналогично.

ibegtin Jan 22 2015 at 10:26

Тут надо не просто схему проверить, а то что сама схема полная. Вот пример с Росавтодором, там валидация схемы пройдет, только схема там бессмысленная, поля без пояснений и тд. И это еще не углубляясь в типы полей и адекватность их наполнения.

Melkij Jan 22 2015 at 10:38

Не знаю, как в схемах вообще документируются форматы полей и что они обозначают… Сталкивался только с чистым XML, а описание что где — где-то в виде HTML на сайте.

Смотреть на представление схемы — это задача человеку. При том, знакомому с этой предметной областью. Лично я не знаю, какие вообще данные можно получать у Росавтодора.
А вот проверять данные, подходят ли под схему — можно автоматом. Типы полей как раз просто, возможно даже адекватность чем-нибудь из арсенала датамайнинга можно автоматически просматривать и сообщать о странных данных.

scottKey Jan 22 2015 at 10:32

Если сажать/штрафовать то они вообще никогда не сделают нормальные сервисы.
Нужно делать какое-то гражданское экспертное сообщество, которое будет оценивать ТЗ и качество выполнение во время приема.

ibegtin Jan 22 2015 at 12:36

В мире такое экспертное сообщество существует за международные гранты — Open Knowledge Foundation, Access Info и другие. В России государство не выделяет своих грантов, сложно собрать поддержку через краудфандинг и нельзя брать зарубежные. Поэтому только на самоорганизации и можем.

Rondo Jan 22 2015 at 11:16

>Учить тому как делать правильно. Включать в программы обучения госслужащих.
Не надо пресс-службу учить формировать машиночитаемые/автоматически обновляемые/полезные открытые данные. Этим должны заниматься соответствующие специалисты. А штрафовать надо обязательно, чтобы вся цепочка от исполнителя до самого верха недополучила за такие otkritie_dannie.docx.xml четверть зарплаты.

ibegtin Jan 22 2015 at 12:36

Согласен, особенно насчет пресс-службы.

UFO just landed and posted this here

ibegtin Jan 22 2015 at 12:38

Жаль что в регионах ситуация не лучше. Казалось бы они там ближе к людям чем федералы. А в конкурсах часто участвуете? А то мы регулярно проводим соревнования как раз на открытых данных.

UFO just landed and posted this here

ibegtin Jan 22 2015 at 13:53

Посмотрите, у нас идет конкурс BudgetApps (http://www.budgetapps.ru) — он всероссийский, главное чтобы использовались данные Минфина.

UFO just landed and posted this here

ibegtin Jan 22 2015 at 21:22

Да, админы накосячили, сейчас поправим. по ссылке без www всё открывается — budgetapps.ru

KlonD90 Jan 23 2015 at 02:48

Да воообщем-то чиновники тут не причем. Я бы сам не стал серьезно относиться к такой херне.
Людей заствляют что-то делать, хотя их должны на это были либо пойти на это сами либо согласиться, естественно если это просто разнарядка без пояснений о конечном результате и формате(а я уверен так оно и есть), которая пришла из центра единственное, что хочется сделать написать отписку. Легче заставить писать нормальные читаемые отчеты(впрочем они наверняка есть), а отчеты анализировать какими-то системами для выявления важных признаков.
Ну и открытые данные в вашем конкурсе, где типа одни коды операций есть, ну оно наверное очень важно когда ты бумагу экономишь оставить только код операции, но в JSON вообщем-то можно было как-то по-человечески написать, а то на эти данные без страха не взглянешь, это как дополнительный уровень шифрования, т.к. и код фактически ни к какому человеческому описанию не приводит.

-4

TITnet Jan 24 2015 at 11:52

хотя их должны на это были либо пойти на это сами либо согласиться

Вас очень тяжело читать.

разнарядка без пояснений о конечном результате и формате(а я уверен так оно и есть), которая пришла из центра

Если какие-то данные пришли без пояснений, то эти самые пояснения нужно запросить (уточнить), а не делать отписки.

Moskus Jan 23 2015 at 04:54

Забавная история с этими российскими открытыми данными, а также с теми, кто любит с ними играть.
Для начала, стоить задать вопрос (прежде всего — себе, потому что отвечать тоже самим придется), а занимаются ли государственные органы какой-либо деятельностью, которая способна породить какие-либо полезные данные надлежащего качества? При том не «теоретически», а действительно.

Ведь данные эти берутся не непонятно из чего, а являются отражением деятельности.
Я пытался ответить на этот вопрос, и ответ получился такой: какой-либо существенной массы полезных данных государственные структуры просто не порождают. Да, можно перечислить отдельные моменты, вроде госзакупок (только тут вопрос — нужны ли эти данные кому-то кроме тех, под кого скроены конкурсы?) или вакансий (не хочу давать оценку тем, кто идет работать в госструктуры, но это достаточно спорный момент сам по себе). Отдельный момент — пространственные данные (территориальное планирование и т.п.) — тут все тоже не радужно, потому что, например, сами законы, определяющие границы административных образований, часто написаны, буквально, в духе: «вдоль забора до угла».

Вот и получается, что данные не могут быть лучше предмета деятельности, а предмет деятельности — сомнителен.

А дальше выходят всякие неудобные вопросы. Например, каким идеалистом нужно быть, чтобы повторять «они исправятся» годами, без положительной динамики? Или зачем тратить свое время на то, чтобы помогать государству имитировать деятельность (играть в демократию), участвуя во всякого рода «хакатонах» с этими самыми открытыми данными, которые не несут полезной нагрузки, заведомо об этом зная?

Может быть стоит поучаствовать в проектах, которые также связаны с открытыми данными, но не государственными? Таких — немало. Начиная от известного всем OpenStreetMap, заканчивая любительскими биологическими проектами по наблюдению за животными и птицами (которые, страшно сказать, люди делают чуть ли не в Excel). За них, правда, почетные грамоты от мэрии не дают.

ibegtin Jan 23 2015 at 22:09

Безусловно стоит участвовать, и в OpenStreetMap, и в Википедии и во многих открытых проектах таких как OpenLibrary или многочисленные проекты в области Open Education или Citizen Science.

Дело, однако, в том что многие государственные данные являются уникальными. Их крайне сложно собрать самостоятельно и остается только лоббировать их открытость. Например, мероприятия которые я организую или все взаимодействия с чиновниками — это попытки пролоббировать открытие того или иного массива данных. С разным успехом, но есть и то что получается. Тут главный вопрос даже не в том надо это делать или нет, а в готовности тратить на это время. Ну вот я пока еще готов биться головой об эти стенки, долго ли? Год-два, врядли больше, но если хоть что-то получится — уже хорошо.

Moskus Jan 24 2015 at 01:24

Вы начали, естественно, с общих вещей, но к конкретике так и не перешли. Что же это за такие ценные и уникальные данные, которые умудрились собрать госструктуры и никому пока не дают? Мне откровенно интересно.

Готовность тратить на что-то время лично у меня напрямую зависит от того, на сколько вероятным я оцениваю успех. Тратить силы на безнадежные вещи, которые не являются необходимыми, при условии, что есть вещи того же порядка полезности, но достижимые куда скорее, лично я ощущаю для себя неэффективным. Количество пользы от двух не очень сложных полезных дел куда больше, чем от одного столь же полезного, но которое требует больше сил в несколько раз, да еще успех весьма маловероятен.

Есть две такие штуки: критерий сходимости и критерий воспроизводимости. В общем смысле, первый отвечает на вопрос, можно ли направить какой-то процесс в нужную точку, прикладывая к нему усилия, подчиняющиеся некоторому принципу. А второй, соответственно, отвечает за то, возможно ли применить этот принцип в другой ситуации, или его все равно каждый раз придется изобретать. Так вот, если успехи не являются результатом какой-то определенной стратегии, они — не более чем случайность. А если являются, но стратегию каждый раз нужно придумывать новую — это очень существенный перерасход ресурсов, которые можно пустить на проекты, которые дадут куда больше полезной отдачи.

ibegtin Jan 24 2015 at 11:29

Много данных которые только у государства.
Только навскидку:
— образовательная статистика с детализацией до школ
— криминальная статистика до районов и crimemmaping
— кадастровые регистры
— детальная районная статистика
— все архивы и библиотеки
— климатические данные
—

Moskus Jan 24 2015 at 11:36

Чтобы образовательную статистику опубликовать, ее нужно качественно собрать и не фальсифицировать, чем школы отлично промышляют, ровно как и мед. учреждения (потому что приписки).
Криминальная статистика — секретна (и фальсифицируется на местах), можно и не пытаться, потому что тут не просто «лень» или что-то еще, а тут заинтересованность в обратном, то есть в закрытости.
Кадастр — пока они за это берут деньги и кормятся на этом — тоже весьма сомнительно.
Что такое «детальная районная статистика» — я не понял, но «детального» по определению у них ничего нет.
Архивы и библиотеки — это надо оцифровать, прежде чем делать открытыми данными.
Климатические данные Росгидромета — дрянь редкостная, потому что густоты сети станций недостаточно даже для сколько-нибудь точного прогнозирования. Средствами дистанционного зондирования (отнюдь не российскими) информации можно получить куда больше (что, собственно, и делается).

ibegtin Jan 24 2015 at 11:50

Ну вот по всем пунктам и идет работа по рассекречиванию, повышению качества, оцифровке и так далее. Но я, честно говоря, не готов убеждать Вас в полезности этого всего. Это, в любом случае, будет делаться, по этим данным уже известно кем и как они будут востребованы. Так что если это не интересно или ненужно Вам — это не значит что это ненужно кому-либо еще.

Путь долгий, но что поделать.

Если Вы что-то делаете по другим направлениям — расскажите.

Moskus Jan 24 2015 at 21:10

Опять общие слова, «идет работа»…
Меня и не надо специально убеждать — достаточно было бы фактов, я бы сам убедился. Вы перечислили несколько видов данных, с которыми я непосредственно знаком, как и с причинами, почему они бесполезны или почему просто так не получится их рассекретить. Каким именно образом вы собираетесь обеспечить качество того, на что гос. органам хотя бы просто наплевать — об этом — ни слова.

Я делаю по другим направлениям. Занимаюсь историческими пространственными данными, технологиями высокоточной картографии и помогаю людям работать с данными OSM (в том числе, объективной оценкой их семантики). Это не мое основное занятие.