Как стать автором
Обновить
20.2

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

R в качестве инструмента мониторинга цен

Время на прочтение6 мин
Количество просмотров18K
В данной статье хотел бы коснуться такой темы как мониторинг конкурентов. Понимаю, что у данной темы есть как много сторонников, ведь так или иначе мониторинг необходим для успешного развития почти любой компании, так и противники, которые защищают интересы своего бизнеса от мониторщиков.

Те, кто как то связан с продажами на конкурентном рынке, наверняка знают, что мониторинг конкурентов является важной задачей. Результаты используются для совершенно различных целей — от изменения локальных политик ценообразования и ведения ассортимента до составления стратегических планов развития компании. Автор решил попрактиковаться в решении данной задачи и промониторить одного из крупных ритейлеров электроники в России, чьим регулярным клиентом автор является. Что из этого вышло —
далее под катом
Всего голосов 13: ↑11 и ↓2+9
Комментарии14

Новое в Wolfram Language: функция WikipediaData для интеграции с Википедией и обработки её данных

Время на прочтение2 мин
Количество просмотров5.5K
С момента создания сервиса Wolfram|Alpha, Википедия занимала особое место на пути его развития. Мы обычно используем её не как первичный источник данных, но скорее в качестве важнейшего ресурса для улучшения распознавания естественного языка. В частности, для добычи данных о том, как люди описывают те или иные вещи в разговорном/официальном стиле.

В течение многих лет мы разрабатывали различные инструменты для анализа и извлечения информации из Википедии, однако теперь мы добавляем «сервис интеграции» с Википедией, который будет доступен в новой версии языка Wolfram Language (системе Mathematica 10.1, выходящей уже совсем скоро). Теперь встраивать контент из Википедии в рабочие процессы внутри Wolfram Language стало значительно проще.

Конечно, вы можете просто взять текст из статьи в Википедии и передать его новым функциям Wolfram Language для обработки текста и визуализации:




Читать дальше →
Всего голосов 20: ↑18 и ↓2+16
Комментарии0

33 млн судебных решений различных судов РФ стали открытыми данными

Время на прочтение1 мин
Количество просмотров4.9K
image

Судебные решения арбитражных судов (14 810 402 документов), судов общей юрисдикции (9 147 074 документов) и мировых судов (9 398 347 документов) РФ. Всего документов: 33 355 823. Все решения заархивированы и разложены по папкам с названиями судов, объем архива в сжатом виде — 150Gb.
Вот и магнет-ссылка. fc9ab4d0f50184ee5b9f40feca77533a219fd4f4
Подробности
Всего голосов 4: ↑2 и ↓20
Комментарии6

Rivulet — аудио плеер для торрентов

Время на прочтение2 мин
Количество просмотров9.3K

Что такое rivulet.audio?


rivulet.audio – новый способ скачивания и прослушивания музыки. Вы создаёте плейлисты, а программа автоматически находит музыкальные файлы в торрентах. Этими плейлистами можно делиться с другими и публиковать где угодно, потому что они не содержат нелегального контента сами по себе, и в них нет информации о том, где можно нелегально скачать песни. Когда кто-либо импортирует ваш плейлист, его клиент автоматически начинает поиск торрентов и проигрывает песни. Исходный код проекта открыт.

Демо


(эти сайты не имеют отношения к авторам проекта rivulet.audio)

http://178.62.36.48:9074
http://104.236.128.155:9074
http://107.170.89.163:9074
Читать дальше →
Всего голосов 12: ↑8 и ↓4+4
Комментарии9

Истории

Ричард Столлман: Почему нам нужны свободные цифровые схемы железа

Время на прочтение5 мин
Количество просмотров17K
Как далеко идеи свободного софта простираются в область железа? Существует ли моральная обязанность делать схемы железа свободными по той же причине, по которой программы должны быть свободными? Нужно ли для обеспечения нашей свободы отказываться от железа, сделанного по не-свободным планам?

Свободный софт важен для свободы, а не из-за его цены. Пользователи свободны использовать и копировать софт, изменяя его или нет. Точнее это можно сформулировать четырьмя принципами свободы:

— свобода запускать программу так, как хочется, и с любой целью
— свобода изучать исходный код и изменять его по потребностям
— свобода делать точные копии, раздавать и продавать их
— свобода делать копии изменённых версий, раздавать и продавать их

Применяя эти принципы к железу: свободное железо – такое, которое можно свободно использовать и копировать, распространяя за плату или бесплатно. Но так как систем копирования железа не существует (кроме ключей, ДНК и внешних форм пластиковых предметов), возможна ли концепция свободного железа? Большинство железа делается по планам и схемам. Схема первична.
Читать дальше →
Всего голосов 24: ↑16 и ↓8+8
Комментарии26

Классификация неструктурированных данных – зачем она нужна?

Время на прочтение3 мин
Количество просмотров12K
Основная масса хранимых современными компаниями данных является неструктурированной, т.е. это данные, созданные сотрудниками компании, а не, скажем, базой данных или выгрузкой автоматического сервиса. При этом даже при идеально настроенной системе прав доступа к ресурсам нельзя гарантировать, что в отдельно взятой папке лежит действительно то содержимое, которое мы ожидаем там увидеть. Номера паспортов и кредитных карт в папке с договорами подрядчиков? Элементарно. Фоточки с без сомнения увлекательного отпуска на Гоа в папке бухгалтерской отчетности? Легко! Новинки кинопроката в каталоге для обучения сотрудников? Да запросто! Вы все еще удивлены?

image
Читать дальше →
Всего голосов 18: ↑14 и ↓4+10
Комментарии2

Владельцы данных – мысли на тему, за и против

Время на прочтение7 мин
Количество просмотров7.7K
Откуда есть пошёл насущный вопрос

С ростом объёма неструктурированных данных организации вопрос управления её информационными ресурсами (в частности, распределения прав доступа) перестаёт быть простым и становится проблемой, а за определёнными пределами – перерастает в настоящий кошмар. Кое-кто наверняка помнит, что на одноимённом уровне сложности происходило с монстрами в Doom: они плодились бесконтрольно, и вопрос для 99% игроков был не в том, сможете ли вы выжить, а в том, как долго продержитесь. Примерно то же самое начинает происходить и с данными: со временем их объём не только не снижается – он растёт, причём независимо от штата организации. Количество сотрудников может даже уменьшиться, но… Папка с сочетанием «2002 год» в названии? Она нам нужна. Марья Ивановна уволилась три года назад? Не трогайте её профиль, там ценные документы. А ещё мы вот тут создадим папочку. И тут. И вот здесь тоже очень нужно…

Увеличение штата специализированных подразделений – дело само по себе затратное – не выход: прибегать к такому решению постоянно (хотя бы догоняя скорость роста данных) не получится даже при всём желании. А ведь у таких подразделений есть множество других задач, зачастую более важных и также требующих огромного времени.

image

Что же делать? Очевидно, нужно качественное иное решение вопроса, и цель его – куда-то переместить нагрузку, создаваемую при управлении данными. Идеально, если ресурсы для обработки такой нагрузки будут расти пропорционально её увеличению. А если помечтать – чтобы росли автоматически, без меня. Эх. … Так. Но постойте… Ведь у нас уже есть вся база для создания такой почти самобалансирующей системы!
Читать дальше →
Всего голосов 5: ↑3 и ↓2+1
Комментарии2

Новое исследование: избыточные права доступа сотрудников к конфиденциальной информации подвергают компанию опасности и повышают риски

Время на прочтение6 мин
Количество просмотров6K
Инсайдеры с избыточными правами доступа часто становятся виновниками утечки данных, согласно результатам опроса более 2000 служащих, проведенного под эгидой Varonis.

image

НЬЮ-ЙОРК – (Marketwired) – 12.09.2014 – Несмотря на растущее количество утечек данных, получающих широкую огласку, 71 процент опрошенных служащих, заявили, что они могут получить доступ к данным, которые они не должны видеть, и более половины сказали, что такой доступ они получают часто или очень часто.

Сегодня, когда все больше внимания обращается не только на защиту от высокотехнологичных внешних атак, но и на ту роль, которую часто играет внутренняя уязвимость и халатность, новый опрос, проведенный по инициативе Varonis Systems, Inc. институтом Ponemon Institute показывает, что большинству организаций нелегко найти нужный баланс между необходимостью защиты информации и требованиями продуктивности сотрудников. Сотрудники с избыточными правами доступа к данным представляют собой постоянно растущий риск для организаций с точки зрения случайной и/или намеренной огласки конфиденциальных данных.

Отчет по опросу, «Корпоративные данные: защищенные активы или бомба с часовым механизмом?» составлен на основе проведенных в октябре 2014 года опросов 2276 сотрудников компаний в США, Великобритании, Франции и Германии. В число респондентов входили 1166 специалистов по ИТ и 1110 конечных пользователей из организаций, насчитывающих от нескольких десятков до нескольких тысяч сотрудников и действующих в разных отраслях экономики, включая финансовый и государственный сектор, медицину и фармацевтическую промышленность, оптовые продажи, производство, технологии и компьютерные разработки.

Читать дальше →
Всего голосов 10: ↑6 и ↓4+2
Комментарии6

Алгоритм формирования блокчейна

Время на прочтение3 мин
Количество просмотров17K


Ко мне часто обращаются за советом люди, которые так или иначе имеют отношение к технологиям, работающим на блокчейне. Я решил написать эту статью, чтобы помочь тем, кто уже работает или планирует начать работать над проектами, в основе которых лежит распределенная база данных и блокчейн.
Читать дальше →
Всего голосов 6: ↑4 и ↓2+2
Комментарии15

Национальный план Германии по реализации Хартии открытых данных G8

Время на прочтение2 мин
Количество просмотров3.9K


Буквально несколько дней назад Министр Внутренних дел Германии представил документ 'The Federal Government's National Action Plan to implement the G8 Open Data Charter' (Национальный план действий федерального правительства по реализации хартии открытых данных G8).

Эта хартия была принята на саммите G8 в Ирландии в июне 2013 года и основывается на следующих принципах:
  1. государственные данные публикуются как открытые по умолчанию, в то же время, с условием что приватность защищена;
  2. выпуск качественных, своевременных и хорошо описанных открытых данных
  3. выпуск столько данных в стольки форматах сколько только возможно чтобы сделать данные максимально удобными для повторного использования;
  4. предоставление экспертизы и прозрачности о сборе данных, стандартах и процессах публикации, через улучшение управления;
  5. консультации с пользователями и публикация данных в целях развития и стимулирования инноваций;


По этому плану действий Германское федеральное правительство берет на себя обязательства:
Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии0

День открытых данных 21 февраля пройдет по всему миру

Время на прочтение1 мин
Количество просмотров2.9K


По всему миру 21 февраля пройдет Open Data Day — opendataday.org
это огромный хакатон-марафон и событие для всех кто работает открытыми данными или хочет узнать о них больше.

Мы, Информационная культура и OKF Russia, планируем провести мероприятие по открытым данным в Москве в этот день.
В ближайшее время напишем о том как и в каком формате его проведем.

Если Вы планируете провести хакатон по открытым данным, то этот день очень подходит для такого события.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

«Открытые финансовые данные: возможности их использования»

Время на прочтение2 мин
Количество просмотров2.9K
Друзья, в качестве разнообразия анонс мероприятия, одного из тех, что мы регулярно проводим. Ранее мы ни разу не анонсировали его на Хабре, опасаясь оффлайнового хабраэффекта, но, может мы зря боялись?

Мы организуем семинар, на котором выступят представители Минфина России, Всемирного банка, специалисты по Linked Data и Ваш покорный слуга.

Также прошу всех в комментариях отметиться, с каким из ведомств вы бы хотели встретиться и пообщаться. В формате семинара ли, лекции или или встречи с разработчиками. А может быть в формате организованного ими или с их участием в хакатоне.

А я пообещаю попробовать договориться с ними, чтобы такую встречу организовать.

Теперь сам анонс.



Минфин России и НП «Инфокультура» приглашают на практический семинар «Открытые финансовые данные: возможности их использования», который состоится 30 января 2015 года в БЦ Ринко Плаза.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии4

О том, как устроены открытые данные в России

Время на прочтение9 мин
Количество просмотров28K
Не секрет, что в России за последние годы, с одной стороны, стало больше открытых данных, с другой — накопилось немало критики.

Так неслучайно получилось, что тематика открытых данных — это то, чем я занимаюсь давно и знаю о большей части инициатив в этой области не по наслышке, а по собственному опыту участия. Здесь я постараюсь обойтись без ссылок на свои проекты, чтобы не нарушать правил сайта, их легко будет найти по их названиям в любом случае. Но постараюсь дать все ссылки на официальные ресурсы.

Поэтому, вместо предисловия, я представлюсь.

Меня зовут Иван Бегтин, я вот уже несколько лет продвигаю идею открытых данных в России, возглавляю небольшую некоммерческую организацию (Инфокультура) от лица которой и вместе с сотоварищами мы организуем соревнования, пропагандируем открытость данных среди госорганов.

Кроме всего прочего я вхожу в Совет по открытым данным при Правительственной комиссии по координации Открытого Правительства и ряд общественных и экспертных советов при органах власти и в курсе многих успешных (и провальных) государственных инициатив в этой области.

Ну и поскольку я, в том числе, в комментариях на Хабре читаю много вопросов, заданных явно или неявно, то на самые частые я отвечу в этой заметке, а также на те, что будут в комментариях.


Читать дальше →
Всего голосов 23: ↑21 и ↓2+19
Комментарии26

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Собираем плохие данные — 2. 1.5 года спустя, про то как не надо публиковать открытые данные

Время на прочтение3 мин
Количество просмотров12K
Не секрет, что российские органы власти в последнее время декларируют высокую степень открытости, публикуют данные и некоторые из них даже бывают полезными, но так было не всегда и далеко не везде.

Полтора года назад я приводил массу примеров неверного толкования открытых данных. В заметке «Собираем плохие данные» есть несколько примеров, когда за машиночитаемые открытые данные выдавали разделы на сайтах или PDF документы.

При том, что мониторить открытость государственных данных в России дело неблагодарное, и что методрекомендации того же Минэкономразвития — это победа формы над содержанием, но даже в таком раскладе можно было сетовать лишь на то, что госорганам облегчили жизнь по публикации данных, а не усложнили.

Надо ли делать полноценное обследование властей на предмет качества открытости данных — вопрос открытый. Рано или поздно это потребуется сделать даже при том, что займёт много времени.
Но самыми выдающимися примерами можно ознакомится сейчас. Ну и конечно — рейтинги фуфло, антирейтинги рулят. Худших надо знать в лицо.
Читать дальше →
Всего голосов 13: ↑9 и ↓4+5
Комментарии22

Сервис для определения имени абонента по телефонному номеру

Время на прочтение2 мин
Количество просмотров83K
За всё время пользования телефонией (городской или сотовой, не важно) меня удручала одна вещь — отсутствие возможности узнать имя абонента при его отсутствии в вашей телефонной книге. Даже если у вас подключена услуга АОН то определяется только телефонный номер, но не имя.

Для решения этой проблемы я сделал proof-of-concept сервиса, который ставит в соответствие телефонному номеру имя абонента. Таким образом вы сможете понять кто вам звонит и дальше принять решение — снимать трубку или нет.

Читать дальше →
Всего голосов 42: ↑37 и ↓5+32
Комментарии57

Извлечение данных из фотохостинга

Время на прочтение6 мин
Количество просмотров22K
Наткнулся однажды на этот пост и мне подумалось — раз у нас есть такая прекрасная, полностью открытая галерея частных данных (Radikal.ru), не попытаться ли извлечь из нее эти данные в удобном для обработки виде? То есть:

  • Скачать картинки;
  • Распознать текст на них;
  • Выделить из этого текста полезную информацию и классифицировать ее для дальнейшего анализа.


И в результате, после нескольких вечеров, работающий прототип был сделан. Много технических деталей:
Читать дальше →
Всего голосов 27: ↑23 и ↓4+19
Комментарии6

Ложные корреляции по открытым данным Пермского края

Время на прочтение3 мин
Количество просмотров9.6K
6-7 ноября 2014 года в Перми будет проведен конкурс «Открытый регион. Хакатон» по разработке приложений и сервисов на основе открытых данных Пермского края.

На сайте opendata.permkrai.ru опубликовано примерно 1400 статистических показателей по различным областям жизнедеятельности края. Что можно сделать с этими данными? Первая мысль, которая пришла мне в голову, — создать аналог сайта Spurious Correlations (ложные корреляции).

TL; DR:
Исходники: github.com/yakov-bakhmatov/odpr
Приложение: odpr.bakhmatov.ru
Итак, приступим
Всего голосов 20: ↑20 и ↓0+20
Комментарии12

Инструменты для перевода произведений в общественное достояние

Время на прочтение3 мин
Количество просмотров12K
image Помещение созданного вами произведения в общественное достояние является хорошим вкладом в развитие общественных форм собственности и в развитие возможностей общественного производства как такового. Ведь после этого любой человек сможет совершенно свободно воспользоваться вашим произведением для создания нового. Возможно, он будет вдохновлен вашим примером и также поместит свое новое произведение в общественное достояние. Пополняя сокровищницу общественного достояния, мы тем самым расширяем возможности использования созданных произведений и ускоряем прогресс за счет сведения к минимуму юридических препятствий.

Эта небольшая статья подскажет вам, каким именно образом можно перевести произведение в общественное достояние.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии22

Простой способ оценки понятности текста на русском языке

Время на прочтение4 мин
Количество просмотров16K
По сути, опубликованное ниже является моим комментарием к публикации «Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов». Поскольку я не могу оставлять комментарии, то пишу в «Песочницу».

Критерии оценки понятности текстов, которые были рассмотрены в посте, опираются на практически нулевые знания о языке, на котором эти тексты написаны: достаточно знать, как он делится на слова и предложения. Этот подход удобен в плане простоты вычислений, но не позволяет использовать много релевантных данных. Как мне кажется, в случае с русским языком очевидно, что еще можно использовать, и эти данные легкодоступны.
Читать дальше →
Всего голосов 33: ↑33 и ↓0+33
Комментарии20

Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов

Время на прочтение9 мин
Количество просмотров27K
Так сложилось что в последние годы мне лично приходится всё больше и больше сталкиваться с различными государственными текстами, особенно законами и финансовыми документами вроде обоснований к бюджету, а также пытаться их переводить с нечеловеческого канцелярского языка в слова или визуальные схемы которые были бы понятны и мне и тем кому я потом рассказываю о том что это такое.



За всё это время у меня лично сложилось стойкое ощущение того что русский язык разделился на два его подвида — сухой канцелярский юридический официальный язык и «язык Интернета», с ново-образованными словами, жаргонизмами и значительной персонификацией. Вместе с постоянным чувством что «так дальше жизнь нельзя» всё это привело меня, вначале к поискам правильного названия того как это всё называется, а далее к тому что с этим могут делать люди умеющие программировать.

Немного истории


18 января 2011 года, Президент Обама выпустил новый указ, Executive Order, «E.O. 1356 — Improving Regulation and Regulatory Review» («Улучшение регулирования и рассмотрению вопросов регулирования»). В нем говорится, что "[наша система регулирования] должна обеспечить, чтобы правила были доступны, согласованы, написаны простым языком, и легко понимаемы.".

Написанное простым (понятным) языком — это отнюдь не расхожий термин и не оборот речи. Это сформулированные за десятилетия подход по переводу официальных текстов, документов, речей политиков, законов и всего что наполнено официальным смыслом, в форму понятную простым смертным.

Понятный язык — это четкое, краткое написание предназначенное для того чтобы читатель понимал текст, как можно быстрее и как можно полнее. В нем избегаются избыточная подробность, запутанность речи и жаргон.
Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Комментарии42