Открытые данные *

Данные будут свободны!

Статьи Посты Новости Авторы Компании

snakers4 11 апр в 06:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

2.3K

Big Data*Открытые данные*Машинное обучение*ЗвукNatural Language Processing*

Обзор

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

+18

zdanevich-vitaly 30 мар в 06:10

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Простой

3 мин

5.1K

Data Mining*Открытые данные*Визуализация данных*НакопителиData Engineering*

Обзор

Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata:Main_Page.

+35

pit_ne_spit 28 мар в 11:24

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

Простой

4 мин

9.6K

Открытые данные*Визуализация данных*

Я работаю в DataNewton сервисе для скрининга контрагентов. Данные, которые мы предоставляем, берутся из 43-х официальных источников. Чаще всего это базы данных государственных сервисов. И тут есть проблема: такие сервисы любят менять формат массивов, в которых они отдают данные. Например, недавно один из них без предупреждения поле «name» поменял на «firstname», из-за чего могли полететь многие названия компаний. Но мы быстро увидели это в самодельной панели и предотвратили ошибку, которая для нашего сервиса была бы критической.

Как мы построили визуальное отображение ошибок — рассказываем в статье.

+18

N-Cube 18 мар в 11:49

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Простой

3 мин

1.4K

Open source*Python*Облачные вычисления*Открытые данные*Научно-популярное

С тех пор, как я рассказывал на хабре про мой открытый проект спутниковой интерферометрии PyGMTSAR (Python InSAR библиотека) для обработки и анализа радарных данных спутников Sentinel-1, прошло много времени и сегодня PyGMTSAR представляет собой наиболее мощный инструмент среди всех открытых InSAR. Притом, PyGMTSAR действительно общедоступен, поскольку не требует скачивать огромные данные, устанавливать программное обеспечение и так далее — достаточно просто открыть ссылки на Google Colab в браузере и посмотреть и запустить готовые примеры или адаптировать их для своей территории и области интереса. Предлагаемые Google Colab примеры включают в себя создание отдельных интерферограмм для анализа результатов сейсмических событий (землетрясений) и наводнений, создание рельефа, анализ серий интерферограмм для мониторинга оползней и проседаний грунта. И все эти возможности доступны в один клик онлайн на Google Colab и в Docker контейнерах. Для профессионалов предоставляется полностью программируемая среда для выполнения InSAR задач и интерактивной 3D визуализации, доступная на Google Colab, в Docker контейнерах, на GitHub Action runners, и, конечно, на локальных компьютерах и на облачных хостах.

Читать дальше →

jtjag 12 мар в 10:00

Как сайты обнаруживают ботов по TLS

Средний

3 мин

5.9K

Сетевые технологии*Открытые данные*Реверс-инжиниринг*

Из песочницы

Порой случается так что несмотря на то что мы в точности повторяем запрос к сайту из своего любимого HTTP клиента в ответ мы получаем ошибку. Но ведь в браузере запрос проходит! В чём же дело? В этой статье мы с этим разберемся!

+21

ldrbmrtv 27 фев в 12:56

Open Research Knowledge Graph: новый подход к научной коммуникации

Средний

3 мин

913

Семантика*Открытые данные*Научно-популярное

Обзор

На сегодняшний день для представления и обмена результатами исследований мы используем методы, которые были разработаны много веков назад. С момента зарождения современной науки (публикации первого научного журнала "Transactions of the Royal Philosophical Society", 1665 г.) мы используем все тот же метод передачи научных знаний – статьи. Немецкая национальная научно-техническая библиотека TIB и исследовательский центр L3S при Университете Лейбница в Ганновере изобретают новый подход к научной коммуникации. Вместо того чтобы представлять исследования в виде статичных PDF файлов, они работают над динамическим графом знаний - Open Research Knowledge Graph, где научные идеи, подходы и методы представлены в структурированном машиночитаемом формате.

Odin_Himself 17 фев в 16:50

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Средний

10 мин

4.2K

Открытые данные*Машинное обучение*Хранилища данных*Управление продуктом*

Кейс

Recovery Mode

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

Odin_Himself 17 фев в 16:50

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Средний

10 мин

4.2K

Открытые данные*Машинное обучение*Хранилища данных*Управление продуктом*

Кейс

Recovery Mode

finindie 15 фев в 20:55

Будет ли пенсия у родившихся в восьмидесятых?

Простой

12 мин

78K

Открытые данные*Финансы в IT

Сразу извиняюсь за большую стену текста. Но тема сложная и важная, так что по-другому никак. В самом конце поста есть выжимка, содержащая суть публикации в 6 предложениях.

+263

987

Savvi 10 фев в 22:57

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

9 мин

Python*Алгоритмы*Математика*Открытые данные*Астрономия

Аналитика

Из песочницы

✏️ Технотекст 2023

В настоящее время, благодаря передовым обсерваториям, космическим телескопам и миссиям, включающим (но не ограничивающимся) Hubble, Kepler, Gaia, возможности для изучения звезд и их скоплений вышли на новый уровень. Технологии позволяют не только проникнуть в глубины космоса, но и наблюдать реальность с невиданной ранее детализацией. Благодаря им и обнаруживаются "звёзды-родственники" (т.е. звёзды, образовавшиеся из одного облака). Эти объекты обладают схожими характеристиками, включая химический состав, возраст и скорость движения.

Выявление звезд общего происхождения имеет важное значение для наших попыток понять устройство мира на глобальном уровне.

В данной статье представлены возможности, которые открываются перед нами при исследовании звёзд общего происхождения, дан код и доступ к алгоритму, который позволит попробовать себя в роли астрофизика. Приведена информация для интерпретации результатов работы программы и предоставлена ссылка на все необходимые для погружения материалы, включая реальные данные аппарата Gaia (Европейское космическое агентство).

Посмотреть наверх

+16

shcham 19 янв в 21:08

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

Средний

6 мин

11K

Математика*Открытые данные*GitHub*Matlab*

Туториал

Когда-то давно меня попросили разработать модель динамики полета АСП (авиационного средства поражения) в отечественном ПО, в среде SimInTech, причем разработать не с нуля, а тупо повторив уже созданную ранее модель в Матлабе (с Симулинком), и любезно выложенную в публичный доступ на гитхабе.

Я подумал - почему бы и нет, ведь в Симинтеке есть практически все требуемые блоки, а каких нет, я доработаю по образу и подобию. Без погружения в детали, в конце концов так оно и вышло. Но мне справедливо возразили - а чем докажешь, что твоя модель считает в точности так же, в динамике, как и исходная матлабовская модель?

+44

v1st 14 янв в 16:30

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Средний

9 мин

ERP-системы*Открытые данные*Data Engineering*

Из песочницы

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

alisichkin 12 янв в 21:38

Кто будет после нас

Простой

3 мин

7.7K

Мессенджеры*Python*Программирование*Открытые данные*Облачные сервисы*

Мнение

Да, наши дети взрослеют, становятся старше и встает вопрос - кем они будут и какие знания мы им можем передать.

решили мы с сыном написть Telegram бот...

ViAndrey 31 дек 2023 в 14:11

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Простой

2 мин

2.1K

Блог компании VisiologyОткрытые данные*Визуализация данных*

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

thoughtspile 27 дек 2023 в 11:42

Hippotable — анализ данных прямо в браузере

Простой

5 мин

4.8K

JavaScript*Data Mining*Открытые данные*Статистика в IT

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

+15

galimov_a 1 дек 2023 в 09:09

Лучшие патенты России за 2018-2022 года

Средний

17 мин

6.1K

Открытые данные*Визуализация данных*Исследования и прогнозы в IT*Патентование*

Аналитика

В своей прошлой статье я анализировал разные параметры патентной активности в РФ в 2018–2022 годах. Выяснилось, что очень много патентов на полезные модели ничего не стоят, а вузы создали конвейер по патентованию полезных моделей ради отчетности и показателей.

В этой статье я анализирую наиболее ценные патенты — те, по которым были осуществлены распоряжения правами (заключены лицензионные договоры, сублицензионные договоры, договоры отчуждения или договоры залога). Это объективный индикатор ценности патента, так как если кто‑то платит за него деньги, то, значит, он действительно нужен на рынке. Конечно, есть патенты, которые используют сами правообладатели, и они действительно могут приносить им большую пользу, но выявить их и оценить на практике не представляется возможным, поэтому, вероятно, часть действительно ценных патентов в эту статью не попала.

Код и исходные данные здесь.

Как осуществлялось исследование

Из открытых данных была собрана база всех заявок и выданных по ним патентов, отобраны патенты, по которым осуществлялось распоряжение интеллектуальными правами, обеспеченными этими патентами. Далее этот массив патентов анализировался.

vladischuk 26 окт 2023 в 16:50

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Средний

18 мин

4.1K

Блог компании HFLabsИнформационная безопасность*Тестирование IT-систем*Открытые данные*Хранение данных*

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.

Разобраться в алгоритмах маскирования

+14

Marfa-Marfa 24 окт 2023 в 13:15

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Простой

13 мин

1.4K

Блог компании OTUSPython*Открытые данные*Машинное обучение*Искусственный интеллект

Кейс

Из песочницы

✏️ Технотекст 2023

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

snakers4 20 окт 2023 в 08:55

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Простой

7 мин

24K

Открытые данные*Машинное обучение*IT-компанииNatural Language Processing*

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

+140

TilekSamiev 17 окт 2023 в 11:01

40 лет GNU

10 мин

9.3K

Блог компании Timeweb CloudOpen source*Открытые данные*История ITСофт

Операционные системы имеют основополагающее значение для Интернета, каким мы его знаем сегодня, поскольку в настоящее время они обеспечивают работу миллионов серверов, компьютеров и других встроенных вычислительных устройств. Отдельное почётное место среди этого занимает ОС Linux (или GNU/Linux), используемая миллиардами человек во всём мире.

GNU — Unix-подобная ОС с открытым исходным кодом, созданная 40 лет назад в 1983 году Ричардом Столлманом. GNU поддерживается Фондом свободного программного обеспечения (FSF), который первоначально был основан вокруг этого проекта, хотя позже он расширился и стал поддерживать другие проекты свободного ПО.

Если посмотреть на зарождение движения за свободное ПО — оно начинается с GNU. Система GNU — это не просто наиболее широко используемая ОС, основанная на свободном ПО. GNU также лежит в основе философии, которая направляла движение за свободное ПО на протяжении сорока лет.

А всё началось с плохо работающего принтера…

Читать дальше →

+53

2 3 ...

28 29

Открытые данные *

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Новости

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)

Истории

Как сайты обнаруживают ботов по TLS

Open Research Knowledge Graph: новый подход к научной коммуникации

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Будет ли пенсия у родившихся в восьмидесятых?

Звёзды-родственники: зачем и как мы их ищем, данные + код (Python)

Об импортозамещении MATLAB/Simulink на примере модели динамики авиационного средства поражения

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Кто будет после нас

Ближайшие события

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Hippotable — анализ данных прямо в браузере

Лучшие патенты России за 2018-2022 года

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

40 лет GNU

Вклад авторов