Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Поисковик Google по датасетам вышел из беты

ITSummaПоисковые технологииData MiningМашинное обучениеНаучно-популярное


Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать дальше →
Всего голосов 30: ↑29 и ↓1 +28
Просмотры10.5K
Комментарии 1

Элементы семантической паутины

Семантика
Сложность структуры современного информационного общества постоянно растёт. В связи с этим, требования к эффективности алгоритмов обработки информации также увеличиваются. В последнее время наиболее популярными направлениями в этой области являются Data Mining (DM), Knowledge Discovery in Databases (KDD) и Machine Learning (ML). Все они предоставляют теоретическую и методологическую базу для изучения, анализа и понимания огромных объёмов данных.
Однако этих методов не достаточно, если сама структура данных будет настолько плохо пригодной для машинного анализа, как исторически сложилось на сегодняшний момент в Internet.
Для решения данной проблемы предпринята глобальная инициатива реорганизации структуры данных Internet в целях преобразования его в Семантическую Паутину предоставляющую возможности по эффективному поиску и анализу данных как человеком так и программным агентам.
В этой статье рассмотрены основные технологии позволяющие реализовать Semantic WEB.

Читать далее..
Всего голосов 63: ↑57 и ↓6 +51
Просмотры12.5K
Комментарии 31

Создание семантического веб-приложения

Ruby on Rails
Tutorial
railsrdf
В рамках моего дипломного проекта мне предложили создать систему формирования проектных команд на основе технологий семантической паутины. Так как я уже переболел голым PHP, SQL, ZF, и имел опыт программирования на Ruby on Rails, ознакомившись с существующими гемами и решениями для работы с RDF, решил писать на нём, т.к. не очень люблю яву (да простят меня ява-разработчики), хотя она и является самым передовым языком в области semantic web, intelligent agents, data mining.
Читать дальше →
Всего голосов 79: ↑70 и ↓9 +61
Просмотры16.2K
Комментарии 30

С чего начинаются онтологии

Семантика
Из песочницы
Для таких же начинающих, в онтологиях, как и я, а так же для тех, кто хочет начать, для тех, кто задаётся вопросом, что это, с чем это едят и с чего начать, предлагаю начинать с того, с чего начал и я, а именно:
так что же такое онтологии и с чего начать?
Всего голосов 13: ↑10 и ↓3 +7
Просмотры14.6K
Комментарии 5

Организация и оптимизация информационного пространства пользователя

Поисковые технологии
Из песочницы
Ежедневно, выполняя свои должностные и прочие функции, современный человек сталкивается с задачей анализа большого объема информации и поиска необходимых ему данных. Со временем происходит накопление пользовательских данных в виде документов. Эти документы в сумме составляют некоторое информационное пространство пользователя. С каждым новым документом все острее встает вопрос организации этого пространства: с течением времени из пары – тройки папок с иерархически – расположенными в них файлами получается огромная кипа документов, которую достаточно сложно привести к иерархической форме с линейными связями. Перед нами встает задача конкретизации, категоризации и визуализации информационного пространства пользователя.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры5.1K
Комментарии 7

MilkyWeb — Graph of Everything

Я пиарюсь


В данной статье я хочу поделиться своими мыслями по поводу способов решения фундаментальных проблем современного Интернета. Хочу описать модель, которая, по моему мнению, может помочь ещё лучше упорядочить знания в интернете, и продемонстрировать свою попытку реализации такой модели.
Читать дальше →
Всего голосов 37: ↑34 и ↓3 +31
Просмотры11.1K
Комментарии 63

Технологии Semantic Web для интеграции информационных систем

Семантика
Технологии семантической паутины (Semantic Web) периодически привлекают внимание благодаря тому, что на их основе создаются новые интересные инструменты. Совсем недавно появился социальный поиск (Graph Search) в Facebook – первый инструмент поиска по графу, доступный действительно широкому кругу пользователей.
Однако, сфера применения семантических технологий не ограничивается социальными сетями и поисковыми сервисами. Идея применить эти технологии для организации обмена данными между информационными системами достаточно очевидна. Если одна система передает другой не только сами данные, но и информацию об их предметной сущности (смысле, семантике), это позволяет лучше абстрагировать обменивающиеся системы друг от друга, чем при использовании выгрузок в XML или веб-сервисов SOA.
Кодирование информации в семантическую форму при передаче
Сегодня существует несколько реализаций такого подхода. Большинство из них, конечно, сделано зарубежными компаниями, но есть и российские разработки. В этой статье я расскажу об архитектуре одной таких систем, которую реализовал на практике.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры8.9K
Комментарии 9

Базы знаний. Часть 1 — введение

СемантикаAPIОткрытые данные
Одной из причин слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.
image
Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.


Читать дальше →
Всего голосов 69: ↑66 и ↓3 +63
Просмотры63.3K
Комментарии 29

«Чем это сделать?»: поиск API — методики и проблемы

СемантикаПрограммированиеФункциональное программирование
Современные программы в значительной степени строятся из готовых кирпичиков — библиотек. Уникального кода и архитектурных решений в каждой программе относительно мало. Очень часто бывает, что существующие библиотеки не слишком высокого качества, но даже самый крутой программист не станет их переписывать.

Этот факт находит отражение и в изменении учебных курсов. Сассман, автор SICP, самого известного курса по программирование, сказал: " инженерное дело в середине 90-ых, а уж тем более в 2000-ых сильно отличается от инженерного дела 80-ых. В 80-ых хорошие программисты проводили много времени в размышлениях, а потом писали немного кода, который работал. Код работал близко к «железу», даже Scheme — все было прозрачно на всех стадиях. Как с резистором, достаточно посмотреть на цветную маркировку, чтобы узнать номинальную мощность, допустимые отклонения, сопротивление и V=IR — это все, что нужно знать. 6.001 был задуман как курс для обучения инженеров тому, как из маленьких кубиков, в которых они досконально разбираются, посредством простых техник составлять сложные конструкции, которые делают то, что от них хотят. Но программирование сейчас далеко не то же самое. Теперь вы ковыряетесь в непонятной или несуществующей документацией для софта, даже неизвестно, кем написанного. Вы должны досконально исследовать библиотеки, чтобы узнать, как они работают, пробовать разные исходные данные и смотреть, как реагирует код. Это в корне иная работа, и для нее требуется иной курс обучения."

Строительные кирпичики стандартизированы — каменщику обычно не приходится выбирать подходящий именно для этого места кирпич. С библиотеками все наоборот — то, что предназначено для обработки PDF не подойдет для создания распределенной вычислительной системы. Возникает потребность найти нужную библиотеку, в ней нужную функцию и понять, как ее встроить в свою программу. Google, как и любая другая ориентированная на естественный язык поисковая система пока помогает мало. Так что рассмотрим другие подходы.
Подробности
Всего голосов 9: ↑9 и ↓0 +9
Просмотры5.8K
Комментарии 4

Субъектно-событийный подход к моделированию сложных систем

СемантикаАнализ и проектирование систем
Александр Болдачев, 2015

Вещная (объектная) онтология


Традиционным для современного человека – и в быту, и в науке, и в философии – является вещное мышление, для которого свойственно описание мира как множества пространственно локализованных объектов-вещей. Сами вещи определяются через совокупность предикатов. Взаимосвязь объектов описывается через отношения и классификации, что формально фиксируется в виде таблиц и графов. Современные методы описания/моделирования сложных систем придерживаются вещной онтологии: сначала декомпозиция – выделение объектов, затем их классификация с приписыванием объектам свойств и установлением между ними отношений («часть-целое», «род-вид», «зависит» и т.д.)
Читать дальше →
Всего голосов 21: ↑15 и ↓6 +9
Просмотры16.8K
Комментарии 26

Сравнение субъектно-событийного подхода с существующими BPM системами

СемантикаАнализ и проектирование систем
Изложенный в тексте «Субъектно-событийный подход к моделированию сложных систем» способ анализа и фиксации данных, прежде всего предназначен для моделирования бизнеc-систем. Наиболее близкими по названию и, конечно же, по содержанию к предлагаемому субъектно-событийно подходу следует признать два метода описания бизнес-систем: EPC диаграммы (event-driven process chain, событийная цепочка процессов) и субъектно-ориентированный подход (s-BPM) компании Metasonic. Попробуем сделать сравнительный анализ этих методов моделирования предприятия.
Читать дальше →
Всего голосов 11: ↑8 и ↓3 +5
Просмотры8.8K
Комментарии 7

Технологии Semantic Web

Высшая школа ИТИС КФУПоисковые технологииСемантикаОткрытые данные
Tutorial
Semantic Web (он же Web of Data, Linked Data, Linking Open Data) — это направление развития Всемирной паутины, позволяющее машинам не только отображать информацию в интернете, но и понимать ее смысл.



Несколько лет назад Semantic Web вырвался за пределы исследовательских лабораторий и стал достоянием широкого круга разработчиков. К сожалению, в русскоязычном сообществе SW распространен пока слабо. Мало русскоязычных наборов данных. Мало приложений, которые с ними работают.

Одна из причин — отсутствие на русском языке полноценного открытого обучающего материала. Есть хорошие узкоспециализированные статьи. Есть хорошие обзоры. Но нет систематического обучающего курса.

Мы с коллегами из ИТИС КФУ при поддержке Computer Science клуба и сообщества SWUG решили сделать такой курс, который я хочу представить хабралюдям. Он состоит из шести частей:

  1. Введение в семантику и Semantic Web;
  2. Формат представления данных RDF;
  3. Формальные онтологии;
  4. Язык описания онтологий OWL;
  5. Язык запросов SPARQL;
  6. Semantic Web в дикой природе: популярные ресурсы, онтологии и сервисы.

Я решил оформить курс не в виде сплошного текста, а виде слайдов с примерами и картинками. Надеюсь, его будет интереснее читать, чем традиционные учебники. (См. ответ на замечание ivanych относительно выбора формата).

Смотрите первые две части под катом.
Смотреть первые две части
Всего голосов 30: ↑26 и ↓4 +22
Просмотры25.5K
Комментарии 44

Умный интернет вещей — кто он и с чем его едят?

Машинное обучение
Тренд интернета вещей сейчас набирает всё большую популярность. Чаще всего понятие интернета вещей неразрывно связано с чем-то умным: умные дома, умный транспорт, умные предприятия… Но когда смотришь на эту интеллектуальность внимательнее, то часто разочаровываешься: удаленное управление лампочкой в доме — это в лучшем случае автоматизация, но никак не умный дом. Кажется, что и интернет получается не таким уж и умным… А что же такое умный интернет вещей?
Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Просмотры119.3K
Комментарии 20

Классы, множества, группы, системы

СемантикаАнализ и проектирование систем
Описание предметной области (создание ее онтологии) начинается с выделения объектов и их классификации, которая традиционно заключается в составлении дерева классов-подклассов и  приписывании к ним индивидов. При этом термин «класс», по сути, используется в значении «множество»:  отнесение объекта к классу мыслится как включение его в качестве элемента в соответствующее множество. Цель этого текста показать, что такой унифицированный подход к описанию структуры предметной области является сильным упрощением и не позволяет зафиксировать разнообразие семантических отношений объектов.
Читать дальше →
Всего голосов 16: ↑11 и ↓5 +6
Просмотры15.4K
Комментарии 111

Концептуальное описание индивидов

СемантикаАнализ и проектирование систем

Концептуальные и реляционные понятия


Описание предметной области начинается с выделения объектов, и мы вынуждены это делать еще не имея никакой классификации, которую мы могли бы использовать в качестве шаблона для их различения. У нас есть только свое представление о мире (и предметной области), своя понятийная сетка, в которой прошиты типовые указания: это собака, это машина, это договор. Причем примечательно, что для подведения индивида под понятия («собака», «машина», «договор») нам не требуется проводить анализ, фиксировать атрибуты – понятия фигурируют в нашем мышлении в виде  гештальт-образов, с которыми  и происходит сопоставление выделенного из среды индивида. Последнее замечание наводит на мысль, что любое описание предметной области должно начинаться с формирования списка понятий, с помощью которых мы сможем выделять объекты, не обращая внимания на их атрибутивное описание.
Читать дальше →
Всего голосов 7: ↑5 и ↓2 +3
Просмотры6.3K
Комментарии 42

Отношение «часть – целое» в темпоральной/событийной онтологии

СемантикаАнализ и проектирование систем
Исходная публикация цикла («Классы, множества, группы, системы») заканчивалась выводом, что традиционная классификация индивидов через приписывание их к тем или иным классам-множествам не может считаться однородной, и следует различать (1) включение индивидов как частей в сложный объект (целое) и (2) подпадание индивидов под понятия, которые можно разделить на концептуальные и реляционные. Во втором тексте («Концептуальное описание индивидов») была предложена оригинальная иерархия концептуальных понятий («категория – тип – концепт – род – вид – разновидность – индивид»). В текущей публикации речь пойдет о классификации отношений типа «часть –целое». В лингвистических тезаурусах и в онтологиях верхнего уровня (WordNet, РуТез, SUMO, CYC Ontology, DOLCE) описаны различные варианты выделения подвидов отношения «часть – целое». В тексте предлагается еще один способ классификации.

Читать дальше →
Всего голосов 12: ↑11 и ↓1 +10
Просмотры15.3K
Комментарии 66

Логическая витрина для доступа к большим данным

СемантикаBig Data
Технологии Big Data создавались в качестве ответа на вопрос «как обработать много данных». А что делать, если объем информации не является единственной проблемой? В промышленности и прочих серьезных применениях часто приходится иметь дело с большими данными сложной и переменной структуры, разрозненными массивами информации. Встречаются задачи, способ решения которых наперед не известен, и аналитику необходимы средства исследования исходных данных или результатов вычислений на их основе без привлечения программиста. Нужны инструменты, сочетающие функциональную мощь систем BI (а лучше – превосходящие ее) со способностью к обработке огромных объемов информации.

Одним из способов получить такой инструмент является создание логической витрины данных. В этой статье мы расскажем о концепции этого решения, а также продемонстрируем программный прототип.

Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры16.5K
Комментарии 0

WEB 3.0 — второй подход к снаряду

Децентрализованные сетиСемантикаТерминология ITИсследования и прогнозы в ITКриптовалюты
image

Сначала немного истории.

Web 1.0 — это сеть для доступа к контенту, который размещали на сайтах их владельцы. Статичные html-страницы, доступ к информации только для чтения, основная радость — гиперссылки, ведущие на страницы этого и других сайтов. Типичный формат сайта — информационный ресурс. Эпоха переноса в сеть offline-контента: оцифровка книг, сканирование картинок (цифровые фотоаппараты были еще редкостью).
Читать дальше →
Всего голосов 19: ↑12 и ↓7 +5
Просмотры9.3K
Комментарии 11

Семантический браузер или жизнь без сайтов

Децентрализованные сетиСемантикаИсследования и прогнозы в IT
image

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страницы).

Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?
Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Просмотры8.3K
Комментарии 62

Методология IDEF5. Графический язык

Хранение данных
Из песочницы

Вступление


Данная статья предназначена для тех, кто знаком с таким понятием как онтология хотя бы на начальном уровне. Если Вы не знакомы с онтологиями, то, скорее всего, Вам будет не ясна цель онтологий и данной статьи в частности. Советую ознакомиться с данным явлением, прежде чем начать чтение данной статьи (возможно хватит даже статьи с Википедии).

Итак Онтология — это детальная характеристика некой рассматриваемой предметной области. Такая характеристика должна быть дана на каком-либо четко сформулированном языке. Для описания онтологий можно использовать методологию IDEF5, которая имеет в своем арсенале 2 языка:

  • Схематический язык IDEF5. Этот язык является визуальным и использует графические элементы.
  • Текстовый язык IDEF5. Этот язык представляется в виде структурированного текста.

В данной статье будет рассмотрен первый вариант — схематический язык. О текстовом поговорим в следующих статьях.
Читать дальше →
Всего голосов 6: ↑4 и ↓2 +2
Просмотры3.7K
Комментарии 7
1