Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Директор Google сомневается в Семантической сети

Чулан
Тим Бернерс-Ли считается одним из отцов-основателей Всемирной паутины и является действующим директором Консорциума W3C. Он выступил со вступительным словом о Семантической сети во вторник на открытии XXI Национальной конференции по искусственному интеллекту.

Тим Бернерс-Ли сказал, что следующим этапом эволюции Всемирной сети станет создание среды, в которой все данные будут доступны для обнаружения и анализа программами искусственного интеллекта. Семантическая сеть — это интернет, где вся информация специально отформатирована не только для удобства человека, но также для удобства машин, которые тоже будут с ней активно работать. Благодаря этому появятся новые возможности по обработке информации и новые приложения.

Как обычно, директор W3C призвал разработчиков более активно использовать семантические языки, вдобавок к HTML. Он обратил внимание на важность использования идентификаторов URI (Uniform Resource Identifiers) и стандарта RDF (Resource Description Framework) для идентификации информации. Если создание Семантической сети пойдет в намеченном направлении, то скоро интернет превратится в интерактивную среду для совместного творчества и работы, как и было задумано изначально.

Сразу после окончания выступления было предусмотрено время для вопросов из зала, и первым к микрофону подошел директор Google по поиску и член Американской ассоциации по искусственному интеллекту Питер Норвиг (Peter Norvig). Он использовал возможность публичного выступления на полную катушку и даже поспорил с оратором, сообщают журналисты, ставшие свидетелями спора.

Питер Норвиг выступил от имени компании Google и заявил, что на пути к Семантической сети стоит несколько препятствий. Главное из них — некомпетентность веб-мастеров: «Мы имеем дело с миллионами веб-мастеров, которые не могут настроить веб-сервер и не способны написать HTML-код». Этим горе-специалистам будет очень тяжело перейти к стандартам Семантической сети. Другие проблемы — конкуренция коммерческих провайдеров, которые не желают принимать единые стандарты, и жульничество, которое является естественной частью человеческой натуры. «Каждый день мы имеем дело с людьми, которые пытаются поднять свой сайт в результатах поиска и продать виагру кому-нибудь, кто ее совсем не ищет», — сказал Питер Норвиг.

Тим Бернерс-Ли согласился, что жульничество в интернете — это проблема, но он объяснил, что Семантическая сеть подразумевает главным образом идентификацию источника информации, а не описание контента. Вообще, компания Google должна быть как никто другой заинтересована во внедрении стандартов Семантической сети.
Рейтинг 0
Просмотры360
Комментарии 8

Тим Бернерс-Ли не понимает, что такое Веб 2.0

Чулан
Отец-основатель Всемирной сети и директор консорциума W3C сэр Тим Бернерс-Ли дал интервью сайту разработчиков IBM developerWorks, в котором он рассуждает о развитии интернета.
Читать дальше →
Рейтинг 0
Просмотры338
Комментарии 15

Тим Бернерс-Ли опять рассказывает о Семантической сети

Чулан
Изобретатель веба и директор W3C, как известно, уже много лет работает над созданием Семантической сети. И хотя разработки пока далеки от завершения, Тим Бернерс-Ли рисует потрясающие картины будущего, в котором компьютеры смогут общаться друг с другом и с людьми на одном языке.

Очередное интервью патриарха опубликовано в журнале BusinessWeek. Там вышел целый номер, посвящённый будущему интернета и Семантической сети, в том числе и подкаст об этом (mp3).

Тим Бернерс-Ли рассказывает, что цель их работы в консорциуме W3C — сделать Сеть гораздо умнее, чем она есть сейчас. Он также выразил сожаление, что в своё время выбрал для новой технологии название «Семантическая сеть» (Semantic Web), потому что более точным и простым стал бы термин «Сеть данных» (Data Web). Это уже не первый раз, когда Тим обжигается на терминах. Многие до сих пор не могут простить ему непроизносимой аббревиатуры «даблвэдаблвэдаблвэ».
Всего голосов 31: ↑29 и ↓2 +27
Просмотры215
Комментарии 6

Radar Networks выпускает социальный сервис на Семантической сети

Чулан
Журнал Businessweek опубликовал статью об одном из стартапов, разрабатывающем системы на базе технологий Семантической сети. Речь идёт о калифорнийском стартапе Radar Networks.

Этим летом Radar Networks планирует начать закрытое бета-тестирование своей системы, а открытая бета появится осенью. По мнению специалистов, это событие должно привлечь внимание техноэлиты, потому что таких разработок в интернете ещё нет. Компания не раскрывает всех деталей, но известно, что веб-сервис будет использовать технологии Семантической сети для извлечения и классификации информации с веб-сайтов, блогов и социальных сервисов вроде Youtube. Встроенный движок искусственного интеллекта будет постоянно изучать поведение пользователей и подстраивать систему под их нужды, то есть самообучаться.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры249
Комментарии 1

RDF for dummies

Семантика
С этой статьи я начинаю совй цикл постов «для новичков» где максимально популярно растолкую понятия веб 3.0. В последствии все статьи перекочуют в вики и будут «изданы» мною в виде PDF книги.

Начнем со средств, и сегодня у нас основа основ — RDF.
Читать дальше →
Всего голосов 42: ↑37 и ↓5 +32
Просмотры10.7K
Комментарии 71

Взгляд в будущее

Я пиарюсь
Представлю блог, в котором я в популярной форме рассказываю о том интернете, который нас ждет. Главными темами являются Семантическая сеть, её проблемы, возможные области применения, работающие примеры и конкретные идеи использования возможных технологий.
Я публикую обзоры зарубежной блогосферы на тему веб 3.0. В частности создателей технологии, таких как Джон Бреслин, Данни Эйрс и других. Осуществлю адаптации спецификации для большого круга читателей, пишу о семантизации популярной CMS — Wordpress.

Буду рад конструктивной критике. И прошу не придираться к слову «веб 3.0», по поводу того, что я понимаю под этим я уже сказал.
Всего голосов 31: ↑18 и ↓13 +5
Просмотры584
Комментарии 12

Чем так интересны семантические сети

Чулан
И их проблемы.

Два дня у меня чесались пальцы, очень хотелось выдать пост, на тему, которая всплыла на хабре при помощи yzh44yzh. Что делает yzh44 в своем проекте? Он реализует специфический способ навигации при помощи такого концепта как сеть (граф). Пока его сеть с семантической имеет не особо много общего. Самое главное, чего пока не хватает – это квалифицированных соединений, без которых сеть не может называться семантической. Именно квалифицированные соединения придают сети значение, и делают семантическую сеть (далее СС) как конструкцию интересной.

Читать дальше →
Всего голосов 9: ↑6 и ↓3 +3
Просмотры596
Комментарии 14

Будущее Веб 2.0

Чулан
Перевод
Я был в Сингапуре на прошлой неделе с презентацией о Веб 2.0, а также помогал тамошнему правительственному агентству Infocomm Development Agency выработать стратегию развития сингапурских стартапов. Меня часто спрашивали о будущем Веб 2.0 — пузырь ли это, и когда на его место придет что-то другое? К счастью, в последнее время мы в O'Reilly Radar достаточно хорошо проработали эту тему, так что я смог ясно изложить перед ними картину будущего. Она выглядит примерно так…
Читать дальше →
Всего голосов 64: ↑54 и ↓10 +44
Просмотры260
Комментарии 22

Простой RDF-репозиторий на PHP и MySQL для начинающих

Семантика
Проблема: сложность практического освоения технологий семантической сети начинающими.

Предлагаю совместными усилиями выработать конкретное решение, позволяющее запустить у себя маленькое хранилище и научиться делать запросы.

Задача: разобраться в создании, хранении и обращении к словарю, в использовании языка запросов на начальном уровне на практике.

Если вы примете участие в обсуждении и будете подсказывать лучшие решения, то я буду обновлять этот пост по мере совместного нахождения новой информации. Надеюсь, в итоге получится небольшой урок для начинающих.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры5.1K
Комментарии 20

Семантическая паутина — что мы можем делать уже сейчас

Семантика
Буквально только что в топе проскочила замечательная статья "Элементы семантической паутины". Начал писать на нее ответ, но он получился слишком большим, поэтому выделяю его в отдельный топик.

Итак, большинство комментариев делится на две категории: «Да ну, рядовому юзеру семантическая разметка информации непонятна, недоступна, и соответственно, он не будет ей заниматься» и «Да ладно, все будет хорошо, как-нибудь добредем то этого светлого будущего».

Я считаю, что правы и те, и те, и у нас, у тех, кто считает «семантическую паутину» желанным будущим, есть возможности ускорить его приход.
Если интересно - прошу под кат
Всего голосов 54: ↑47 и ↓7 +40
Просмотры4.2K
Комментарии 27

Результаты и перспективы небольшого анализа русских текстов

Чулан
Представляю читателям статистику, собранную во время создания простейшего робота-генератора русских фраз

Распределение слов


Приведу сначала некоторые цифры.
На 12.5Мб русского текста (в основном классическая литература разных авторов), на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Вторым по частоте встречаемости оказывается предлог «в» — 52124 раз, на третьем месте — частица «не»: 36268 раз.
Глагол «сказал» (ед.ч., 3л.) встречается 6566 раз и находится на 28-м месте.
А вот слово «да» находится на 36-м месте и встречается 5039 раз, тогда как «нет» — встречается 2948 раз и находится на 53 месте.
Остальные слова выбраны достаточно случайно, исходя из предпочтений автора.



Частотность слов на корпусе текстов изучалась со времён открытия закона Ципфа для английского языка (т.е., уже более 60-ти лет), публиковались различные словари и обзоры по этой теме, но мы посмотрим на русскую речь немного внимательнее и нагляднее.
Подробные графики и примеры с выводами
Всего голосов 18: ↑12 и ↓6 +6
Просмотры453
Комментарии 21

Google приобрёл компанию Metaweb и базу знаний Freebase

Семантика
Поисковый стартап Metaweb, который разрабатывал технологии семантической разметки Веба и поддерживал открытую базу знаний Freebase (12 млн людей, мест и объектов, связанных друг с другом), на прошлой неделе куплен компанией Google. Похоже, поисковый гигант наконец-то созрел для реализации в жизнь футуристических технологий Семантической сети, которые с 2006 года обсуждались на Хабре.

Как известно, Семантическая сеть подразумевает внедрение нового формата разметки веб-документов, удобных для машинной обработки. Таким образом, любой текст может восприниматься машиной как набор фактов и иерархических понятий, а весь интернет выйдет на уровень Веб 3.0, превратившись в единую распределённую и постоянно обновляющуюся базу данных.
Читать дальше →
Всего голосов 74: ↑67 и ↓7 +60
Просмотры1.7K
Комментарии 24

Организация и оптимизация информационного пространства пользователя

Поисковые технологии
Из песочницы
Ежедневно, выполняя свои должностные и прочие функции, современный человек сталкивается с задачей анализа большого объема информации и поиска необходимых ему данных. Со временем происходит накопление пользовательских данных в виде документов. Эти документы в сумме составляют некоторое информационное пространство пользователя. С каждым новым документом все острее встает вопрос организации этого пространства: с течением времени из пары – тройки папок с иерархически – расположенными в них файлами получается огромная кипа документов, которую достаточно сложно привести к иерархической форме с линейными связями. Перед нами встает задача конкретизации, категоризации и визуализации информационного пространства пользователя.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры5.1K
Комментарии 7

Text Mining Framework (Java)

СемантикаJavaData Mining
Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.
Читать дальше →
Всего голосов 42: ↑37 и ↓5 +32
Просмотры29.6K
Комментарии 39

Как и для чего мы сделали свой валидатор микроразметки

Блог компании ЯндексМикроформатыСемантика
Недавно мы писали о нашем валидаторе семантической разметки. А сегодня хотим рассказать, зачем и почему он был сделан, какие сложности возникли при разработке и как мы с ними справились. Одна из причин, по которой мы его сделали, конечно, в том, что мы хотели избавить роботов от встреч с ошибками вебмастеров. Но руководствовались мы не только этим.

Реакция роботов на ошибки в микроразметке

Медленно, но верно семантическая разметка набирает популярность. Чуть больше десяти лет назад (в мае 2001 года) впервые был введен термин «семантическая паутина». В 2004 году появилось первое упоминание формата RDFa, примерно тогда же начали развиваться микроформаты. В июне 2011 года был запущен стандарт schema.org. Сейчас семантическую микроразметку поддерживают и Яндекс, и другие ведущие мировые поисковые системы.

Однако вебмастера часто сталкиваются с тем, что валидаторы HTML выдают массу ошибок.
Читать дальше →
Всего голосов 47: ↑43 и ↓4 +39
Просмотры41.6K
Комментарии 15

Технологии Semantic Web для интеграции информационных систем

Семантика
Технологии семантической паутины (Semantic Web) периодически привлекают внимание благодаря тому, что на их основе создаются новые интересные инструменты. Совсем недавно появился социальный поиск (Graph Search) в Facebook – первый инструмент поиска по графу, доступный действительно широкому кругу пользователей.
Однако, сфера применения семантических технологий не ограничивается социальными сетями и поисковыми сервисами. Идея применить эти технологии для организации обмена данными между информационными системами достаточно очевидна. Если одна система передает другой не только сами данные, но и информацию об их предметной сущности (смысле, семантике), это позволяет лучше абстрагировать обменивающиеся системы друг от друга, чем при использовании выгрузок в XML или веб-сервисов SOA.
Кодирование информации в семантическую форму при передаче
Сегодня существует несколько реализаций такого подхода. Большинство из них, конечно, сделано зарубежными компаниями, но есть и российские разработки. В этой статье я расскажу об архитектуре одной таких систем, которую реализовал на практике.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры8.9K
Комментарии 9

Semantic MediaWiki

Семантика
Tutorial

Semantic MediaWiki — это расширение, ради которого стоит ставить MediaWiki: оно помогает бороться с бардаком и хаосом, который рано или поздно воцаряется в любой вики-системе.

  • Оно позволяет поддерживать согласованность данных на вики.
  • С его помощью можно обращаться с вики как с базой данных.
  • С его помощью можно генерировать красивые графики, диаграммы и графы на основе вики-данных.
  • Оно позволяет пользователям возможность вводить данные с помощью форм, а не вики-разметки, понижая тем самым порог вхождения для пользователей.

SMW позволяет использовать вики как составную часть системы управления знаниями, с его помощью можно создавать коммерческие системы, которые сочетают простоту вики, четкость коллаборативных баз данных, и лучшее из мира Semantic Web. В общем, это вещь, более чем достойная пристального внимания и подробного обзора.
Читать дальше →
Всего голосов 70: ↑67 и ↓3 +64
Просмотры39.3K
Комментарии 26

ConceptNet 5 — настоящий ИИ не за горами

Open sourceAPI
Из песочницы
ConceptNet

ConceptNet — семантическая нейро-сеть, содержащая много вещей, которые компьютеры должны знать о мире, особенно при понимании текста написанного людьми.
Сеть построена из узлов, представляющих определенные слои и концепции, в виде слов или коротких фраз естественного языка и знаков отношений между ними. Это могут быть любые вещи, которые компьютерам нужно знать, чтобы искать информацию лучше, отвечать на вопросы и понимать цели людей. Если вы хотите построить свой собственный Watson вместе с ConceptNet, то это должно быть отличной целью для начала!
Подробности об ConceptNet под катом
Всего голосов 55: ↑50 и ↓5 +45
Просмотры31.7K
Комментарии 46

Будущее дизайна веб-систем, попытка прогноза

Веб-дизайн

Преамбула


Данный текст не привносит ничего принципиально нового. Все решения, которые тут упомянуты, уже существуют и используются, но не настолько широко, как хотелось бы.

Текст предлагает несколько парадигм, которые должны радикально улучшить восприятие и работу с веб-сайтами, а также повысить качество информации в сети.

Ну и да, на данный момент — образцовый дизайн: Дзенский поиск Яндекса. Шутка.
Читать дальше →
Всего голосов 19: ↑11 и ↓8 +3
Просмотры10.5K
Комментарии 7

Изучаем граф-ориентированную СУБД Neo4j на примере лексической базы Wordnet

PythonПрограммированиеSQLData MiningNoSQL
Tutorial
СУБД Neo4j — это NoSQL база данных, ориентированная на хранение графов. Изюминкой продукта является декларативный язык запросов Cypher.

Cypher позаимствовал ключевые слова типа WHERE, ORDER BY из SQL; синтаксис из таких разных языков как Python, Haskell, SPARQL; и в результате появился язык, позволяющий делать запросы к графам в визуальной форме наподобие ASCII art. Например, заголовок данной статьи я бы представил в виде графа (Neo4j) — [изучаем] -> (Wordnet). И это почти готовый запрос к базе данных!


Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры20.5K
Комментарии 0
1