sashaeve Dec 26 2009 at 18:04

Внедрение семантических данных в HTML

4 min

1.8K

Semantics*

+19

Comments 18

nuxdie Dec 26 2009 at 19:27

Я думаю, что заручиться поддержкой поисковых гигантов гораздо проще, чем кажется. В конце концов мы все здесь делаем веб таким, какой он будет завтра. И «большие компании» идут нам на встречу. Взять хотя-бы Mozilla Drumbeat. Ведь в конечном счете идея создания единого информационного пространства, и привела к Web2.0
Мы стоим на пороге новой эры взаимодействия человека и машин с информацией. Наша задача в создании и популяризации инструментов анализа и обработки семантической информации. Как только такие инструменты станут достаточно функциональны, мы получим необходимую критическую массу и выдвинем веб на новый уровень…

benone Dec 27 2009 at 16:25

Заметил, что мы каждый день стоим на каком-то пороге… И не на одном)

boolive Dec 26 2009 at 19:50

Уйдите уже наконец от интерфейсноцентрических систем и наделите сами данные смыслом, сделайте доступ к данным через апи (SOAP, xml-rpc...) и свяжите их на уровне моделей данных. Уже изобретены нейронные сети, семантические сети, ассоциативные… сложность в том, что нормальной доступной субд нету для не реляционных структур.

Gard Dec 26 2009 at 20:33

Гиганты тоже коммерческие организации. Они тоже хотят внедрить технологию семантического поиска как только это позволит избежать выдачи одного и тогоже текста в выдаче. Другое дело, что в выиграше останутся только сайты с высоким процентом создаваемой информации. Поэтому, мне кажется, что в ближайшее время нас ждут только микроформаты, которые гораздо выгоднее.

-1

alno Dec 26 2009 at 22:41

Вообщем-то, микроформаты это тоже большой шаг вперед по сравнению с текущим состоянием дел.

Мне кажется, что поисковые гиганты могли бы значительно стимулировать использование тех или иных технологий (например, микроформатов) за счет добавления дополнительных очков при ранжирование.

Например, мне кажется вполне реализуемой следующая схема работы:

1. Юзер вводит в поиск «Вася Пупкин»
2. Поисковик определяет, что в запросе имя собственное и отдает некоторое предпочтение при ранжировании тем страницам, которые содержат контакты Васи не просто в текста, а внутри hCard, например.
3. Кроме этого, для таких страниц помимо снипета выводится ссылка «Контакты Васи Пупкина», при наведении на которую показывается аккуратно отформатированный контент из hCard.

Все. Дальше в дело вступает орда сеошников, которые понимают, что используя hCard они могут поднять свой сайт на пару позиций вверх в некоторых запросах.

Абсолютно аналогично решается с другими микроформатами… И через некоторое время мы уже получаем чуть более упорядоченный веб.

Однако, описанного почему-то пока не наблюдается…

Gard Dec 26 2009 at 22:53

Собственно, когда писал комент — в голове крутилась мысль, что совершенно не затронута область микроформата сайтов-визиток (ну и сайтов-прайсов как отдел визитки). Хотя как говорит опыт RSS это позволит не создавать дизаин вобще, так как по данным из тэгов будет проходить форматирование информации (а на сайтах визитках даже комменты негде). Получается что можно положить на файловый сервер некий отформатированный документ (robots.txt) и успокоиться. Но опять таки это выгодно только некомерческим сайтам, которых единицы.

alno Dec 26 2009 at 23:07

Ну, я думаю, владельцам сайтов не всегда выгодно класть только robots.txt — в той же hCard содержатся только контактные данные, а на сайте-визитке может быть некоторая дополнительная информация — например, портфолио разработчика. И люди будут заходить ее смотреть время от времени… Я бы, например, заходил посмотреть, даже если я искал только телефон человека — там же может быть какая-та информация от человека, которая может пригодится позже в разговоре.

Я немного не понял про опыт RSS — все RSS-потоки, которые я встречал, параллельно представлены набором страниц с дизайном, почти у всех там еще форма для комментов есть как минимум. Если у Вас есть другие примеры, было бы интересно посмотреть, я таких просто не встречал пока.

И почему только некоммерческим? Если говорить о сайтах-прайсах (ваш пример), то это весьма коммерческие сайты.

Gard Dec 26 2009 at 23:16

Про RSS:
Единственное, что заставляет заходить на блоггерский сайт — это либо коммент (которых нет у визиток), либо неполный пост в RSS. У меня есть несколько блогов в агрегаторах, которые я читаю регулярно, но дизаин сайтов уже забыл. Тоже самое будет и hCard's. Я не говорю что это плохо или хорошо. Просто это другой веб с другой идеей.
Про прайс:
Идея отличная, однако пока все её реализовывают, насколько я понимаю, с помощью API (Яндекс.Маркет).

alno Dec 27 2009 at 00:00

Я думаю, тут все сильно зависит от личных предпочтений человека. Я обычно открываю текст в браузере (если, конечно, он как-то мне интересен). Может быть это обусловлено просто привычкой, я не могу сказать. Но я могу предположить, что я не один такой в мире, и поэтому пока многим авторам придется какой-то дизайн поддерживать =)

Хотя с другой стороны — я кажется видел парочку сайтов (сейчас, к сожалению, не могу вспомнить адреса), где для отображения в браузере ленты использовалось форматирование RSS с помощью XSLT — это достаточно близко к отсутствуию дизайна. Кроме того, Firefox, например, предоставляет некоторый дефолтный стиль для отображения RSS.

Так что, если дефолтные стили браузеров будут немного доработаны — то действительно, многие авторы смогут не создавать дизайна — и при этом позволять читать ленту из браузера. Тогда ситуация безусловно приблизится к той, которую Вы описываете =)

По поводу прайсов — видимо это описывается микроформатом hProduct. Причем судя по списку примеров его потихоньку начинают использовать.

safright Dec 26 2009 at 22:12

Насчет «кто и зачем будет делать онтологическое описание» есть следующая идея: сейчас все находятся в плену стереотипа, что это описание добавляют где-то в конце, на готовый контент. Моя мысль: это чушь бред сивой кобылы в безлунную ночь, настолько же «простой» как дизассемблирование толстой программы (или, еще «круче» — попытка налету заменить классический процедурный код на объектно-ориентированный) Онтологическое описание должно идти _до_ работы над «шумом». Это должна быть технология разработки.
Например, заказывая написание статьи неизбежно требуется договориться, что будет в этой статье. Основное сообщение и некоторые важные детали. Вот это — и есть тот материал, из которого можно очень легко и просто сделать описание всего прочего. Более того, в таком виде онтологическое описание будет помогать работе — фиксируя однозначным образом наиболее важные отношения. Частный случай — исследование. В нем онтология является продуктом — формализованным выводом.

o_O_Tync Dec 26 2009 at 23:10

Грамотно! При возникновении идеи введения онтологий, первая возникающая мысль — «надо всё переделать». Напротив, нужно просто изменить подход к написанию :)

-1

o_O_Tync Dec 26 2009 at 22:54

> Как это может качественно повлиять на веб: ваш вариант?
Легко можно отображать не только релевантные результаты но и связанные с ними: не всегда человек точно знает как называется то что он ищет :) даже я бы сказал обычно люди вообще не умеют правильно искать :) Семантическая разметка сильно бы помогла

-1

o_O_Tync Dec 26 2009 at 23:00

Я бы ещё добавил что могут появиться «дорвеи» из RDFных схем для увеличения вероятности отклика страницы на некоторый смысловой запрос. Ничто ведь не удержит спамеров и прочую *****братию от создания заведомо ложных онтологий :) А вот это уже, увы, наверняка быстренько сведёт на нет всю красоту идеи, неважно в какой реализации. В жёстко структурированных схемах сложнее отличить лажу так как сейчас поисковики выкидывают дорвеи: суть онтологии как раз в машинном представлении информации с изначально подразумевающейся истинностью

VolCh Dec 27 2009 at 02:39

В принципе вечная борьба меча и щита: уже есть технологии и/или методики придания веса различным сайтам с одной и той же информацией (те же PR и ТИЦ), ничто не мешает применять их и к онтологиям — истинность утверждений при наличии различных вариантов зависит от «авторитетности» источников.