Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Музыкальный поисковик Microsoft и другие новые патенты

Чулан
Несмотря на затишье со стороны Google, в последние месяцы было зарегистрировано много интересных патентов в области поисковых технологий. Активность проявили Yahoo, IBM, Microsoft и другие компании.

Компания Yahoo (точнее, ее подразделение Overture) запатентовала новую систему торговли на аукционах контекстной рекламы, а также подала заявку на систему обмена данными между компьютером и мобильными устройствами.

Первое изобретение (патент 7,035,812) — некая «многоэлементная» система торгов, с помощью которых определяются позиции рекламных объявлений. Здесь описывается база данных, в которой хранится подробная информация о каждом участнике торгов, а также об оплаченных им позициях. Участник может самостоятельно зайти в систему и изменить стоимость цены за каждое ключевое слово.

Система обмена данными между компьютером и мобильными устройствами предусматривает запрос с мобильного устройства, после чего выполняется предварительное форматирование и отправка данных. При этом генерируется уникальный URL, который может быть передан через SMS.

Компания A9 (эта фирма принадлежит Amazon) подала заявку (20060089792) на способ отправки на мобильные устройства графических изображений (таких, как карта местности или маршрут дороги) в ответ на получение информации о местонахождении этих устройств.

Компания IBM, как известно, регистрирует больше всех патентов каждый год. Сейчас ее внимание привлекают в том числе и поисковые технологии. Компания подала сразу несколько заявок: способ полнотекстового поиска в аудиозаписях человеческой речи (патент 7,039,585); метод предсказания качества результатов поиска и определения сложности различных поисковых запросов (заявка 20060085399); интерфейс с использованием пиктограмм, которые помогают пользователю ориентироваться в результатах поиска (заявка 20060085395); идентификационная система для просмотра посещенных ранее URL среди результатов поиска (заявка 20060085476).

Активной инновационной деятельностью отличилась также корпорация Microsoft, которая разработала «гибкую формулу» для быстрого изменения ранжирования сайтов (патент 7,039,631), систему отслеживания и хранения информации о посещениях различных контент-сайтов (патент 7,039,699), прокси-сервер для передачи партнерскому сайту поисковых запросов пользователя (патент 7,035,845), систему создания «семантических» уменьшенных копий страницы для передачи на мобильные устройства с разным размером экрана (заявка 20060085743), систему автоматической генерации поисковых результатов на основе сведений о географическом местоположении пользователя, которое определяется путем анализа его поисковых запросов (заявка 20060085392), систему автоматического предсказания запросов (заявка 20060085391), систему предсказания маршрута серфинга в веб-браузере (заявка 20060085766).

Еще одной интересной разработкой Microsoft является музыкальный поисковик. Он способен находить музыкальные файлы на основе анализа их внутреннего содержания, а не текстового описания. То есть это система для «угадывания мелодий» (патент 7,035,873).
Рейтинг 0
Просмотры230
Комментарии 1

Спецслужбы внедряются в социальные сети

Чулан
Человек, который впервые открыл страницы сайта знакомств или социальной сети, будет просто шокирован тем количеством приватной информации, которую люди добровольно публикуют о самих себе. Социальные сети — это настоящая находка для спецслужб. Как стало известно журналу New Scientist, американские разведывательные органы уже всерьез разрабатывают эту тему. Исследования в данной области финансирует Национальное агентство безопасности США.

Исследовательская работа ведется в области массового автоматического сбора приватной информации, которую люди публикуют на своих страницах в социальных сетях. При этом идет поиск способов использования технологий так называемой «Семантической сети» для интеграции сведений из социальных сетей в базу данных с информацией о банковских счетах (в том числе движения по счету), сведениях о владении недвижимостью. В эту же систему можно интегрировать историю перемещений человека (эти сведения доступны из сетей сотовой связи) и другую информацию. Если такая система будет реализована, то Национальное агентство безопасности сможет генерировать подробнейшее досье на любого гражданина страны.

После 11 сентября 2001 г. Национальное агентство безопасности получило расширенные полномочия по слежению за частной жизнью граждан. Их полномочия позволяют, например, прослушивать записи телефонных разговоров. Если проанализировать список телефонных звонков человека за указанный промежуток времени, то можно составить примерную сеть его контактов. Это очень важная информация, потому что она позволяет анализировать, насколько близок человек к тому или иному нелегальному формированию.

Анализ телефонных звонков позволяет составить лишь довольно приблизительную схему. Благодаря интернету разведчики желают расширить информационную базу.

На сегодняшний день составить всеобъемлющую информационную базу на всех пользователей интернета — довольно сложная задача, потому что информация в Сети представлена во множестве форматов, несовместимых друг с другом. Эту неприятность планируется устранить в будущем, когда получат распространение стандарты Семантической сети, в том числе единый формат структуры данных Resource Description Framework (RDF), где каждый тип информации получает свой индивидуальный тег. Эти стандарты активно продвигает консорциум W3C.

Фактически, RDF превращает Всемирную сеть в одну большую и распределенную электронную таблицу со стандартными ячейками. Нужно только получить доступ к информации и научиться ее обрабатывать. Именно этим сейчас заняты исследователи, работа которых оплачивается Национальным агентством безопасности. В конце мая 2006 г. на конференции WWW2006 они рассказали о своих успехах, представив доклад под названием «Семантический анализ социальных сетей» (файл PDF). В научной работе указано, что исследования частично финансируются некоей организацией под названием ARDA (Advanced Research Development Activity). На самом деле ARDA недавно была переименована в Disruptive Technology Office и является подразделением Национального агентства безопасности по финансированию перспективных научных исследований. Одна из задач, стоящих перед Disruptive Technology Office — найти способ упорядочивания огромных массивов информации, которые стекаются в агентство, а это около 4 петабайт в месяц.

Потоки информации постоянно увеличиваются. Крупнейшие социальные сети в интернете, например, MySpace, сейчас содержат подробные сведения примерно о 80 млн человек, и это количество постоянно растет. Спецслужбы просто не справляются с обработкой такого потока.

Авторы работы «Семантический анализ социальных сетей» создали систему автоматической обработки RDF-тегов из социальных сетей, с аналогичной информацией из других интернет-систем. В будущем такая система позволит объединять множество источников информации.
Рейтинг 0
Просмотры301
Комментарии 2

Директор Google сомневается в Семантической сети

Чулан
Тим Бернерс-Ли считается одним из отцов-основателей Всемирной паутины и является действующим директором Консорциума W3C. Он выступил со вступительным словом о Семантической сети во вторник на открытии XXI Национальной конференции по искусственному интеллекту.

Тим Бернерс-Ли сказал, что следующим этапом эволюции Всемирной сети станет создание среды, в которой все данные будут доступны для обнаружения и анализа программами искусственного интеллекта. Семантическая сеть — это интернет, где вся информация специально отформатирована не только для удобства человека, но также для удобства машин, которые тоже будут с ней активно работать. Благодаря этому появятся новые возможности по обработке информации и новые приложения.

Как обычно, директор W3C призвал разработчиков более активно использовать семантические языки, вдобавок к HTML. Он обратил внимание на важность использования идентификаторов URI (Uniform Resource Identifiers) и стандарта RDF (Resource Description Framework) для идентификации информации. Если создание Семантической сети пойдет в намеченном направлении, то скоро интернет превратится в интерактивную среду для совместного творчества и работы, как и было задумано изначально.

Сразу после окончания выступления было предусмотрено время для вопросов из зала, и первым к микрофону подошел директор Google по поиску и член Американской ассоциации по искусственному интеллекту Питер Норвиг (Peter Norvig). Он использовал возможность публичного выступления на полную катушку и даже поспорил с оратором, сообщают журналисты, ставшие свидетелями спора.

Питер Норвиг выступил от имени компании Google и заявил, что на пути к Семантической сети стоит несколько препятствий. Главное из них — некомпетентность веб-мастеров: «Мы имеем дело с миллионами веб-мастеров, которые не могут настроить веб-сервер и не способны написать HTML-код». Этим горе-специалистам будет очень тяжело перейти к стандартам Семантической сети. Другие проблемы — конкуренция коммерческих провайдеров, которые не желают принимать единые стандарты, и жульничество, которое является естественной частью человеческой натуры. «Каждый день мы имеем дело с людьми, которые пытаются поднять свой сайт в результатах поиска и продать виагру кому-нибудь, кто ее совсем не ищет», — сказал Питер Норвиг.

Тим Бернерс-Ли согласился, что жульничество в интернете — это проблема, но он объяснил, что Семантическая сеть подразумевает главным образом идентификацию источника информации, а не описание контента. Вообще, компания Google должна быть как никто другой заинтересована во внедрении стандартов Семантической сети.
Рейтинг 0
Просмотры360
Комментарии 8

Давайте говорить на русском языке

Чулан
Вступление

Итак, сегодня я буду писать об ужасных изменениях, произошедших с русским языком за последнее время. Мне это кажется важным и потому я хотел бы обратить на это ваше внимание и узнать ваше мнение на этот счет. Не судите строго.

Тема

Давайте говорить на русском языке, а не на том, на котором разговариваем сейчас. Давайте стараться не писать, если не знаешь как; не говорить, если не можешь сказать правильно, перефразировать; давайте не будем допускать главную ошибку — не будем говорить на языке Америки, именно Америки, а не Англии, вы понимаете, почему я акцентирую на этом внимание. Это и будет темой моего поста. Заменим т.н. «американизмы», что так часто используются в нашей повседневной речи или же документах, книгах, что мы читаем, заменим их русскими словами. Далее привожу краткий словарь.

Менеджер — руководитель, управляющий, старший, в крайнем случае заведующий
Арт-директор — черт возьми, худрук! Художественный руководитель и все.
Креативный — прямой перевод, напомню вам, «творческий»;)
Креатор — пожалуй, художник, а лучше — создатель идей, идейный вдохновитель.
...

Это первые ужасы, что приходят в голову. Список будет пополняться и редактироваться, надеюсь, с вашей помощью. Жду ответов.

Вопрос

Ну, я думаю, вы понимаете, что я жду от вас дополнений к словарю и указаний на мои неточности. Спасибо.
Всего голосов 108: ↑74 и ↓34 +40
Просмотры697
Комментарии 208

Семинар «Семантическая вёрстка» 18 мая, Москва

Разработка веб-сайтов
18 мая в конференц-зале «Экстрополис» пройдёт семинар под названием «Семантическая вёрстка», который продолжит серию обучающих семинаров под эгидой прошедшей в апреле конференции РИТ-2007. Проведут семинар докладчики секции «Клиентское программирование»:
  • Вадим Макеев (ваш покорный слуга, он же pepelsbey, автор блога http://pepelsbey.net, автор доклада «CSS-менеджмент» на РИТ-2007, участник WSG-Russia)
  • Алексей Рыбаков (он же flack, автор блога http://flack.ru, автор нашумевшего доклада «Тестирование верстки» на РИТ-2007, участник WSG-Russia)
Читать дальше →
Всего голосов 33: ↑27 и ↓6 +21
Просмотры1.7K
Комментарии 33

(X)HTML — структура и семантика кода

Разработка веб-сайтов
Структура правильного HTML-документа базируется на логике, порядке и использовании семантически корректной верстки. Если у вас есть заголовок — используйте для него елементы Heading(h1-h6), если абзац/параграф — paragraph(p). Если у вас есть список — используйте элементы списков (ul/ol), если вы цитируете — используте blockquote или cite. Эти элементы придают смысловое значение разметке, делая ее семантически корректной, в дополнение к правильной структуре.

После составления корректного HTML-макета, используйте CSS для визуального оформления. (Тут уже дело вкуса, некоторые верстают CSS «с лету», а некоторые только после создания HTML-макета)

Стандарт XHTML более строг к синтаксису чем HTML, он не допускает наличия незакрытых тегов, одинарные теги тоже должны быть закрыты (self-closing). Элементы в XHTML прописываются строчными, а не заглавными буквами. Значения атрибутов элементов должны быть указаны в кавычках. Есть и другие отличия, но более подробно я описывать их здесь не буду.
Читать дальше →
Всего голосов 75: ↑64 и ↓11 +53
Просмотры4.9K
Комментарии 186

Zemanta — сервис для блоггера

Чулан
Наткнулся на интересный сервис — Zemanta. Сервис позволяет получать теги, картинки, ссылки по вводимому тексту. Работает примерно так — вы вводите текст (пока поддерживается только английский язык, но обещают добавить ещё другие), система его распознает и выдает картинки. теги и ссылки по данной тематике.
Конечно, сервис не выдает 100% правильные подборки, но большая часть идет по теме.

Для примера я попробовал ввести текст про Juno Reactor из Wikipedia. Он мне выдал картинки про киберпанк, матрицу, участников группы. Не плохо, картинку большую он мне выдал только зачем-то с Билли Идолом, но потом я увидел что там рядом один из участников группы Juno Reactor и все понял.

Zemanta работает как плагин в Firefox, другие браузеры он не поддерживает. Устанавливается как расширение и потом можно использовать в движках Wordpress, Blogger, Typepad. Сам не пробовал, но поверю на слово.

Лично я За такое будущее, порой сложно найти картинку «в тему», а тут все так просто делает. Жаль нет поддержки русского языка.
Всего голосов 4: ↑4 и ↓0 +4
Просмотры239
Комментарии 4

Вредная верстка

Accessibility
Как определить, что сайт сверстан качественно?
Есть много статей о том, как делать хорошо, но совсем нет – о том, как делать не надо, ведь даже валидный и кроссбраузерный сайт может быть сверстан отвратительно.

Из этой статьи вы узнаете:


  • О плохих приемах современной верстки;
  • О том, как даже не будучи профессионалом, за 5 минут определить плохо ли сверстан сайт или нет.


Читать дальше →
Всего голосов 203: ↑175 и ↓28 +147
Просмотры71.3K
Комментарии 339

Десять забытых тэгов

Чулан
Тэги как кирпичи всякого документа основанного на XML должны выбираться с большим прагматизмом, что-бы потом не удалять ненужные (т.н. deprecated) и не тормозить внесение новых (sound, video). В свете того что я сам этой темой пристально занимаюсь решая что нужно оставить в WYSIWYG-редакторе и что добавить, а так-же меня интересует типографика и семантика, то читая Никиту решил тоже поштудировать эту тему.
  1. a — мало кто помнит почему самый популярный тэг ссылки использует такое название да ещё и параметр href. Ещё меньше пишущих статьи используют этот тэг по прямому назначению, а именно в качестве якоря к участку документа, определённому параметром name. С переходом на динамическое содержание при помощи ajax, якорь получил новую жизнь, поскольку в URL после # можно прописать адресс открытого письма (см. gmail), но мало кто это замечает.
  2. address — единого мнения нет, то-ли это физический почтовый адресс, то-ли это часть описания документа с email-ом.
  3. abbr — отличный тэг для сокращений. Используя параметр title как в картинках, при наведении курсором появится полное название
  4. ins и del — очень часто статьи в блогах и ЖЖ меняются, при этом люди пишут что-то типа «upd. вопрос разрешился», тогда как логичней использовать для этого соответсвующие тэги. Само собой когда статья имеет историю изменений типа wiki, то система должна быть посложней.
  5. sub и sup — эти тэги находят как правило те кто хочет оформить простейшую математику или химию. Впрочем степени, атомарные и изотопные индексы не единственная функция. Если вы когда-либо писали дипломную работу то наверняка столкнулись с научным оформлением ссылок на источники, а сноски с использованием sup вкупе с anchor активно используются взамен неподдерживаемого тэга fn.

Читать дальше →
Всего голосов 37: ↑32 и ↓5 +27
Просмотры238
Комментарии 35

Интересная концепция

Чулан
Читая про все эти семантики и прочие веб3.0 родилась у меня идея.

О социальных сетях

Начну издалека.Сейчас очень популярны социальные сети:



Возьмём к примеру вконтакт(его структура знакома большенству).Вконтакте имеет в себе огромное количество информации, сосредоточенной в одном месте, что даёт ряд минусов(затрудненный поиск, нагрузка на сервер и тд).По сути вконтакт создан для обмена мультимедией(фото, видео и тд).Но для каждой функции вкотнакта есть отдельный сервис который дает еще больше возможностей чем социальная сеть, примером может быть youtube для видео или flickr для фото.

Читать дальше →
Всего голосов 17: ↑8 и ↓9 -1
Просмотры261
Комментарии 10

Расставив все элементарные точки над «семантикой»

Разработка веб-сайтов
читайте уже наконеч что-то умное
Как сказал Robots: « а если без шуток, …, дилетантам лучше читать и учиться, а создание топиков оставить профессионалам.»

В ходе многих статей, которые в последствии назывались «непрофессиональными», расставляю для будущих писателей все точки над… Дабы больше не возникало нареканий в вашу сторону.

Не раз боролся Delka (Зенич Игорь) за семантичность кода, который пишут в статьях и который в последствии может использоваться как некий учебник для начинающих, тем самым осуществляя нарастание ошибок.

В этой статье я объединил (скомпилировал) уже изложенные мысли (!) многих людей, но почему-то так и не донесенные до большинства. (www.flack.ru, www.pepelsbey.net и некоторые другие)

Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Просмотры2K
Комментарии 71

Отчет Multimedia Semantics Incubator Group на W3C

Семантика
Перевод
Большое количество приложений, которые обрабатывают мультимедиа получают описание информацию о контенте из метадаты. Машинное «понимания» метадаты поступающей из файла мультимедиа является безусловным, однако проблема с семантикой иногда возникает при работе распределенных мультимедийных систем. W3C Multimedia Semantics XG работает над решением этих задач несколькими путями.
Далее краткий отчет с ссылками на более подробные документы
Всего голосов 2: ↑2 и ↓0 +2
Просмотры614
Комментарии 4

i360. Семантика во всем

Семантика
Перевод


Тони Сукиенник (Tony Sukiennik) верит в преимущество людей перед силой алгоритма, когда это касается развития семантических технологий. Его компания, infoGenome никому не известный стартап, который был в тени в течение 4,5 лет, решила проявить свой потенциал, сделав семантику доступной с помощью инновационных возможностей «перетаскивания». Созданное ими ПО — i360 это в действительности приложение «Mahalo of semantic apps,» которое основано на умении пользователя добавлять смысловые тэги (метаданные) к той информации, которой мы пользуемся ежедневно. С помощью i360 вы можете добавить семантику куда угодно.
Читать дальше →
Всего голосов 21: ↑19 и ↓2 +17
Просмотры854
Комментарии 16

Смысловой поисковый движок UpTake начал свою работу

Чулан
Перевод

По данным прошлогоднего исследования comScore, планирование поездки и покупка билетов через интернет стала неописуемым кошмаром для готовящихся отдыхать. И причина не в том, что тяжело проводить операции с какими-то сервисами по продаже билетов, а в огромном количестве ненужной информации, с которой приходится сталкиваться при планировании путешествия. По данным исследования comScore, в среднем для того, чтобы составить план поездки требуется воспользоваться 12-ю поисковыми системами, ориентированными на путешествие, посетить 22 веб-сайта: на это уходит обычно около 29 дней. Семантический поисковый проект UpTake (в прошлом Kango) призван облегчить задачу пользователям.

UpTake представляет собой поисковый движок с вертикальной системой поиска, которая обладает крупнейшей базой данных, состоящей из более чем 400,000 отелей и развлекательных учреждений Америки, упоминающихся более чем на 1,000 сайтах. Используя такой вертикальный подход сверху-вниз, UpTake удалось собрать более 20 миллионов отзывов, мнений и описаний отелей и развлекательных заведений США и предоставлять эту информацию по смысловому запросу. Это что-то наподобие Metacritic только для путешественников. Основным критерием поиска является не только рейтинг популярности, UpTake так же пытается охарактеризовать отель или развлекательное учреждение на основе информации, которую поисковая система черпает из базы данных. Например, подходит ли отель для семейного отдыха, годится ли место, информацию о котором вы запрашиваете, для романтического путешествия, приемлема ли стоимость отдыха, и т.д.
Читать дальше →
Всего голосов 23: ↑21 и ↓2 +19
Просмотры293
Комментарии 10

Семантический поиск: мифы и реальность

Семантика
Перевод

О семантическом поиске говорят уже на протяжении нескольких лет. Любая технология, которая сможет сместить Google с вершины, вызывает всеобщий интерес. Особенно если речь идет о долгожданной и часто обсуждаемой возможности семантического поиска. Однако нас ни столько интересует прогресс в этой области, сколько огорчает отсутствие реальных результатов проводимых исследований, ведь итоги поиска не так уж и сильно отличаются от итогов поиска Google. В чем же дело?

Например, при вводе в строку поиска «Столица Франции», оба метода дают один и то же правильный ответ: «Париж». Кроме того, большинство запросов, которые мы вбиваем в строку поиска в виде аббревиатур, дают те же результаты, если вводить термин полностью. Очевидно, что тут что-то не так. Всем известно, что семантические технологии способны на многое, но почему? И как они работают? Ознакомившись с этой статьей, вы узнаете, что на самом деле, мы просто-напросто задаем не те вопросы.
Читать дальше →
Всего голосов 41: ↑41 и ↓0 +41
Просмотры20K
Комментарии 31