На этот вопрос (см. сабж) мне иногда приходится отвечать, поскольку я работаю над альтернативным сервисом локального поиска. Google очень туманно описывает откуда берутся данные. Основными источниками для статьи стали собственные наблюдения, и эта заявка на патент.
Главное заблуждение — в том, что «Google Maps находит информацию о компаниях в интернете». Это не совсем так. Информация о вашей компании может быть на сотне проиндексированных веб-страниц, но так и не попасть в выдачу на Google Картах .
В отличии от веб-поиска, который ищет по индексу закешированных веб-страниц, Google Maps содержит структурированный каталог предприятий. Каждая запись о предприятии содержит ключ-значение поля с данными понятными для машины. Это должно позволять найти «ресторан с вегетарианским меню и предзаказом в радиусе 10км от Киевского вокзала», но чаще каталог содержит точные значения лишь о адресе и номере телефона.
Поэтому важно не как Google ищет по собственному каталогу, а откуда черпается информация.
Как сообщает Google, каталог «совмещает информацию из разных источников, чтобы выдать лучший результат». Источники делятся на две группы:
Структурированные и полу-структурированные — это источники данных, которые легко привести в понятные для программы ключ-значение. Обычно это:
Неструктурированные — это проиндексированные веб-сайты, которые могут содержать информацию о предприятии, но данные из них не поддаются структуризации.
Этот процесс можно описать в три основных шага:
Можно привести ряд примеров когда алгоритм приводит к ошибочным результатам.
Причина: сайты хостел-ассоциаций постоянно размещают у себя перечни посольств и консульств. Консульское отделение попало в каталог из одного из структурированных источников но было ассоциировано с сайтом hihostels.com.ua
Причина: сайты о аренде недвижимости размещают у себя перечни коммунальных предприятий. ЖЕК попал в каталог Google с одной из баз предприятий, но был ассоциирован с сайтом toprealty.org.ua
Очевидно, что сколько б не содержалось в вебе информации о компании, самое важное, чтобы эта информация попала в один (а лучше в несколько) структурированных источников. Проблема в том что Google не приводит перечень баз и каталогов с которых берется информация. Единственное известное место, это Google LBC.
Google Maps работает не так прозрачно как Google Web Search:
Думаю Google мог лучше.
Буду благодарен за исправления, дополнения и комментарии.
Generating structured information (patent application US 2006/0200478 A1)
Google's Local Search Patent Application (at SEO by the Sea)
Local listings: Where do they come from?
Главное заблуждение — в том, что «Google Maps находит информацию о компаниях в интернете». Это не совсем так. Информация о вашей компании может быть на сотне проиндексированных веб-страниц, но так и не попасть в выдачу на Google Картах .
В отличии от веб-поиска, который ищет по индексу закешированных веб-страниц, Google Maps содержит структурированный каталог предприятий. Каждая запись о предприятии содержит ключ-значение поля с данными понятными для машины. Это должно позволять найти «ресторан с вегетарианским меню и предзаказом в радиусе 10км от Киевского вокзала», но чаще каталог содержит точные значения лишь о адресе и номере телефона.
Поэтому важно не как Google ищет по собственному каталогу, а откуда черпается информация.
Откуда данные в каталоге Google Maps
Как сообщает Google, каталог «совмещает информацию из разных источников, чтобы выдать лучший результат». Источники делятся на две группы:
Структурированные и полу-структурированные — это источники данных, которые легко привести в понятные для программы ключ-значение. Обычно это:
- коммерческий базы предприятий, которые покупаются
- веб-сайты содержащие крупные каталоги компаний; данные с этих сайтов забираются индивидуальным краулером, который регулярными выражениями выпарсивает информацию со страниц каталога
- Google Local Business Center где владельцы предприятий сами заполняют информацию
- KML (и аналогичные) файлы, которые используются для отображения точек с помощью Google Maps API
- пользовательские карты
Неструктурированные — это проиндексированные веб-сайты, которые могут содержать информацию о предприятии, но данные из них не поддаются структуризации.
Как структурируется информация
Этот процесс можно описать в три основных шага:
- Данные, приведенные к виду ключ-значение, приходят с нескольких структурированных источников
- Данные о предприятии кластеризируются: сравниваются значения с разных источников и для каждого определяется точность и вес.
- Структурированные данные дополняются неструктурированными *
*
Структурированные данные обычно содержат точную но скудную информацию о предприятии. А это затрудняет:
Поэтому, когда для предприятия определены основные поля (название, адрес, номер телефона), осуществляется веб-поиск по запросу:
- поиск; как найти «частный детский сад» если каталог предприятий не содержит поле о форме собственности?
- ранжирование; как определить какая «аптека» должна быть в выдаче первой, если все данные с одного каталога?
название_предприятия+адрес_предприятия
и найденные страницы (а главное ключевые слова из найденных страниц) ассоциируются с данными о компании.
Как это не работает
Можно привести ряд примеров когда алгоритм приводит к ошибочным результатам.
Ищем «хостел» а находим консульский отдел США
Причина: сайты хостел-ассоциаций постоянно размещают у себя перечни посольств и консульств. Консульское отделение попало в каталог из одного из структурированных источников но было ассоциировано с сайтом hihostels.com.ua
Ищем «аренду квартиры» а находим ЖЕК
Причина: сайты о аренде недвижимости размещают у себя перечни коммунальных предприятий. ЖЕК попал в каталог Google с одной из баз предприятий, но был ассоциирован с сайтом toprealty.org.ua
Что делать чтобы компания попала в выдачу Google Maps
Очевидно, что сколько б не содержалось в вебе информации о компании, самое важное, чтобы эта информация попала в один (а лучше в несколько) структурированных источников. Проблема в том что Google не приводит перечень баз и каталогов с которых берется информация. Единственное известное место, это Google LBC.
Итого
Google Maps работает не так прозрачно как Google Web Search:
- Большинство пользователей не осознает как ищет Google Maps
- Часто нельзя определить источник информации
- Иногда результат не соответствует принципу «наименьшего удивления»
Думаю Google мог лучше.
Буду благодарен за исправления, дополнения и комментарии.
Источники
Generating structured information (patent application US 2006/0200478 A1)
Google's Local Search Patent Application (at SEO by the Sea)
Local listings: Where do they come from?