Комментарии 56
Интересно.
Насколько я понял, движок 2009 года, соответственно на текущий момент мало актуален с точки зрения практического SEO 2013 года. Но очень интересно его использование с точки зрения парсинга сайтов и последующей обработки контента.
Присоединюсь, «А продолжение будет?»
И еще, не подскажите, где образ нашли?

мало актуален с точки зрения практического SEO 2013 года


С точки зрения черно-серого seo — да, малоактуально. Я даже больше скажу — движок лишен доступа к тем данным, которыми оперирует большой брат. Например история кликов на рекламу. Но даже поверхностный осмотр показывает участки кода, которые совершенно не нужны GSA. Они достались по наследству от девелоперов Самого и не работают при индексации. Но могут много о чем рассказать.
интересно, что таке paid_link_count? купленные ссылки? как гугл их определяет? или это имеется ввиду адсенс?
после прочтения статьи пока одни вопросы…
Вопросы — это хорошо. Статья писалась именно для совместного поиска ответов )
Нет, это не адсенс. Купленные ссылки всегда видны невооруженным взглядом — вы думаете у современных SE нет надежного алгоритма их определения? Да с первых дней появления такой проблемы. Я уверен, что это сделанo на системе treshold-ов, учитывающих время появления линка в контенте и других признаков. Периодическое подкручивание ручек этих treshold-ов и приводин к всяким пингвинам на пороге )
окей…
что содержат has_*? чем они отличаются от счетчиков?
можно ли сделать вывод из найденой Вами информации, что для гугла важнейшим параметром при ранжировании является имеено перелинковка контента и внешние ссылки? (ни одного упоминания кейвордов, тайтлов и прочих seo-бубнов)
При чем тут wiki? имеются ввиду ссылки с Википедии, или с внутренней вики индексируемого ресурса?

PS: за отсутствием кармы (я новичок), плюсую буквами Вашему ответу и всему посту! Очень интересный материал! Спасибо!
Быстро скачиваем и изучаем, возможно завтра и этого не останется.
Скорее всего просто забыли удалить.
Спасибо, давно мечтал поковырять нечто подобное.
А не пробовали уже перебирать в имени файла 20090210 далее? Может что-то посвежее завалялось?
Да, можно попробовать простым скриптом… Но я думаю, что свежее нет. Проект закрыт в 2009.
НЛО прилетело и опубликовало эту надпись здесь
Только 7z, внутри образ для VMware, так что нет смысла img и iso проверять.
НЛО прилетело и опубликовало эту надпись здесь
Выложите-ка итоговый образ куда-то на торренты. Дайте и другим немного поковыряться :)
magnet:?xt=urn:btih:89388ACE8C3B91FDD3A2F86D8CBB78C58A70D992&dn=vgsa_20090210.7z&tr=udp%3a%2f%2ftracker.publicbt.com%3a80
Это исходный образ диска, а после вышеуказанных в статье модификаций?
Хочу странного: описание алгоритмов в упомянутых краулере и ответчике. Как краулер составляет индекс? Как поисковая машина формирует ответ на запрос? Ну и так далее. Вот если бы кто-то сделал такой обзор — было бы круто!
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Это в Readme написано — дефолтный пароль на админ интерфейс http_://address:8000. Он меняется прямо в админе.

Welcome to the Google Search Appliance virtual edition!

Unzip the file to get the virtual machine disk image. We recommend
using 7zip (http://www.7-zip.org/) to extract the archive.

Once running, you can access the Administration Console of the virtual search
appliance at http://:8000, where is the IP address of the virtual
appliance.

You can log into the Administration Console with:

Username: admin
Password: j0njlRXpU5CQ

For question and feedback, please contact:

enterprise-gsa-virtual@google.com
НЛО прилетело и опубликовало эту надпись здесь
Начал читать купившись на фразу
и увидел много чего интересного с точки зрения СЕО

Оказалось это хитрый SEOшный трюк :)
Не совсем ) Одной из целей этого квеста был именно поход за «настоящими» базами английских слов от доверенного источника — с перекрестными связями по синонимам и признаком релевантности одного слова другому. Я их, судя по всему, нашел — и они вкусные, но к моменту дописывания статьи, пока не смог разобрать из скомпилированного вида во чтото удобоваримое.
Я совершенно не преуменьшаю ваше достижение, наоборот — снимаю шляпу, со всем уважением.
Кроме того, я ни чего не имею против SEO и тех кто им занимается.

Просто у вас перед катом SEO написано по-русски как CEO, что в свою очередь является общеупотребительным сокращением от Chief executive officer .
Вот мне и стало любопытно, что же такого может быть интересного внутри гугловской виртуалки для руководителя компании?
Ну а в конце, смайлик как бы говорит, — «да без проблем, я понял что это обычная описка».
Кто поможет, застрял на этапе: «Загрузившись в /bin/bash и перемонтировав корень в rw»?
Все время получаю монтирование read-only.
Для проверки проиндексировал первые 100 страниц хабра, со стандартной гугловской тактикой — 4 процесса на один домен/сайт.

когда я краулил хабр пол года назад — третий параллельный коннекшен ломал весь процесс загрузки. Как только хабр видит что с одного ip адреса кто-то делает больше 2-ух запросов — дропает все.

Вместо эпилога

я думаю мало кто в коммерческих фирмах согласится на внедрение подобной системы с разными переделками, даже средняя девелоперская для внутреннего использования. Нарушение закона об авторских правах как ни как, «перепилить гугл» это вам не фотошоп крякнутый поставить. Секретов в этой коробке хватает.
Ну, хак есть хак, согласен. Мелкий прикладной интерес — возможно. Насчет секретов — секреты не вылкадывают в откытый доступ. Это все-таки не Гугл. И даже не кастрированная ее версия. Так, обвязанный скриптами спайдер, созданный теми, кому доступно тайное знание…
VMWare Workstation 8.0 радостно подхватила образ кстати, без всякой конверсии. Насчет 9.0 — нет чтобы проверить.
Скорее всего тоже подхватит, а вот в ESXi надо делать экспорт из WS.
Хм. Попытался сменить пароль рута — сменился без проблем.
В конфиге iptables прекрасное —
## ppp0
-A OUTPUT -o ppp0 -p tcp -j ACCEPT

# Enable SSH from the modem
-A INPUT -i ppp0 -p tcp -m tcp --dport 22 -j ACCEPT

Удаленный саппорт по модему?
В железках они вроде как и по модему могут саппорт делать. Чтото такое читал в мануалах на сайте. Меня в iptables почему-то умилил комментарий про высокие порты и мы, дескать, nobody )
Там много забавного
[root@ent1 ~]# cat /export/hda3/5.2.0/local/conf/AdminConsole_ipwhitelist
127.0.0.1/32
216.239.43.0/24

216.239.43.0/24 — Google AS15169
Да, сейчас еще раз попробовал на свежем образе — меняется. Дело было ночью, может привиделось )
Подробно не ковырял, но кажется мне что редактирования ENT_LICENSE_MAX_PAGES_OVERALL для поднятия лимита недочтаточно, как то не-энтерпрайзово это… обычно лицензия запрятана куда как глубже и хитрее, учитывая что основные мозги системы написаны как раз не на Питоне.
Оно конечно баловство, никто всерьез эту штуку в 2013 юзать не будет имхо, но интересно.
Были такие сомнения. Там есть два питоновских файла, которые пропускают через себя все связанное с лицензией. Завязано на API. Но с другой стороны — судя по тому, как все сделано… Такое ощущение что это были игрушки для кого-то, сделали, заработало и забыли. А чтобы чтото серьезно прятать — дел и так хватает умным людям.
Оно конечно баловство, никто всерьез эту штуку в 2013 юзать не будет имхо, но интересно.

А как же горячие головы, готовящиеся к всеобщему катаклизму?
На деле — применение можно найти. Мне там нравится в админе фича, где можно задать авторизацию через обычную форму логина. Тоесть можно проиндексировать закрытые сайты, от которых есть логин и которые обычные SE посмотреть не могут. Да и для документов очень полезная штука.
Мммм… Ну для «напоиграться» для 1 человека или маленькой фирмы — можно, но скорее всего им хватит и 50К документов. Поиск масштаба предприятия на неподдерживаемом решении никто делать не будет.
А что касается горячих голов… Ну так не Гуглом единым. Есть Apache Solr, к нему куча краулеров — и родной Nutch и сторонние. Все опенсорс, развивается уже почти 10 лет. На основе Lucene можно легко какую нить децентрализованную систему замутить, хотя их и так хватает
Кто мешает Вам осмотреть, куда лезет данная виртуалка?
Ну или вообще запретить ей выходить в интернет?
Спросонья мозг не совсем корректно работает. Пришла мысль, почему образ VGSA лежит на серверах Гугла.
А может это изощренный способ хантинга умных программистов?
Типо, залез во внутренности песочницы Гугла 2009 года… сделал чего нибудь эдакое, а потом где нибудь в коде находишь, ну или через web морду выдается: «Ваша кандидатура крайне заинтересовала нас. Напишите нам на job@google.com с пометкой Hack VGSA».
все гораздо проще: в больших системах, таких как Гугль, Фейсбук или Контакт — сам контент не уничтожается, только внешние ссылки на него, убирается все из поискового индекса.
Я не силен в питоне, честно говоря, — меня хватило только на то, чтобы вставить logging в подозрительные места одного из .py скриптов, которые обрабатывали лицензию и генерировали файл конфигурации. Часто там лежат рядом .py и .pyc версии. Может это вам о чем-то скажет.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.