Pull to refresh

Comments 113

Ну это совсем печально если честно(
А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают? Пользуюсь ими и проблем подобных не знаю, в ином случае ССЗБ.
я сам не пользуюсь сборками и очень часто из сорсов собираю (конечно не браузер, чтоб хром собрать нужна билд-ферма, но тем не менее), но тот факт что бот ходит по таким ссылкам не радует. сам думал в транзакционных емейлах сделать ссылки с автологином, а теперь в больших раздумиях. еще интересно что будет если прийдет ссылка на восстановление пароля например, которая протухает при первом переходе и бот зайдет по ней раньше чем юзер.
Возможно на страницах восстановления пароля ботов вообще по юзерагенту вырубать стоит.
Chromium собирается менее, чем за час, как и Firefox на Intel i3.

В большинстве случаев ссылки на восстановление протухают через некоторое время, а не при первом переходе. Или по крайней мере я такое поведение замечал и сам аналогичное реализую, когда нужно.
У вас немножко неверные данные. Хромиум с нуля собирается за полтора часа на i7 16GB RAM, чуть больше чем за час на 2x Xeon (по 16 ядер) 32GB RAM или чуть меньше двух часов на i5 16GB RAM (все с SSD). За час можно собрать только с distcc или dist-clang с билд-фермой. А релизный некомпонентный билд с LTO может линковаться только минут сорок в некоторых случаях. На i3 с HDD я как-то ждал сборки >8 часов и не дождался, прервал.
>Хромиум с нуля собирается за полтора часа на i7 16GB RAM

Ого, как разжирел. Три года назад у меня на стареньком Q6600 с 4Гб под Gentoo он за час собирался:


Firefox (версии 14-17) тогда же собирался за 25-30 минут.
Ну на линуксе он побыстрее собирается, на маке будет медленнее, на винде вообще медленно.
Кстати, а чем он на винде собирается? А то стал замечать, что, к примеру, make от mingw очень упорно пытается игнорировать -j8
хром сейчас на всех платформах по дефолту собирается с помощью ninja. Разве что на ios, кажется, используется xcodebuild, но не уверен. От всего остального сейчас отказываются. А с переходом от gyp к gn других вариантов кроме ninja не останется вовсе.
хром на ios — не настоящий, это обертка вокруг веб кита.
Как-то у вас долго сборка происходит. Может быть зависит от ОС? Мы используем Хромиум в качестве встроенного браузера. На моей рабочей машине — Core i7 3770K, 16GB, SSD, Win7x64 — собирается примерно минут за 40.
Ну так можно же частично фичу реализоваться — автовход только с тех устройств (браузеров), с которых уже входили (можно использовать для идентификации долговременные куки/Local storage браузера), а для новых устройств вполне логично требовать вход по полной/частичной(со введённым логином) форме.
Фиг знает чем они не устраивают, но вот сейчас посмотрел статистику по одному своему сайту — с Яндекс Браузера сидят 10.5% посетителей! Это третье место после Хрома и ФФ.
Если сайт ориентирован не на продвинутую в компьютерном плане аудиторию, то всё просто: пользователь скачал Я.Браузер в составе установщика какого-то другого софта, он прописался дефолтным, а пользователь не знает, как его изменить/не заметил/не стал заморачиваться, так как понравился.
При гораздо более агрессивной установке — Амиго после пика в 3 процента — продолжает падать, ЯБ же уверенно остановился на отметке порядка 6 процентов, я думаю если бы он не устраивал пользователей — то его бы доля была бы аналогичной Амиго. А так — он на данный момент уверено опережает, например, Оперу(4,8%). Вообще у li.ru достаточно интересный инструмент для сравнения: www.liveinternet.ru/stat/ru/browsers.html
Только лучше смотреть со срезом «ru», это посетители из РФ.
Потому что Яндекс.Браузер тупо удобнее. Как пример: habrahabr.ru/company/yandex/blog/253775/#comment_8343873
Плюс, он умеет нормально копировать кириллические url (вместо всяких длиннейших %AB%CD нормальные русские буквы).
chrome (ium) кириллицу показывает нормально, проверил прямо сейчас.
в firefox'e в about:config есть свитч, который это дело меняет. В оф сборке даже по-моему включён.
В адресной строке они в нормальное состояние всёравно превращаються. А из минусов подобного преобразования — далеко не все парсеры расчитаны на это, да и в случае кириллицы (или любого другого языка), могут возникнуть проблемы с подсвечиванием ссылки из-за этого в другой программе, куда была вставленна ссылка.

А все желаемые плюшки (перечисленные по ссылке) легко решаются расширениями (в Firefox точно, на счёт Chromium не уверен), в т.ч. и копирование ссылки. Некоторые в firefox обычном (не от яндекса) из коробки, а большинство не нужны.
для FF не требуется расширение чтобы настроить копирование. достаточно для network.standard-url.escape-utf8 выставить false в about:config
>А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают?

Ссылки… На меня однажды AdSense наехал за материал, нарушающий их правила в закрытом от гостей(!) форуме. Маловероятно, что «нестандартная сборка» Гуглу стучала :) Скорее всего это была работа обычного Хрома…
А зачем, по-вашему, яндекс делал свои браузеры, если не для этого? :)
А вы закрыли для автологинящих ссылок доступ роботам через robots.txt?

Никого не оправдываю, но мне кажется, что такие ссылки опасны сами по себе, так же может пролезть уйма чего. Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.

Когда шаришь где-то ссылку — то же самое происходит — софт проходит по ссылке чтобы подобрать миниатюру, описание или выбрать картинку. Даже в Skype уже когда кидаешь ссылку он сам по ссылке лезет чтобы красиво её в чате оформить.
>Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.
Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть.
Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть


Согласен про предзагрузку, но это должен делать браузер, а не нечто с юзер-агентом яндексБот
Мы сделали защиту от влогинивания ЯндексБотом (для ГуглБота это было сделано уже много лет назад).
И по моему опыту, robots.txt часто воспринимается как рекомендация, а не как жесткое обязательство для ботов. Точнее я не скажу (давно было), но полагаться на закрытие аутенфикации по ссылке внесением записи в robots.txt я бы точно не стал
И кто после этого умышленно установит себе, например, Яндекс.Браузер? Чего ожидают работники Яндекса? О каком доверии потребителя может быть идти речь?
Хочется услышать ответ от представителей компании.
Нам тоже интересно разобраться в ситуации. Такого быть не должно.

CatHap, можно Вас попросить настоящий лог, без цензуры, в личку прислать?


Роман Иванов,
Яндекс.Браузер
Все было спланировано bobuk еще неделю назад! (на самом деле нет)
Скажите, если бы я у вас попросил логи ваших мессенджеров, очищенные от личной информации, на благое дело, вы бы дали?— bobuk ( bobuk ) 9 июля 2015

Пока ничего в личку не получил :(

Ещё раз хочу повторить, что такого быть не должно.

Если у кого-то из читающих этот пост есть аналогичные примеры — присылайте тоже.

В личку либо на емейл kukutz на yandex-team.ru.
Прислал в личку лог. Очень рад что вопросом будут заниматься и что так не должно быть.
В общем, это очень неприятная ошибка.

Вот комментарий пресс-службы:
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку
Очень быстрое решение проблемы, здорово. Внес дополнение в пост.

У меня возникает небольшой «шкурный» вопрос. Могу ли я претендовать на вознаграждение в рамках Вашей программы «Охота за ошибками»?
занудства ради, а при установке браузера галочка автоматом стоит или должно быть именно «проставил галочку»?
Прошло 2 недели — ничего не поменялось. На указанный сайт ЯндексБот действительно не заходит. Но на остальные заходит без проблем.
Походу это не совсем ошибка :) Иначе, зачем им надо было разрабатывать и так форсить свой браузер…
Я другого и не ожидал от яндекс браузера.
Случайно яндекс метрикой не пользуетесь?
Меня смущает эта часть
Яндекс.Метрика может передавать URL страниц, на которых установлен счетчик Метрики, на индексацию Яндекс.Поиску.


Судя по логике следом должен прийти робот поиска
Да, но вроде как не сразу.
Это отключается при получении кода счетчика
UFO just landed and posted this here
Насколько я понял из статьи, ссылки эти только на мыло приходят, по этому yahoo должен пользоваться ей.
Ну гуголбот ходит по приватным ссылкам, которые были «засвечены» в омнибоксе Хрома. Какая разница?
Браузер — это инструмент компании, его сделавшего, а не ваш.
Автор сайты делать не умеет, а виноваты все кроме него
w3c, например, разрабатывает по этому поводу специальный документ www.w3.org/TR/capability-urls, в котором упоминает, среди прочего, необходимость закрытия урлов через robots.txt
robots.txt скорее говорит о том, что следует, а что не следует показывать в выдаче.
Парсить ли эти данные для своих целей — на совести поисковиков.
Вообще-то robots.txt придумали не только для поисковиков, а для любых роботов, в т.ч. и тех, которые никому ничего не показывают, и не для приватности, а, в первую очередь, для борьбы с чрезмерной нагрузкой на сервера. Соблюдение его, конечно, дело полностью добровольное, но исходный документ гласит «Disallow: The value of this field specifies a partial URL that is not to be visited.»
боты ходят и по приватным ссылкам, дизалоу используется только чтобы подсказать какие страницы не учитывать, но это не значит, что бот по ним не пройдется
Боты — ходят, нормальные боты поисковых систем от гугла и яндекса — нет.
Я так понимаю, анализ был направлен конкретно на Я.Бота. Интересно было б проанализировать то же самое в отношении Гугла
UFO just landed and posted this here
Отписал выше, там должен ходить бот YandexMetrika/3.0.
Угу, пользователь случайно закроет страницу и потом не зайдет, кликнув по письму еще раз. ИМХО дейтинг не та тема, где стоит применять параноидальные правила безопасности.
если пользователь закроет страницу то он еще какое то время будет залогиненным, тут проблема в том что пришло уведомление на почтовик в телефоне, он глянул с телефона, решил получше рассмотреть даму с пк, а ссылка уже протухла
Ну и это тоже. Вообще, одноразовые ссылки в письме допустимы только для смены пароля или других ситуаций, когда пользователь сидит и ждет письмо.
Вам виднее. Даже ребята из badoo на это натыкались. Мне кажется, что безопасность все-таки немного важнее.
habrahabr.ru/post/189040
В дейтингах важна конверсия. И их пользователи такие нежные существа, что поставь лишнюю кнопочку и они куда-то разбегаются.

Безопасность конечно круто, но она бесполезна на сайте, которым мало кто пользуется. Потому решать проблему безопасности надо так, чтобы это не мешало пользователям.

Букинг например использует многоразовые токены, но при попытке сделать некоторые вещи, попросит пароль. Однако, это не сработает для дейтинга, там многие пароль просто не помнят.

Пример Баду показывает, что простого решения тут нет.
Полностью согласен. В дейтинге важнее удобство. У нас есть пользователи, которые влогиниваются на сайт по письму, которое высылалось на почту много лет назад.
в этом есть логика, но иногда пользователи будут не понимать почему первый раз залогинилось, а через время, или с другого пк/телефона уже нет.
Версия: по ссылке могло сходить расширение к браузеру. У меня был схожий случай, когда какое-то SEO-расширение отправляло свои запросы к открытой странице и вызывало мое недоумение во время разработки. В логах отображалось, что мой браузер дважды запросил страницу.
Маловероятно, что SEO-расширение (и вообще какое-либо другое) установлено у барышни, но версию проверить стоит.
Ранее подобная история была с Метрикой, тогда сослались на якобы баг и добавили параметр.
Автологин по ссылке без ограничения по времени — это конечно сомнительное решение, так как любой, кто будет иметь доступ к вашей Яндекс Метрике (например удалённый SEO фрилансер) будет иметь доступ к аккаунтам пользователей по той причине, что эти урлы отобразятся в статистике метрики после того, как по ним перейдёт юзер
По уму эти URL не должны отобразиться, т.к. это не страницы со счетчиком, по этому адресу должен сработать редирект, а чтобы реферер не пролез дальше редиректим на пользователя не сразу, а через внутреннюю редиректилку. Если очень надо, то в этом редиректе можно указать какие-то доп. параметры.
Интересно, а не смотрели, ходят ли другие браузеры (например, Google Chrome и GoogleBot) таким же образом по ссылкам?
У нас уже много лет заблокировано влогинивание от ГуглБота. И это было сделано не просто так.
Другое дело что сейчас он делает — этого уже я не знаю.
Это старая тема )
Известно что боты яндекса ходят по ссылкам Яндекс-почты.
Даже был такой кейс быстрой индексации новых страниц сайта: отправить товарищу на яндекс-почту письмо со ссылками на новые страницы своего сайта — робот яндекса обработает письмо, перейдет по гиперссылкам и быстрее проиндексирует новые страницы, нежели как он это делает обычным образом.
Не факт что это работает, но в данном топике мы услышами еще одно подтверждение этому.
Здесь надо отличать «бот проиндексировал» от «попало в выдачу». Ссылки у нас в выдачу не попадали.
Я и не писал что это доказанно работает, но что ходит по сылкам это известный факт
Действительно старая, битая тема. Кто вариться в SEO котле давно знают о мифах и легендах вокруг «яндекс.браузера», «элементов яндекса» и успешно этим пользуются в кейсах «поведенческого продвижения».
Те кто вариться в SEO котле


Вы выбили страйк по количеству ненависти к комментарию.
А не проще добавлять ссылки напрямую в аддурилку, чем колдовать с письмами?
Если бы яндекс индексировал со скоростью гугла…
Поэтому приходится как-то выкручиваться / извращаться.
Ни в коем случае! Нет, нет и нет!
По ссылкам мы идем только перед тем как человек на них нажимает (прямо в момент клика) и то, не идем, а сравниваем с нашей базой зараженных сайтов, чтобы успеть предупредить, если на сайте вирус и другой небезопасный контент.

То о чем говорите вы может повлечь за собой очень серьезные репутационные риски. Мы этим не занимаемся.

— Егор Ганин
Я.Почта
Цитата из письма:

Можно видеть, что пользователь зашел из письма по 7 ссылкам и по 4-м из них практически сразу прошелся ЯндексБот.

Мой личный вывод: Яндекс.Браузер и Опера от Яндекса собирают ссылки, по которым кликает пользователь. Они анализируются и по части ссылок проходится ЯндексБот. Началось это 03.04.2015.


Да и эта стья не первая про переходы на сайт из почты яндекса.
У меня ничего не было написано про Яндекс.Почту.

Там были свои странности, но теперь они понятны — они заходят по ссылкам чтобы «проверить на вирусы». Ну, точнее, «не заходят» — Егор, извините за некоторую иронию.

Мне кажется что такое сканирование тоже не совсем корректное. Даже если для заботы о пользователях.

Ведь есть только Ваши слова «Мы этим не занимаемся». Но нет никакой гарантии, что Вы обладаете полной информацией.
Так или иначе в вашей статье эта была Опера сборки тогоже Яндекса.
Мне например неприятно, что ссылки из моих писем заносятся в какую-то БД, плюс боты в свою очередь переходят по ссылкам и т.п.
Ведь это конфиденциальная информация все-таки.

Одно дело проверяь письмо на вирус и другое логировать все ссылки и переходить по ним, когда они адресованы не вам.
Ссылки из ваших писем, если вы по ним не переходили, ни в какую базу не заносятся.
Вопрос тогда — а robots.txt сайта учитываются?
Переход по ссылке (GET-запрос) не делается. Только текстовое представление ссылки анализируется на предмет вредоносности. А раз переходы не делаются, то и robots.txt сайта тут не при чем.
Большое спасибо за ответ. Я провел анализ логов и полностью подтверждаю. Дописал в пост снизу
UFO just landed and posted this here
Вы бы поосторожнее с яндексом то, а то друг придет НЛО habrahabr и всех разгонит…
Картинка

С аккаунта habrahabr был опубликован анонс о перезапуске сервиса Мой круг. Чтобы он был доступен и в блоге Яндекса, этот аккаунт был наделен правами «редактор», что подразумевает автоматический перевод в сотрудники Яндекса на Хабре.
Что, конечно же, не верно, поскольку мало ли где я работаю и мало ли куда я пишу статьи.
Извините за оффтоп, но
если получили «отлуп (bounce)», то автоматически блокируем ящик
можете рассказать в двух словах, тут, в личку или отдельным постом, о том, какую технологию вы здесь используете? Есть какая то библиотека?
Тут в двух словах —
В письмо в заголовки должно вставляться
Return-Path: <bounce-200000912656-0162d5b5ab07271dd4a97617e4b788a2@bounces.site.com>
И настроен соответствующим образом почтовый демон (есть это всех распространенных).

При неудачной попытке посылке письма, почтовик пересылает письмо на данный адрес, с указанием причины что пошло не так, включая текст «отлупа» от сервера-получателя.

Почта на bounces.site.com заворачивается на скрипт, который парсит адрес — у нас это «bounce-CONTACTID-ПРОВЕРОЧНЫЙХЕШ», и помечает данный contactid как неработающий. И, конечно, занесение причин почему это случилось.
Тоже у себя пытаемся анализировать возвращенные письма, но у нас один noreply-адрес в заголовках Reply-To и Return-Path, и кроме сообщений о недоставке также приходят всякие автоответы. Из-за этого приходится разбирать каждый bounce скриптом — на предмет того это ошибка или автоответчик. А если делать разные, то как я понимаю, автоответы будут идти на адрес из Reply, а недоставка — на Return?

Да и вытягивание из текста сообщения о недоставке самого адреса получателя — задача нетривиальная, т.к. у всех почтовиков свой формат и они иногда меняются. А ваш способ зашить айдишку получателя прямо в адрес, на который приходит письмо, решает эту проблему.

Большое спасибо за то, что поделились опытом!
Ещё — если на странице стоят блоки контекстной рекламы, то их бот также зайдет на эту страницу после посещения её пользователем.
Правда, в этом случае на хорошо спроектированном сайте уже не будет автологина в get-параметрах, но всё равно может быть неприятно.
Собственно, это уже давно выяснили, когда приватные документы с fl.ru появились в выдаче: habrahabr.ru/post/253943
Потому что робот тоже человек, поэтому и ходит куда попало. Единственное отличие от человеков — у него есть совесть, ему можно сказать «нельзя!» файлом robots.txt и он послушается беспрекословно.
Похожее было и с чтением SMS от нескольких мобильных операторов. Если память не измениет, в браузере стояла какая-то панель от Яндекса и посылала посещённые ссылки.
Метрика там была на странице.
Просто Яндекс работает над более релевантной выдачей по запросу «username1 посмотрела username2». :)

А может, в недрах Яндекса зреет мегапроект: спарсить граф отношений всего Рунета со всех сайтов знакомств и соцсетей.
Ну, вот вам и очередное подтверждение, что бесплатный сыр бывает только в мышеловке. Не зря ж они тратят время на создание браузера и платят деньги разработчикам.
Яндекс боты честно передают в UAG Mozilla/5.0 (compatible; ...; +http://yandex.com/bots ...). Проверяйте на странице автологина UAG пользователя и отдавайте 403 или страницу честного логина, если определили бота. Нормальные люди никак не передадут вам неправильный заголовок. Посмотрите в сторону browscap.org, это поможет лучше понимать, кто к вам пришел (хотя у них в базе не все яндекс боты, к сожалению).
Также можете поставить куку с хешем ip+useragent и проверять ее через редирект. Куки включены у 99% обычных пользователей, а боты их передают крайне редко, яндекс точно не поддерживает.

Кроме яндекса приватные ссылки могут случайно попасть еще к невесть каким ботам (в том числе через панельки браузера, которые ставятся по-умолчанию с кучей софта). Будет неприятно, если однажды кто-то найдет свою переписку в публичном доступе.
Я сомневаюсь что яндекс боты всегда передают, что они боты в юзерагенте. Гугл на моем сайте прикидывался какими-то мобильными барузерами, и ходил по ссылкам, попасть на которые не возможно с мобильной версии. Там вываливалась 500 и гугл писал это в своем вебмастере, так я понял, что это был гугл.
Придумывая такие замысловатые способы с переадресациями нужно быть готовым к сюрпризам со стороны антивирусов и прочих полезных фис типа safewrowsing.
А если в user-agent будет написано ObamaPrivateDataLurcher, вы обвините госдеп в слежке? Как-то непрофессионально это что-ли
Если вы выборочно читали текст, то это ваши проблемы.
11 заходов на сайт с ip 178.154.243.78… По whois ip-адрес действительно принадлежит Yandex LLC.
ip адресата пакета еще ничего не говорит об отправителе, если речь идет о некоторой атаке
Тоже мне америку открыли. У меня на сайте есть страницы закрытые в robots.txt и во всех ссылках на них указано rel=nofollow. Яндексу никто не мешает ходить по этим ссылкам, даже в вебмастере указано, что он их загрузил.
Про подобную проблему я читал в книге иностранного атора году в 2009м, на сайте сделали удаление чего-то там методом GET. И внезапно у пользователей начало все удаляться. Уже не помню кто там ходил по этим ссылкам, толи поисковик, толи какой-то тулбар, но проблема определенно далеко не нова.
А в чем новость-то?
Достаточно помнить что все что вы отправили или выложили в интернет незапароленным могут прочитать админы интернет-кафе и на вашей работе, провайдеры интернета, и ваши браузеры. У всех этих сторон есть свои интересы. Если ваша информация очень ценная и соответствует их интересам, то она гарантированно рано или поздно утечет и будет использована без вашего ведома.
Просто соблюдайте интернет-гигиену:
1. Ничего очень ценного в интернет попадать не должно.
2. Если все-таки нужно что-то ценное передать, то оно должно быть зашифровано и пароль передан, желательно частями, по другим каналам.
3. Без шифрования не пишите и не отправляйте ничего такого от огласки чего вам потом станет очень нехорошо — даже в анонимном режиме, через VPN и под псевдонимом.
Если интересно — то microsoft ходит по ссылкам что вы в скайпе друг-другу отправляете.
Т.е. если я отправил ссылку Васе через скайп, то по ней следом заходит skype с ip адреса майкрософта.
Для «превью», я так понимаю, но с этим бывают очень неприятные казусы — как-то передал я товарищу ссылку на тестирование отправки заказов, без форм, внутреннюю, чтобы проверить SOAP обмен данными.
Так вот — обмен запустился, сам собой, с ip адреса microsoft в ирландии была «ткнута» отправленная ссылка сразу после отправки.
Так что у всех такие «косяки» есть, просто мы о них не задумываемся.
зызы: заказ сформировался, ушел клиенту, реально ушел, мы уже задним счетом «разматывали» цепочку, как так ушел заказ который клиент не делал. Оказалось превьюха скайпа оформила заказ )
Даже и не знаю теперь, что думать о письмах, приходящих на яндекс-почту…
Sign up to leave a comment.

Articles