Как стать автором
Обновить

Комментарии 14

Про „#####“ понравилось. Проверил.
Но как? Ни один же поисковик не ищет, даже встроенный в википедию.
Если начать набирать ##### в поисковой строке, то в подсказках появляются запросы про эту группу, и некоторые из них таки работают (за счет дополнительных слов). Например, такой.
Думаю, такой запрос и без решёток будет работать
Конечно. Я имел в виду, что таким способом проще всего найти в интернете доказательство существования группы ##### :)
Всё, понял, что вы имели ввиду.
Last.fm находит.
Так написал же в разные поисковики; увидел, что ничего не найдено; так и проверил.
Поэтому они всегда и везде дублируют searchable название "##### (5diez)".

Странно что поисковики до сих пор не обработали как-то особенно этот случай (точно не единственный). Хотя бы автозамену на «5diez».
Интересно, а мне одному кажется, что лингвистами в Яндексе затыкают чувствительную проблему с неполнотой базы?

Яндекс прекрасно отвечает на запросы в духе «пластиковые окна купить», но как только ищешь что-то специфическое — название ли, термин — и машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше. Прямо-таки просвечивает желание извернуться, но не показать «полтора результата» в выдаче.

Натыкаешься на такое раз, три, десять — и переходишь в Google, у которого страничек в базе — намного, намного больше. А потом и вовсе начинаешь задавать вопросы Гуглу на английском.
машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше

Именно такой логики нет, она, по-моему, была бы сознательным вредительством. По симптомам похоже на работу опечаточного смешивания: если машина подозревает опечатку, но не уверена, она составит выдачу из исходной и из выдачи по «исправленному» запросу. Если опечаточник при этом ошибся, то итог будет каким-то таким.

Согласен, обидно быть грамотным человеком в мире, где пользователи пишут "смареть бесплатна расценке на аделачные работы казане", а поисковики всё это пытаются отрабатывать.
Отдельный респект за шикарные картинки, сделанные специально для поста!
Язык запросов – естественный язык в том плане, что он выдерживает многие тесты, например, подчиняется закону Ципфа и другим закономерностям естественных языков.


Американский биолог Ли Вэньтянь попытался[2] опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.
Я знаю об этих работах, но отношусь к ним прохладно. Они иллюстрируют, что у закона Ципфа может быть статистическое основание, сама по себе эта мысль очень разумна. Но механизмы, предлагаемые что Ли Вэньтянем, что Витольдом Белевичем, никакого отношения к реальности не имеют. Язык не генерируется «с нуля» как последовательность символов (а тем более независимых и равномерно распределенных). Все известные нам языки являются результатом развития каких-то более древних; у этого процесса тоже есть свои закономерности, но они гораздо строже «случайной замены, подчиняющейся такому-то распределению» (см., например, elementy.ru/lib/430720#4, вообще очень советую почитать этот текст, если вы ещё не читали). Наконец, как я уже писал, закон Ципфа выполняется и для русского языка, и для языка запросов, слова как последовательности букв при этом одни и те же, но частоты совершенно разные: в top 3 насколько помню, вообще нет пересечений. Уже только одно это означает, что «случайная генерация последовательностей букв» — негодная модель явления. Обоснование, которое предлагал сам Ципф, мне кажется гораздо разумнее.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий