Pull to refresh

Comments 85

Юмор это, а не переводчик :)

"I am king" --> "Я царь"
"I am king." --> " Я король"

Захватывает.
"Don't be evil." --> "Быть добру!"
"Превед!" --> "whazzup!"

ОД2.

Интереcно, почему "Носик на РБК" стал "Toe at home" :)))
Ашманов и Партнеры -> Advertising and Partners
Я умный -> I love
есть ощущение, что он переводит какими-то ассоциациями, накопленными за долгие годы поиска :)
иначе не быть бы Ашманову Адвертайзингом :)
Пора открывать новый раздел - афоризмы от гугля.
Кто догадается, что это было?

Бромида в яйцо, а попал в корову.

Бабушка получает в баре, судья беднеет ему подзатыльник есть.

Свойственны нашей семье, о том, что в матица коттеджа.

Карл Кинг, да виду он не ел , черт.

Много спать - не хорошие доходы.

Молчание равнодушия.
Это были русские народные пословицы:)
метил в ворону, а попал в корову
мужик богатеет - в баре идет, барин беднеет - к мужику идет
мужик в семье, что матица в избе
мужик сер, да ум у него не черт съел
много спать - добра не видать
молчание - знак согласия
а цвет он тоже похоже переводит.
голубой по-английски - красненький.
#008cd2 в #cc3300.
ТЕСТ
Догадайтесть, что за текст и кто переводчики :)

1)В lukomoria зеленых дуба; Zlataya цепи по условию :И днем и ночью ученый все через вращающийся по кругу на цепи; А правая ведет песню, слева - рассказ сказано.Там чудеса : дьявол бродит в городе филиала; Там, мощные тропы Следы невиданных зверей.Открывает там одичавшие пакет стоит без окон, без дверей; Там лес и $ видение такое. Там,на заре prihlanut волны На песчаное и блеск пустой,и 30 прекрасных воинов Креда от воды должны быть прозрачными, а с ними их dadka морской;Там korolevic Pleniaet прохождения мощного царя; Там в облаках перед народом через леса,через море в яму героям; В тюрьме есть Алексеевна tujit А бурый волк ей верно;Там ступа с Бабу - Ага, знаю; Там король Kashchei zlatom за старое; Там, русский дух ...выбрал там всякой всячины!И там я был, и мед я видел; Мы увидели море зеленых дуба; Под ним сидел,и походки ученого мне свои истории рассказали.Один я помню : этот рассказ я Povedau свет ...

2)В кривом побережье зеленый дуб; Золотой кругооборот на объеме дуба: И день и ночь кот ученый Все продолжает кругооборот вокруг; Идет направо - песнь, добирается, Слева - сказка говорит. Там чудеса: там leshy блуждает, Русалка на ветвях сидит; Там на неизвестных Следах дорожек беспрецедентных животных; Izbushka там на kurih Затратах ног без окон, без дверей; Там лес и доллар изображений полны; Там о рассвете prihlynut волны На breg песчаный и пустой, И тридцать героев, прекрасных Последовательность от вод оставляют ясным, И с ними djadka их море; Там сын короля mimohodom Очаровывает ужасного царя; Там в облаках перед людьми Через лес, через моря Волшебник переносит bogatyr; В темнице там огорчает tsarevna, И коричневый волк действительно служит этому; Там ступа с Baboju JAgoj Идет, идет отдельно; Там царь Кащедж выше золота увядает; Там российский дух... Там как запахи России! И там я был, и я выпил мед; В море видел зеленый дуб; Под этим сидел, и кот, которого сказки ученого говорили со мной. Один я помню: эта сказка будет говориться теперь мной осветить...
1) сейчас туда-обратно выглядит в гугле слегка иначе (может от знаков препинания зависит?):
В lukomoria дуб зеленый, Zlataya цепи экосистемы.И днем и ночью ученый во всех ходит по цепи кругом, правая ведет песню, слева - рассказ сказано.Там чудеса : дьявол бродит в городе филиала; Там, мощные тропы Следы невиданных зверей.Открывает там одичавшие пакет стоит без окон, без дверей.

Вцелом неплохо. А (2) - чей продукт?
Второй от промта.
Судя по быстрому изменению перевода, алгоритм самообучаемый. Так что будем ждать улучшений.
А промтовский "Золотой кругооборот на объеме дуба" , судя по Яндексу, уже пару лет является классикой жанра и не изменяется.
Хотя предыдущий вариант Промта мне нравился больше. Он выдавал " здесь русский спирт, здесь Русью запахи..." :)
Тургенев? А-а, "Каштанка"...
От адвертайзинга:
Гугл пока сильно отстаёт от ПроМТа (http://translate.ru). Примерно на 1-2 поколения.

И есть там ещё странная идея подбирать синонимы по совместной встречаемости. Кто-то у них увлекается Идеей latent semantics indexing.

У них там главный по МП какой-то китаец. Два года назад или около того он высказался в том духе, что лингвистики нам не нать, всё решает вычислительная мощность.
Я тогда испытал странное чувство, которое у меня бывает периодически, когда слышу такую чушь. С одной стороны, ведь чушь же, такого не может быть, весь мой жизненный опыт говорит об обратном.
С другой стороны, вдруг это я идиот, ситуация новая, а произойдёт что-то волшебное и они окажутся правы. Сделают классный перевод и т.п.

Чуда не произошло, как всегда. Вычислительная мощность - не решает.
Я бы не сказал, что Google отстает. По субъективному впечатлению и первому тесту
http://www.habrahabr.ru/column/1808/
качество перевода вполне сравнимо с Промтом и гораздо лучше Систрана. А по мере накопления базы переводов ,я думаю, будет еще лучше.
Звучит также высокопарно, как слова Лехи Андреева, вещающего о невозможности никакого искусственного интеллекта и приводящего как доказательство свой диплом на эту тему.

Кроме вычислительной можности есть еще нехватка материала. Был бы у них перевод русских сказок, и Пушкина бы переводили лучше - смысл, конечно, не рифмы.

Дети язык учат без всякой лингвистики, и никто по этому поводу странных чувств не испытывает.
Есть очень серьёзные сомнения, что дети учат язык без лингвистики. Психологи имеют разные мнения, но есть основания полагать, что у человека глубинное владение языком, как линейной согласованной струтурой слов, с фреймом глаголов и существительных, прошито в ПЗУ.

Но Вы просто путаете Машу и кашу. Люди-то учатся, да, но при чём здесь Гугл?

Там как раз высокопарные программисты объявили, что безо всякого вникания в предметную область они щас всех сделают. Сделают МП и будет он волшебно переводить.
Это уже 50 лет происходит постоянно, между прочим. Я застал последние 20.

Вот и сделали, инджойтесь.

Меня поражает не то, что у них штука совсем не работает. А то, что они не постыдились выкатить в таком состоянии. Переводят Венесуэлу как Японию, красненький как синенький - и выкатывают на публику.

Это к слову о ПроМТе и Систране - у них таких ошибок в принципе не бывает.
Если вы внимательно посмотрите на то, что делает Гугл, то увидите следующее:

а) Гугл не переводит элементарные английские конструкции, часто даёт просто полностью перевранный смысл типа "Скарамелла: я предупреждал шпиона отравили" вместо "I warned poisoned spy", там, где ПроМТ переводит правильно (предупреждал отравленного шпиона).

б) совершенно не умеет синтезировать и выглаживать русскую фразу, все падежи и спряжения враскорячку.
Например, "искатели найти ключ для отслеживания потерянных папа". А ПроМТ пишет "искатели находят ключи, отслеживающие потерянного папу".

в) грубо путает ЗНАЧЕНИЯ слов - переводит "Ашманов и партнёры" как Advertizing and Partners, красненький как синенький и т.п., Садовников как Алматы, чего у Систрана в принципе не может быть, как у словарной системы. Есть перевод в словаре - словарная система его даст, нет - не даст. Тут етсь свои проблемы, но уж грубо так эти системы не врут.

А Гугл заговаривается. Это понятно почему - они явно используют идею индексирования скрытой семантики, то есть объединения слов в синонимы по похожему окружению. Только идея эта, хоть и красивая, но, похоже, гнилая, до сих никто не мог сделать, чтобы оно работало - вот и у Гугла тоже фигня.

И это не изолированные примеры. Поэтому я и говорю, что пока перевод Гугла - это как минимум предыдущее поколение.
Да, насчёт приведения доказательств и дипломов. Вообще я лично последние 20 лет занимаюсь именно ИИ, видал много попыток преодолеть барьер МП. Пока не было ни одной успешной. Сама идея обучающегося на текстах перевода - не новая, ей лет 15. В США таких штук пять. Мы сделали такой переводчик в 1999 году, но не выпустили на рынок - поссорились с соучредителем и ушли в Рамблер. Идея - работает.

Но не так, как это делает Гугл, они .чя думаю, пока не осознали проблему.
А имеет ли право на жизнь идея "социальности" для обучения таких переводчиков вместо использования ИИ? Что выйдет, если гугл, к примеру, даст возможность корректировать перевод самим пользователям. Конечно надо предусмотреть возможность вандализма, когда хорошо спланированный моб приведет к тому, что "Spartak" будет переводится как "Чемпион", а "hello" как "превед".

Еще - мы говорим, как плохо переводит гугл на русский, потому что сами хорошо знаем русский. Интересно узнать о качестве перевода на другие языки, специалистами в которых мы не являемся. Что бы не говорить о том что гугл лажает с русским, а о том что он лажает в принципе.
Есть довольно много проектов, где для перевода предполагается использовать принцип Веб 2.0.
Там главная проблема не в вандализме.

Там проблема в интеллектуальности алгоритма обобщения образцов. Вот пусть есть у вас образцы текстов, есть переводы к ним.
Вам нужно выранять их - то есть сопоставить абзацы, потом предложения, потом словосечетания, потом слова.

После этого вам нужно полученное обобщить - сделать шаблоном перевода для случаев, когд а данной конструкции изменилось, например, одно слово - прилагательное поменяли.

Вот правила такого обобщения и есть интеллект системы, потому что буквальных совпадений будет крайне немного.

Поясню: если Вы набрали примеров типа "грустная мама мыла грязную раму", то вам нужно уметь подставлять в данную конструкцию прилагательные и существительные.
Глагол обычно подменять нельзя, от него слишком сильно всё зависит.

То есть вам нужно обощить шаблон до чего-то вроде

*adj *sub мыла *adj *sub.

А для построения правил обощения шаблонов и замены слов нужна очень непростая лингвистика. Ведь прилагательные и существительные в шаблон на место кванторов нужно подставлять в правильных формах. Падеж, число, лицо.

Тут вычислительная мощь никак не поможет и Веб 2.0 - тоже. Нужен опеределённый запас лингвистических правил. На два порядка меньше, чем в словарных системах, но нужен.
А как быть с проблемой подбора значений слов в контексте? Возможно ли создание алгоритма, определяющего тематику текста?

Небольшой оффтоп: в Office 2007 появилась контекстная проверка (синее подчеркивание) в англ. языке, т.е. реагирование на слово не подходящее по смыслу. Например "Can I fine a good example to show you?" Ясно что fine тут совсем не к месту, хотя само слово написано верно.

Возможно ли в принципе появление подобной проверки и для русского? Почему включение функции требует достаточного количества памяти - 1Гб?
а) проблема подбора значений только косвенно связана с определением тематики текста. Хотя знание тематики выбрать значение, конечно, помогает.

б) определители тематики давно созданы. Они работают в Google AdSense, в Рорере, в Рекламной сети Яндекса, в Автоконтексте от Бегуна, в Спамтесте, в Новотеке.

в) На мой взгляд, в Офисе-07 это не какой-то определитель тематики, более продвинутая грамматическая проверка. Возможно, построенная на сведениях о совместной встерчаемости слов. Если последнее верно, то понятно, зачем много памяти - для словаря сочетаемости по "всему языку".

Это можно сделать и для русского, мы в АиП, скажем, у себя такую технологию применяем, называется "ассоциативный словарь".

Но вообще Виста в принципе требует не меньше гига памяти.
Я в предыдущем коммента написал, как так может быть, что при всей реалистичности за эти 20 лет барьер не был преодолен. Спорить будете?

Я в вашу сторону с дипломом не кидался, только про Леху говорил. Но вас тоже не могу считать беспристрастным экспертом в статистическом переводе.

Вы продаете ваш товар как "уникальный труд тысяч лингвистов", и здесь столько же рациональности, сколько и рекламы. Т.е. ваша ориентация и продвижение лингвистического подхода - это помощник ваших продаж, ваши отличия от конкурентов, в целом - красивая упаковка с громкой надписью "ручной труд".

Кроме того, не ставя под сомнения ваши слова про 20 лет в ИИ, я сомневаюсь что эти 20 лет вы имеете достаточно времени глубоко и всесторонне изучать ИИ со всех сторон. И то, что у вас было достаточно времени обдумать все плюсы и подводные камни статистических методов. В конце концов, скрытая семантика - вовсе не краеугольный камень, есть и другие подходы.

Т.е. такое предубеждение с вашей стороны я могу отнести, как-минимум, к конкуренции и недостаточной осведомленности.
Каких это, извиняюсь, тысяч лингвистов? Да у нас только одних курьеров 30 тысяч.

Я не продаю никакого продукта, уважаемый.

А Лаборатория Касперского действительно имеет антиспам-лабораторию, там что-то вроде 12-15 лингвистов. Вот они пол-Рунета и обслуживают. А также западных клиентов.

Насчёт времени обдумать все плюсы и минусы статистических методов" - было время, уж поверьте, пожалуйста.

Мы два года делали статистический переводчик в 1998-1999 годах, доказали, что идея работает. А с 2001 по 2005 год делали Спамтест, в котором огромный кусок - именно статистический.

Просто мы здесь никаких плюсов и минусов пока не обсуждали. Мы обсуждаем хреновый перевод от Гугля.

Причём интереснее всего не тот факт, что он плохой, а тот факт, что они не стесняются такого дерьма и публикуют его. Раньше Гугл так не поступал.

Хотите мнение про плюсы и минусы? Извольте:

а) Настоящий МП будет сделан именно на статистике по паралельным текстам,
б) он будет содержать довольно сильную алгоримическую компоненту с лингвистическими правилами,
в) Веб 2.0 будет использован для шлифовки правил.

Что касается словарно-синтаксических систем МП, то они в тупике уже лет 15. И вывести их из этого тупика невозможно.

Просто то, что сейчас сделал Гугл, заявкой на борьбу даже с ПроМТом - не является.
Безусловно, какая-то алгоритмическая компонента там будет, как же без этого. И даже правила какие-то лингвистические будут. Даже наверняка можно было бы ценой еще больших расходов сделать и без лингвистических правил, понадеявшись, что получив в базу _все_ имеющиеся переводы машина обошлась бы без лингвистики. Но это было бы уже бесполезным, разве что только ради красоты, а в реальности лингвистические теории есть - грех их не использовать, если можно.

Но если с этим вы не спорите, таки я не понял, о чем спор вообще? Только о том, что какой-то китаец в гугле не постеснялся выпустить бету с русским языков, но не об отношениях китайца к лингвистике? Ладно, я с этим не спорю. Даже скажу, что гугл - грязная и мерзкая корпорация, которая пиарится на чем ни попадя, как любая другая грязная и мерзкая корпорация.

А другие языки, кстати, гугль переводит лучше. Не идеал, конечно, но смысл особо не искажается.
Да, кстати, и с русского на английский он переводит лучше, чем с английского на русский.
Это просто иллюзия, связанная с тем, что на чужом языке вам меньше режет глаз. Вы не видите идиотизма.

Я много раз наблюдал этот эффект. Люди, которые просто умирают со смеху над англо-русскими переводами ПроМТа, переводят им же письмо на английский и посылают деловому партнёру. А что такого - буквы-то и слова все английские, значит, нормально.
При том, что с английского на русский небось проще переводить, хотя бы благодаря порядку слов более точному.
Я же и говорил, что поражает полное искажение смысла на самый простых конструкциях, когда гугл берёт фразу "I warned poisoned spy" И переводит её как "Я предупреждал шпиона отравили". Казалось бы, куда проще - подлежащее, сказуемое, прямое дополнение с эпитетом.

На русском действительно всё гораздо сложнее.
Но пока у Гугла другие проблемы, они путают слова, встерчающиеся в близком окружении и синонимы, как Касперский и Нортон. Им в первую очередь нужно отказываться от этой ложной идеи квазисинонимов или вводить жёсткие пороги сходства окружения, если они у них вообще есть.
Кстати построение интерфейса выдачи перевода Гуглом, когда исходный текст остается подстрочно доступным и разбитым по предложениям , наводит на размышления, не планирует ли он в будущем то, что вы назвали в) использовать для создания б) - т.е. для создания правил использовать тоже статистику правок , набранную на бесплатных волонтерах, а не созданную высокооплачиваемыми профессиональными лингвистами ?
А как можно создать правила по массовым правкам?
Если система вообще не знает, в каком падеже слово стоит, как создашь правило подстановки слова в правильном падеже?

Да и вообще-то я сильно сомневаюсь, чтобы много народу стало править переводы Гугла. Пока не видно схемы мотивации.

Вообще я не говорил, что Гугл не сможет сделать хороший переводчик. Я говорил что а) пока не смог, и б) без лингвистики обойтись не удастся, сколько дешёвых линуксовых ферм ни построй.
Так и Гугль не говорит, что он смог :), иначе не называл бы бетой! Это кстати и снимает Ваши нападки насчет выкатывания сырого продукта -бета и есть бета, что с нее возьмешь!
Если бы была действительно серьезная финансовая заинтересованость, быстро бы нашлись деньги и на лингвистику, и на мотивацию волонтеров. А так будет в бете годами болтаться... Разве что выделят средства под отработку технологий... И то Китайский и японский, и даже арабский перевод им намнооого актуальней, основные усилия и средства будут направлены туда.
Так что, к сожалению, спасение утопающих дело рук самих утопающих.
Вообще-то, в программистской практике статус бета-версии - это вовсе не "вот мы что-то хотим сделать, но пока сами не поняли как". В своей разработке продукт может пройти стадии прототипа ("Мы хотим что-то сделать, но не понимаем, как оно себя поведет"), альфа-версии ("Оно запускается и что-то делает, давайте делать фичи") и бета-версии ("Вот, почти все работает, помогите нам выловить баги"). С легкой руки того же Гугла у разработчиков появилась плохая привычка выкатывать на публичное обозрение что-то едва рабочее с перспективным ТЗ, приговаривая "We call it beta, `cos it`s beta than nuthin`". Самое противное, что они приучили к этому пользователей, которые стерпят самие критические баги в модном сервисе - это ж бета, что с нее возьмешь...
Ты знаешь, мне всё же кажется, что это в конечном итоге вопрос набора статистики. Скажем, общетематический перевод с французского на английский у них нечеловечески хорош. То есть реально иногда хорош настолько, что волосы шевелятся - продукт на уровне нормального переводчика-синхрониста.

А ведь французский по части времен и падежей не сильно проще русского!
Сереж, это все же сильно близкие друг к другу языки. Можно даже сказать - нечеловечески близкие. В отличие от.
Я так не думаю. То есть я осведомлён о том, сколько в современном английском от нормандского и сколько от него же в современном французском. Но при этом изучение французского при беглом английском сильно проще не становится.
Ну, у них ведь не только общие нормандские корни. Мне знание английского в свое время сильно помогало ориентироваться во французском. И не только - облегчается изучение практически любого языка, поскольку в основе одна и та же латынь, в принципе.
Аналогичная картина с большинством славянских языков. Внутри группы таких близких языков задача МП, как я понимаю, становится несколько проще. Собственно, пролинговский софт еще 6 лет назад практически идеально переводил тексты с русского на украинский, спотыкаясь только на русских омонимах.
Там всё сложнее. Корни у них как раз разные, в этом и фокус. Всё, что есть в английском от латыни — как раз занесено в него потомками Вильгельма-завоевателя. И "помогает ориентироваться" это всё постольку-поскольку. Фокус-то как раз не в том, чтобы перевести однокоренные слова, а в том, чтобы правильно построить предложения. И тут никакая латынь не поможет.
У французского кроме большего произвола в порядке слов (в этом даже ближе к русскому) есть и другие существенные отличия - глаголы меняют окончания во времени и лицах, артикли, указывающие на роль существительных. Здесь уже обычной близостью не пахнет, не то что нечеловеческой. Если сравнивать близость как у русского славянских языков, то можно говорить о французском, итальянском и испанском, но не об английском.

То, что корни у нескольких процентов слов похожи, для машинного перевода роли не играет. Человеку багаж из одного иностранного языка существенно помагает изучать любой язык, хоть китайский. Не в похожести дело, а в изменении восприятия языка как средства коммуникации.
Это не так, разница очень большая.
А Украинская Мета переводит на русский с украинского и наоборот тоже похлеще любого переводчика!
Те же смежные языки - никаких проблем.
Про глаголы и существительные - вполне возможно. Также вполне возможно, что это в той или иной мере в этом переводе тоже может поддерживаться. По крайней мере, в примерах ошибок гугля пока не вижу глаголы перепутанные с существительными.

То, что есть сейчас путаница, так есть и переводы без ошибок. И в отличие от структурных систем перевода, качество перевода у статистических возрастает при увеличении базы. Рост не линейный, но он есть. Структурные тоже можно дообучать, несомненно, но стоимость их тюнинга - привлечение лингвистов, сейчас намного превышает стоимость для статистических - скормить побольше адекватных переводов.

10-20 лет назад, конечно же было наоборот - дешевых способов хранения большого кол-ва данных не было, не было и дешевых вычислительных ресурсов.
Качество у систем перевода на образцах растёт, только если система построена правильно. если она не захлебнётся при росте базы, если не произойдёт переполнение пространства признаков, если не будет комбинаторного взрыва и так далее.
То есть это ещё как сделать.

Если применять ассоциации по совместной встречаемости, как сейчас Гугль делает, то пополнение базы только приведёт к тому, что Япония начнёт путаться не только с Венесуэлой, но и ещё с каким-нибудь Белизом, а Касперский не только с Нортоном, но ещё и с Маккафи.

Что касается дешевизны ресурсов, то есть только один ресурс, цена которого не равна нулю - это мозги. Мозгов сейчас в индустрии точно не больше, чем раньше, а даже скорее меньше, потому что часть из них нанимается всякими Пузырями 2.0 и про перевод не думает.

Да, Гугл приложил большие усилия по найму всех лауреатов всех олимпиад, это грамотно, но что-то его боковые проекты пока не впечатляют.
Я не слышал/читал слова китайца про ненужность лингвистики, поэтому не могу судить, имел ли он в виду именно полный отказ от каких-либо средств оптимизации структур данных. Скорее всего, нет - если введение десятка правил позволит на порядки сократить объем и время, то вряд ли он будет для чистоты эксперимента ими пренебрегать. Другое дело, что это могут быть не лингвистические правила, а правила преобразования и ассоциирования строк. Скажем, для построения фразы с согласованными падежами хранить ассоциации слов с суффиксами и окончаниями слов, и частоты суффиксов у сочетаний слов. Из которых правила не формализированные, а статистические, могут проявлятся сами, например, выяснить, что цепочки -ого -а (белого снега) бывают, а -ого -ом (белого снегом) не бывают. Конечно, это могли бы сказать и лингвисты, но даже лингвисты запарятся составлять несколько десчтков тысяч таких правил, да еще и для пятидесяти языков.

А ошибки совместной встречаемости лечатся увеличением числа эталонов и увеличением ширины учитываемого контекста. Конечно, это снова упирается в вычислительные ресурсы. И, наверное, даже сейчас гуглевской фермы не хватит, чтобы реально гонять на ней точный перевод. Может быть здесь еще и прицел на будущее, когда процессоров станет еще больше и дешевле.
> боковые проекты пока не впечатляют
Есть такое дело. Возможно, обясняется тем, что даже суперкомфортные условия работы мотивируют хуже, чем призрачное, часто даже слишком призрачное, миллионерство у самостоятельных стартаперов.
Интересно, что гугл догадывается, в каком контексте нужно apple перевести, а в каком оставить как название фирмы.
Видимо такие статистические переводчики рано или поздно вытеснят лингвистических переводчиков. Как статистические антиспам-фильтры вытеснили лингвистических спамтестов.
А Вы уверены в том, что вытеснили? По-моему, вы не в теме, сведения ваши неверные.
И на Mail.ru и на Яндексе стоят фильтры, основанные на правилах, лингвистических и других.

А уж на корпоративном рынке в России Спамтест, он же Антиспам Касперского - явный монополист, стоящий у всего крупняка, включая Билайн, МТС, Мыло, РБК и так далее. Я думаю, он фильтрует процентов 25 российского трафика.

Более того, я не знаю вообще ни единого примера байесовского фильтра для корпоративного потока, вообще для большого потока. То есть байесовские прилады прижились только на малых потоках, на десктопах и только у гиков, которым не влом их учить каждый день.
Процентов почты 25 фильтрует, процентов 10-15 спама пропускает. Так что, в общем, не львиная доля объема, и уж точно не львиная доля качества.

Причем здесь байес? (Байес - частный случай сематической сети, это вообще универсальный инструмент; если не знаете примеров байеса на корп.серверах, то вы тоже "не в теме" :). А здесь я о другом:

У яндекса основной поток спама отсеивается по собственным RBL. Это тоже статистический фильтр. Крупнейшие западные антиспамы - ВСЕ статистические, т.к. их основа - обработка спама с миллионов ловушек...

И Антиспам Касперского будет развиваться в сторону стат.методов (которые в нем наверняка уже сейчас больше половины спама ловят). Кстати, на mail.ru спамтест работает лучше, чем тот же спамтест на KHS - может это из-за бОльшей статистики на mail.ru? ;) Посмотрим лет через 3-5 на антиспамы и переводчики :)
"Крупнейшие западные антиспамы - ВСЕ статистические, т.к. их основа - обработка спама с миллионов ловушек...".
Неверно. Чисто статистические системы не могут набирать никакой статистики, потому что абсолютно все спам-письма - разные.

Для объединения писем между собой нужен механизм нечётких сигнатур: для текста - лингвистических, для графики - графических, для заголовков - формальных.

Так вот придумывание и написание этих сигнатур к статистике не имеет отношения.
Согласен, алгоритм "извлечения материала" из текста - работа для лингвистов. После извлечения - работа стат.методов. В гугловом переводчике, конечно, тоже. Да и в байесе (собственно лингвистической частью разные байесы и отличаются друг от друга, причем очень сильно). И даже RBL'ные системы работают по-разному, учитывают разные факторы, т.е. своего рода "лингвистику" сетевых признаков.

Но знания лингвистов должны зашиваться в программу (программа обучается на лингвистах :), и врядли после этого нужны круглосуточные лаборатории, т.к. эти знания не так уж часто меняются. Лингвистика - это ПЗУ, как вы верно говорили выше. А зачем ПЗУ перепрошивать 20 раз в день? ;) Если это требуется - знать, плохое ПЗУ.
Стат. методы могут работать, когда есть большая, чистая и актуальная выборка. Хорошая выборка — это сферический конь в ваккуме.
Поэтому все байесы-шмаесы хорошо работают только локально, а гугловый перевод будет говорить литературным языком (ибо хорошую выборку можно сделать на художественных текстах). Веб в целом — поток очень грязный, как и "почта в целом".
и кто-то, кто будет определять политику работы с массивами исходников, будет:
1. адски вкалывать.
2. лингвистом :)

Я в общем, очень боюсь описанного в литературе случая, что "познание бесконечности требует бесконечного количества времени, а следовательно"...
Веб в целом — поток очень грязный, как и "почта в целом".
Я потому и спрашивал тут где-то - "Интересно, на каких текстах тренировали переводчика". Хоть веб и грязный - переводено из этой грязи далеко не всё! :) А только жизнеспособное, кому-то полезное. Естественный отбор-с.

Возвращаясь к ПЗУ мозгов. Хорошую метафору подсказал Игорь. Кто-нибудь меняет схему/ПЗУ наших мозгов после первых нескольких месяцев (ну или лет, допустим) от рождения? И ведь продолжают работать хоть бы что, самообучаясь на автопилоте с обратной связью.
Игорь, мне кажется, что это случай с бисером
Тебе не кажется.
Аргументы кончились? ;)
У яндекса основной поток спама отсеивается по собственным RBL. Это тоже статистический фильтр.
Вы либо целенаправленно говорите, ерунду, либо просто трындите о вещах, в которых ни хрена не понимаете.
Это грустно и печально.
Нет, я почти цитирую. Раз это (уже?) не так (вам-то виднее), то расскажите, сколько процентов фильтрует RBL, сколько шинглы, сколько и т.п. И скажите, какие из этих методов НЕ используют статистические данные.
Андрей, это же Вы, да?
Дело не в точности цитирования, дело в логике, т.е. чисто причинно-следственных вещах.
Номинально один из rbl яндекса построен на статистике, а все рбльные фильтры идут первыми и поэтому отсекают 90%. Точно так же, как эти (условные) 90% отсекал бы любой другой "хороший" фильтр, просто потому, что он хороший и первый.
Аналогично, тот самый rbl по принципу: "если на коротком отрезке времени число фигни почти 100%, то источник блокируем". Т.е. метод этот скорее формальный (загорелась лампочка на пульте — отменили рейс самолета), чем статистический — "что-то посчитали и построили эвристики".
Каковое притягивание и вызвало у меня такой всплеск эмоций, за которые, я извиняюсь самым искренним образом.
++
В в той или иной мере про все на свете можно сказать, "основан (-но, -на, -ны) на статистике", но из этого не следует, что статистический метод главный.
Можно убрать пример со спамом и взять пример с дорожными знаками. Получится тот же спор.
> У них там главный по МП какой-то китаец.

Если этот переводчик создан китайцами без привлечения русских лингвистов, то это точно супермегамощный китаец!!! Если он за 2 года сделал такое, то еще через 5 лет он наши ПроМТы за пояс заткнет, адназначна.
По поводу ПроМТа. Может он и не бета, но вот сейчас он вообще не работает... При попытке перевода веб-страницы через translate.ru:

Error: IsComplete is not found
soap:ServerSystem.Web.Services.Protocols.SoapException: Server was unable to process request. ---> System.Exception: PitsUnkError
at Promt.Pits.Translator.Services.Translator2.TranslateHTMLFile(Int32 DirId, String TplId, Byte[] data, TemplateDataSet Context, String URLBase, String HrefPrefix)
--- End of inner exception stack trace ---

Может он по технологии перевода впереди на поколения, но по веб-технологиям - позади на столько же.
Серверные мощности Промта настолько слабы, что ни о какой реальной работе с ним не может быть и речи. Перевод нескольких страничек затягивается на 20- 30 минут и множество попыток достучаться.
Я думаю, сервис задуман исключительно в рекламных целях - для демонстрации технологий и ни на какую реальную нагрузку не рассчитан.
Тогда и не будем ГуглоТранс с Промтом сравнивать.
Начиная с 10-го и 11-го веков, мелкая шляхта и бывшего СССР объединились в городах, которые постепенно стали достаточно мощными, чтобы игнорировать местные феодалы.

Starting in the tenth and eleventh centuries, petty nobles and former serfs banded together in towns that gradually became powerful enough to ignore the local feudal lords.
----
При этом отдельно слово serfs (рабы) гугл переводит как "русификация", а "serf" и вовсе "Петербург"!!!
Вот вам и СССР в 10м веке (по Фоменко у нас сейчас как раз 9й или 10й век от рождества христова :), и русские питерские рабы там же :))
ГуглоСтатистика рулит! :)
В Москве тоже рабы...

Но в отличие от Москвы у них стимула вызовет немало.
But unlike serfs they had an incentive to create a lot of it.
Да, Гугл очень наблюдателен. По его мнению, Венесуэла по-русски Япония! :))

"And so when we see increasing differences in income in a rich country, there is a tendency to worry that it's sliding back toward becoming another Venezuela.

И поэтому, когда мы видим, растет разница в доходах, в такой богатой стране,наблюдается тенденция к тому, чтобы беспокоиться о том, что оно скатывается к другому становится Япония."
Timex -> Ленинградский! :)

Интересно, на каких текстах тренировали переводчика и как?
Касперский -> Norton! О, двуликий Янус! :)
kaspersky -> Москва
Комедия. :)
Один реальный баг (а не недоученность) в гуглопереводчике хорошо заметен, он многократно повторяется на в переводах разных статей: это инверсия смысла предложения. Часто бывает, что утвердительное предложение в переводе звучит наоборот, как отрицающее высказывание. И наоборот.
Например:
"We did not run out of money." -> "У нас не хватило денег."
а вот Промт дает правильный перевод:
"Мы не исчерпывали деньги." (в смысле "денег нам хватило")
Впрочем, может быть именно этот пример исправится доучиванием ("пониманием" смысла "run out", тогда перевод мог бы звучать "у нас не не хватило денег" или после редукции "у нас хватило денег") без перепрограммирования. Вчера попадались более нелепые необъяснимые инверсии, жаль не записал.
Сегодня Venezuela уже переводится как Венесуэла. Работают люди.

Впрочем, если он будет по-русски работать так же, как по-итальянски - Промт может спать спокойно...
Отдельным словом оно и переводилось правильно. А в том предложении "And so when we see increasing differences in income in a rich country, there is a tendency to worry that it's sliding back toward becoming another Venezuela." по-прежнему заменяется Японией и сегодня.

Если урезать до "becoming another Venezuela.", то тоже - "стать другом Японии."
А вот если убрать becoming в начале или точку в конце - всплывает Венесуэла :)
Интересные у них алгоритмы...
А хотите я вам раскрою маленькую тайну ?

Никакая "железяка" с написаным специальным софтом не сделает корректный перевод.

Иногда видишь или слышишь перевод живого переводчика и диву даёшься такой неточности перевода.

В 2000 году мой один сотрудник сделал перевод сайта при помощи ПроМТа, и мы стали спамить америкосов мылом, на что я получил ответ:"Тема ваша интересная, но что за мусор вы нам прислали, сделайте нормальный перевод, вот тогда и продолжим общение.

С тех пор я нанимаю только профессиональных переводчиков, а любой софт для перевода дай бог, чтобы дал хотя бы представление о чём идёт речь.

А лучше всё-таки выучить хотя бы английский язык более или менее, один мой знакомый программист получил постоянный контракт в одной европейской стране благодаря знанию нескольких европейских языков
Это секрет Полишинеля :)
Всем известно, что машинный перевод существенно уступает даже посредственному человеческому , но проблема в том, что потребности в переводе огромны, соответственно цены на качественный перевод высоки и дешевый машинный перевод , как бы он ни был приблизителен, всегда найдет свою нишу.
Раньше приходилось выбирать между отвратительнейшим систрановским переводом и намного лучшим, но практически недоступным промтовским.
Сейчас же Гугль практически мгновенно предоставляет хоть и не точный , но часто вполне достаточный перевод страниц, предоставляя к тому-же доступ к подстрочному первоисточнику. И в большинстве случаев этого вполне достаточно для понимания, о чем речь, а явные глюки отсеиваются простой логикой.
Так что как бы не ругал их Ашманов за сырой сервис, все-таки они сделали большое дело, приоткрыв окно в огромный англоязычный мир для болЬшей части неанглоговорящих Рунетовцев.
Истина как всегда где-то посередине.

Каждый по своему прав.

Если Google поможет тотя бы понять о чём идёт речь в тексте перевода и на том спасибо.

Но если вам нужен качественный перевод документов, контента и т.п., не жалейте денег,наймите профессионального переводчика.
Главное, чтобы люди понимали разницу между первым и вторым и не пытались сэкономить на качественном переводе в случае важных и ответственных документов, а то снова получатся " Дорогие русские вентиляторы"
Sign up to leave a comment.

Articles