Как стать автором
Обновить

Как Яндекс научил искусственный интеллект находить ошибки в новостях

Время на прочтение 7 мин
Количество просмотров 13K
Всего голосов 44: ↑41 и ↓3 +38
Комментарии 11

Комментарии 11

«пятизвездночный» — пропущено специально для привлечения внимания к статье? :)
100% полноты достичь невозможно, НО конкретно в этом случае причина в другом. Механизм attention подсвечивает те ошибки, которые стали решающими. Грамматическая рассогласованность нескольких слов — более сильный сигнал, чем ошибка в одном слове.
Интересно ещё, почему «ресторан для птиц» не вызвал интереса. Либо такие примеры были в обучении, либо нейросеть действительно ловит только рассогласования, а смысл ей по барабану? Что вообще странно — бывают же и грамматически корректные фразы без всякого смысла.
СМИ часто используют необычные комбинации слов для привлечения внимания читателей, поэтому обученная на них нейросеть не удивляется таким вещам.

Что касается смысла, то сетка понимает, что грамматически верная фраза «В Пскове отремонтирую улицу Горького» — это некорректный по смыслу новостной заголовок.
Как оцениваете влияние BERT на SEO?
Ведь, с одной стороны, уверен, можно горы автогенеренного говна найти по частоте и распределениям срабатывания аттеншена.
А, с другой, черти сейчас тоже перевооружатся, и начнут сами в автогенераторы мусорного контента добавлять контроль качества перед отгрузкой на сайт

В SEO-компаниях сейчас очень низкие зарплаты. Набирают не творческих людей, а шаблонных исполнителей, им не до машинного обучения.


А частные кудесники такого уровня (которые умеют в нейросети с пользой) — спам обычно не фигачат, любят эстетику.

А как же сетки сайтов? Я не из этой отрасли, но бахвальство некоторых товарищей в интервью на ютубе, которые утверждают, что у них компании на пару десятков человек со своим движком — сайтогенератором, мимикрирующим под вордпресс, и тысячами говносайтов, не выглядит абсолютно беспочвенным.

Интересно, существует ли такая сеть или алгоритм, в который достаточно "загрузить" набор правил нужного языка и он будет работать?

Так уже ж ушли от этого лет 30 назад. Изначально так и хотели все порешать. Чтобы комп сам по чётко заданной структуре правил все вывел. Сильный ии где-то там.

Если смотреть на это со стороны машинного перевода, то от такого подхода как раз и ушли:

В основе таких систем лежали словари и правила, которые и определяли качество перевода. Профессиональные лингвисты годами работали над тем, чтобы вывести всё более подробные и всеохватывающие ручные правила (по сути, регулярные выражения). Работа эта была столь трудоемкой, что серьезное внимание уделялось лишь наиболее популярным парам языков, но даже в рамках них машины справлялись плохо. Живой язык – очень сложная система, которая плохо подчиняется правилам, постоянно развивается и практически каждый день обогащается новыми словами или конструкциями. Ещё сложнее описать правилами соответствия двух языков. Одни и те же слова могут иметь совершенно разные переводы в зависимости от контекста… Единственный способ машине постоянно адаптироваться к изменяющимся условиям и учитывать контекст – это учиться на большом количестве актуальных текстов и самостоятельно выявлять закономерности и правила.


(с) habr.com/ru/company/yandex/blog/317910
Спасибо за интересный материал. Скажите, а моделью с трансформера не планируете поделиться с обществом?
Зарегистрируйтесь на Хабре , чтобы оставить комментарий