Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Ещё две российские Википедии достигли объёма в 1 000 статей

Статистика в ITКраудсорсинг
Удмуртская (26 января) и башкирская Википедии достигли отметки в 1 000 статей. Это очень важный этап в жизни разделов на «малых» языках России. На удмуртском языке говорят 460 тысяч человек, а на башкирском — 1 450 000 человек.

Также 26 января чувашская Википедия достигла рубежа в 12 000 статей. Это самый крупный, просто огромный раздел из всех версий Википедии на «малых» языках России. Ближайший преследователь, татарская Википедия, отстаёт на 4 тысячи статей. На чувашском языке говорят 1,3 млн человек.
Всего голосов 24: ↑15 и ↓9+6
Просмотры394
Комментарии 10

Передача знания и Нейронный машинный перевод на практике

АлгоритмыBig DataМашинное обучение
Из песочницы
Нейронный машинный перевод (НМП, англ. Neural Machine Translation, NMT) развивается очень быстро. Сегодня, чтобы собрать свой переводчик, не нужно иметь два высших образования. Но чтобы обучить модель, нужен большой параллельный корпус (корпус, в котором предложению на исходном языке сопоставлен его перевод). На практике речь идет хотя бы об одном миллионе пар предложений. Есть даже отдельная большая область НМП, исследующая методы обучения языковых пар с малым количеством данных в электронном виде (англ. Low Resource NMT).

Мы собираем чувашско-русский корпус и параллельно смотрим, что можно сделать с имеющимся объемом данных. В этом примере использовали корпус из 90 000 пар предложений. Самый хороший результат на данный момент дал метод передачи знания (англ. Transfer Learning), о нем и пойдет речь в статье. Цель статьи — дать практический пример реализации, который легко можно было бы воспроизвести.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Просмотры2.9K
Комментарии 3

Встречайте чувашский язык в Яндекс.Переводчике: как мы решаем главную проблему машинного перевода

Блог компании ЯндексРазработка веб-сайтовПоисковые технологииМашинное обучениеИзучение языков

Регионы России — это не просто границы на карте. В каждом регионе есть свои культурные традиции, во многих — свои языки. Машинный перевод мог бы помочь сохранять и применять эти языки — в частности, публиковать статьи в Википедии. Но как быть, если данных для обучения машинного интеллекта недостаточно?


Сегодня мы расскажем о нашем подходе на примере чувашского языка, которому мы обучили Яндекс.Переводчик. По данным последней переписи населения, этот язык считают родным более миллиона человек.




Читать дальше →
Всего голосов 56: ↑54 и ↓2+52
Просмотры17K
Комментарии 41

Обратный перевод для Нейронного машинного перевода

АлгоритмыМашинное обучение
Привет. Некоторое время назад я рассказывал про способ сделать хороший машинный перевод на нейронных сетях, когда в наличии мало данных. Всего таких способа два. И наступило время рассказать про второй. Встречайте: обратный перевод.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Просмотры1.9K
Комментарии 6