Pull to refresh

Comments 34

Autoencoder (даже у вас именно так написано). По-русски пишут «автоэнкодер». У вас же трансформировалось в «автокодер».
Спасибо, что указали на термин. Только «энкодер» — это не по-русски. По-русски «автокодировщик». Поправили в тексте.



К сожалению, несмотря на то, что «автоэнкодер» — это не по-русски, но этот вариант популярнее. На том же хабре 75 статей с упоминанием автоэнкодеров и всего 43 с автокодировщиками.
Впрочем, конечно, оба варианта приемлемы.
Будем бороться за популярность правильного варианта :) Вики
А кто определяет, что он правильный? Вряд ли википедия может являться ground truth.
Вероятно, нормы русского языка, которые сложились давным-давно.
Как нормы русского языка могут определять, какой из вариантов приживется? Термины могут заимствоваться из другого языка, могут переводиться.
Автоэнкодер — это заимствование (транслитерация).
Автокодировщик — это перевод (причем частичный, ведь мы не говорим самокодировщик, не говоря уж о том, что код — корень иностранного происхождения сам по себе).

Оба варианта легитимные.
У слова encoder есть сложившиеся варианты перевода, и говорить о легитимности транслитерации тут не приходится. Траслитерируют по незнанию и/или лени.
А потом переводную литературу читать невозможно по теме. Зато русский язык отстояли.
P.S. Не против использования русскоязычных терминов, но именно в данной области я за заимствования, максимально приближенные к оригиналу.
В серьезных документах практически всегда есть глава «Термины и определения». Транслитерация не спасает от потери смысла. Особенно по межпрофессиональным вопросам.
Да чего уж, читайте сразу на английском. А то ишь, напереводили по-русски, после транслита понять невозможно.
Недавно встречал данные о количестве слов, которых нет в словарях русского языка. Тысячи. Даже употребительное «бизнеспроцесс» не вошло ни в один словарь (или терминологический стандарт). а уж про такое узкоприменительное слово спорить просто смешно.
Слово «кодировщик» есть в различных толковых словарях русского языка.
А «автокодировщика» нет.
Спор-то ведь не о приставке, а о корне. Приставка не меняет суть дела.
Спор начался именно из-за приставок (автокодер — автоэнкодер). А они в русском языке могут изменить смысл до обратного. Я уже не говорю о межпрофессиональном общении, когда одно и тоже слово может иметь ну очень разные значения. Потому до официального включения термина в словарь (терминологический стандарт) все споры имеют статус «Я художник, я так вижу». :))
Да при чём тут приставка? Автор первого комментария даже выделил жирным корень, перевод которого ему не понравился. Авто — это приставка. Кодировщик/энкодер — корень.
Авто — это приставка. Кодировщик/энкодер — корень.

You won't believe it!
А спор начался из-за того, что более «русский» вариант не обязательно является правильным. С точки зрения механизмов добавления новых слов в язык оба варианта ок, и вариант «автоэнкодер» является общепринятым.
You won't believe it!

Гхм, мы же не спорили, как лучше — кодер или энкодер, верно? Так при чём тут приставка в английском слове, если речь шла о корне в словах на русском?

С точки зрения механизмов добавления новых слов в язык оба варианта ок, и вариант «автоэнкодер» является общепринятым.

К счастью — или вашему неудовольствию — это пока что не общепринятый термин, и у слова encoder есть устоявшиеся переводы, добавлять ничего нового не требуется. Об этом я писал выше. Как и том, почему защищают транслит.
Гхм, мы же не спорили, как лучше — кодер или энкодер, верно? Так при чём тут приставка в английском слове, если речь шла о корне в словах на русском?

You won't believe it!
В русском это тоже приставка «эн-». А корень что в «кодер», что в «кодировщик» общий — «код».

К счастью — или вашему неудовольствию — это пока что не общепринятый термин, и у слова encoder есть устоявшиеся переводы, добавлять ничего нового не требуется. Об этом я писал выше. Как и том, почему защищают транслит.

Мне кажется, вы слегка ошибаетесь.
Во-первых, у слова «encoder» есть два устоявшихся перевода: «кодировщик» и «энкодер». Пруф второго можете найти в той же статье на википедии, которую я упомянул выше.
Во-вторых, перевод «автоэнкодер» действительно не общепринятый, я был не прав с этой формулировкой. Тем не менее, по всем параметрам «автоэнкодер» более используемый, чем «автокодировщик»: по результатам в гугле (7к vs 4к), количеству статей на хабре (75 vs 43), поисковым запросам («автокодировщик» вообще отсутствует), упоминаниям в ODS (25 vs 148).
Так что, хотите вы этого или нет, в этом вопросе сообщество на стороне автоэнкодера.
Вы с поразительным упорством упёрлись не туда. Ещё раз: спор был не про кодер/энкодер с приставкой «эн». Спор был про энкодер/кодировщик с приставкой «авто». Ну или если совсем докапываться до терминов: речь шла об основе кодер/кодировщик, с совсем сопутствующими суффиксами и окончаниями. И приставкой «авто».

два устоявшихся перевода: «кодировщик» и «энкодер».

Вы правда не понимаете, что «энкодер» — это не перевод, а транслит? И что переводом является именно «кодировщик»?

по всем параметрам «автоэнкодер» более используемый, чем «автокодировщик»

А тут я присоединяюсь к автору поста: буду вместе с ним топить за правильный перевод, а не за ленивую или безграмотную транслитерацию сообщества.
Вы с поразительным упорством упёрлись не туда. Ещё раз: спор был не про кодер/энкодер с приставкой «эн». Спор был про энкодер/кодировщик с приставкой «авто». Ну или если совсем докапываться до терминов: речь шла об основе кодер/кодировщик, с совсем сопутствующими суффиксами и окончаниями. И приставкой «авто».

Вы с поразительным упорством спорите с буквальным утверждением, не понимая, что это просто аналогия, чтобы показать, что ваши «авто» и «кодировщик» — тоже иностранные корни, тот самый транслит, который вы так не уважаете.

Вы правда не понимаете, что «энкодер» — это не перевод, а транслит? И что переводом является именно «кодировщик»?

Мне кажется, это вы не понимаете, что если в русском языке присутствует заимствованное слово, то хоть оно и является транслитом с английского, оно в то же время является и переводом.

Вы же не считаете слово «код» транслитом от слова «code», правда? А ведь оно формально является.

А тут я присоединяюсь к автору поста: буду вместе с ним топить за правильный перевод, а не за ленивую или безграмотную транслитерацию сообщества.

Какое счастье, что «автоэнкодер» не является неправильным переводом.

Язык — динамическая штука. Его определяет в конечном итоге народ, который им пользуется. Ещё вчера не существовало феминитивов — сейчас они у многих в обиходе и в украинском, например, вошли в официальные правила языка с этого года.

Так же и в науке — терминология заимствуется из английского разными путями. И побеждает тот путь, который больше понравился сообществу.
«авто» и «кодировщик» — тоже иностранные корни, тот самый транслит, который вы так не уважаете.

Эти транслиты уже настолько давно и прочно устоялись, что бороться с ними не имеет смысла.

не считаете слово «код» транслитом от слова «code»

Считаю. С чего бы мне так не считать? Только здесь такая же ситуация, как с «авто» — слово уже стало частью языка.

Язык — динамическая штука. Его определяет в конечном итоге народ, который им пользуется. Ещё вчера не существовало феминитивов — сейчас они у многих в обиходе и в украинском, например, вошли в официальные правила языка с этого года.

Так же и в науке — терминология заимствуется из английского разными путями. И побеждает тот путь, который больше понравился сообществу.

Совершенно верно. И пока у «энкодера» не такой катастрофический перевес с точки зрения встречаемости в статьях, я предпочту использовать более «русское» «кодировщик». Благо, что это слово в языке существует давно и не является новомодным бездумным транслитом (да, я помню про «код», но «это просто аналогия, чтобы показать»).
И пока у «энкодера» не такой катастрофический перевес с точки зрения встречаемости в статьях, я предпочту использовать более «русское» «кодировщик».

Предпочитайте, это же абсолютно нормальный вариант. Только не навязывайте другим в комментариях свою не обоснованную позицию о том, что второй вариант некорректный.
Учитывая, что в словарях есть слово «кодировщик», а «энкодер» отсутствует, да, этот транслит — не перевод — многими применяется не то что некорректно, а бездумно. С пренебрежением к собственному языку. Прикрываясь «мнением сообщества», своей ленью и равнодушием.
Учитывая, что в словарях есть слово «кодировщик», а «энкодер» отсутствует, да, этот транслит — не перевод — многими применяется не то что некорректно, а бездумно.

Если вы потрудитесь заглянуть в толковый словарь, а не в орфографический, то узнаете, что слово «кодировщик» означает вовсе не архитектуру нейросети, а слова «автокодировщик» там тоже нет.
Как и 90% терминов из deep learning.

А ещё вы, видимо, невнимательно читаете мои сообщения. Я вам в явном виде выше писал, что слово «энкодер» есть в русских словарях. Другое дело, что оно там тоже значит далеко не нейросетевую архитектуру.
Одно и то же слово в русском языке может иметь разные значения в зависимости от контекста. Как и в английском. Так что апеллирование к тому, что для «кодировщика» не успели добавить значение «архитектура нейросети», это лукавство. Делов-то, добавить ещё одно значение в словарь. Оригинал-то encoder остался тем же.

В общем, мне кажется, наш спор себя исчерпал. Оба остались при своём мнении.
Так что апеллирование к тому, что для «кодировщика» не успели добавить значение «архитектура нейросети», это лукавство.

Какое лукавство? Вы говорите посмотреть слово в словаре, но другой вариант в словаре тоже есть.
И они оба имеют в словаре не тот смысл, про который мы спорим.
Вы не привели ни одного, просто ни одного аргумента, показывающего, что писать «автоэнкодер» неправильно, ведь буквально все валидные аргументы применимы к обоим вариантам одинаково.
Вики не является достоверным источником

Все более-менее причастные к теме, знают что такое энкодер.
Но вот "кодировщик" заставляет глаз останавливаться, а мозг скрипеть Кодировщик чего? Кодировщик во что?
Может не стоит придумывать новые слова при переводе? Вы не Тесла, а перевод не открытие нового явления.

Оффтопик, но не мог пройти мимо.


Если в чём-то содержится файл creditcard.csv, то это такой жирный флаг на фрод, что можно дальше не продолжать.

Собрались борцы за русский язык, а где же те кому интересно машинное обучение? :)
У меня был опыт работы с реальными транзакциями, могу сразу сказать что PCA использовать в реальной жизни — ни о чем. Большая часть фичей нелинейна. Кроме того наиболее важное как раз во временных фичах (а их использование в данном датасете так и не раскрыто нормально), хотя бы потому что мошеннику важно сразу вывести максимум денег, т.е. до последней транзакции одного счета суммы совсем другие. Если взлом массовый то на прямой времени в датасете должны увидеть скопления фродовых, нужна хотя бы визуализация, EDA, а этого нет в статье, печально.
Кроме того там при поиске аномалий есть еще отмывание, и вполне можно ложны срабатываний наловить именно на них. Сложэно разделить AML/Antifraud, хоят конечно фрод опасней с точки зрения рисков для банка.
Насчет используемых методов. Классификатор на несбалансированном датасете — плохо работает. Антоэнкодер (да да, я за такое название) — фигня, легко переобучается, как и любая нейросеть, требует много ресурсов, с учетом того что там уже PCA, т.е. метод снижения размерности — не нужно еще снижать размерность, разве что попробовать автоэнкодер с увеличенным скрытым слоем (да да есть такие), но не верю что поможет, ибо дано PCA
Остаются деревья изоляционные — они на самом деле неплохо заходят. Работает метод быстро. Можно еще посмотреть библиотеку PYOD, там много более свежих методов. Только стохастические и porximity based не пробуйте — ужастно долго и не для продакшена.

Модные технологии, красивые слова, большие организации, солидные зарплаты… И вот во что все это выливается:


Брат отправил брату 1500₽ с карты на карту. Не нужно сочинять, они не террористы никакие, и ничего не отмывают. Просто у одного закончились деньги и второй ему одолжил.


Закончилось тем, что банк, применяющий самые модные технологии, закрыл аккаунты обоим братьям. Сам перевод, само собой заблочил с формулировкой "непонятна экономическая целесообразность".


А так ли нам нужны такие технологии? Кроме проблем оьычным людям они ничего не приносят…

Sign up to leave a comment.