Комментарии 432
Можно перед сдачей диплома устроится в «Антиплагиат», на должность позволяющую вносить изменения в код, несколькими итерациями с применением соц. инженерии протолкнуть нужный тебе if/else на прод, затем замести следы.
Думаю, проще и полезнее написать работу самому, чем пытаться пройти подобный квест :)
Вот знаете, писать самому — не помогает от слова совсем. У меня жена сейчас как раз получает второе высшее (юридическое) и писала диссертацию. Писала полностью сама, опираясь только за законы и нормативные акты. Провела очень серьёзное исследование, потратила кучу времени. Так вот этот ваш антиплагиат поставил ей уникальность 20%, а степень заимствования — что-то около 40%. При этом среди источников заимствования, помимо обычного шлака, указал конституцию Казахстана и проект указа президента Казахстана. Диссертация — по российскому законодательству, и разумеется там даже рядом нет ничего, относящегося к Казахстану. Самое смешное, что указываются, как заимствованные, такие слова и фразы, как «объект авторского права», «Глава 4», «закон». Вот именно так, отдельное слово. Всё предложение отмечено белым, и только слово «закон» в середине — красным. Странно ещё, что отдельные буквы не помечаете, как заимствованные.

Жена спрашивает у научрука — и что с этим делать. Тот отвечает — сами мучаемся, не знаем, что делать. Попробуйте как-нибудь переформулировать. Пришлось жене резать по живому текст, который сама писала, выверяла каждую формулировку. А дальше ещё смешнее — отправляет новую редакцию на проверку антиплагиатом, а там предложение, которое раньше было полностью белым, внезапно становится красным. Что, за четыре дня, блин, кто-то написал ровно то же самое?

В общем, создаётся полное впечатление, что этот ваш антиплагиат работает примерно с такой же эффективностью, как генератор случайных чисел.
Вот знаете, писать самому — не помогает от слова совсем.
Самое смешное, что указываются, как заимствованные, такие слова и фразы, как «объект авторского права», «Глава 4», «закон». Вот именно так, отдельное слово.
Наглядный пример того что любую идею можно довести до абсурда.
Человек с самого рождения «заимствует» слова.
Новые слова конечно тоже придумываются, но на все научные работы их не хватает. ((

PS В научной работе оригинальной должна быть идея, а не наборы слов .
Не может быть такого, что выделяются отдельный слова, а слева/справа ничего нет. Прилагайте ссылку на отчёт или хотя бы скриншот.
Вот не самые одиозные примеры, а просто то, что нашлось навскидку (не на всё делались скриншоты):
Скриншоты








И пусть кто-то скажет, что это нормальная работа по поиску заимствований.
Все просто. В данном примере идет пересечение блоков цитирования и заимствований. Если в последнем примере убрать блок 7, то блоки 67 и 33 станут длиннее.
Да мне всё равно, что у вас там пересекается. Вы реально считаете, что это действительно заимствования?

PS. Вы поймите — если вашим инструментом большинство пользуются неправильно, то проблема всё-таки именно в инструменте, в его UX. Хорошим инструментом невозможно пользоваться неправильно, он сам этого не даёт. А говорить «мы сделали хорошо, просто все дураки, вот с ними и разбирайтесь» — это просто отказываться видеть очевидное.
Если АП пометил блок, который объективно не является заимствованием, то этот блок (или источник) необходимо отключить/пометить как цитирование. И по хорошему — это работа проверяющего эксперта.
Странно, а мне казалось, что это задача инструмента, не выделять как заимствование то, что заимствованием не является. Иначе вы свою работу просто перекладываете на неких мифических экспертов, которые должны знать весь корпус работ, с которыми идёт сравнение, и уметь интеллектуально понять, что вот конкретно это не является заимствованием. Хотя, если у нас будут такие эксперты — то зачем нам нужен антиплагиат?
Как часто у вас нормальные письма попадают в спам?
Наверняка, бывало и так, что совершенно безвредные и необходимые для решения ваших задач утилиты и программы определялись антивирусным ПО как вредоносные, так ведь?

Хотя, казалось бы, задача антиспама — находить спам, а не то, что спамом не является. То же и с антивирусным ПО.

Есть задачи, которые решить идеально невозможно. Антиплагиат не выносит вердикт о качестве научной работы, он значительно упрощает работу эксперта.
Знаете, я за последние несколько лет не помню ни одного случая, когда нормальное нужное письмо попало бы в спам (для личной почты пользуюсь gmail-ом, для корпоративной — Outlook-ом). Значит, всё-таки это можно сделать?
У меня вчера нужное письмо попало в спам. Gmail. В письме купленные билеты на концерт. Значит, все-таки, не все так просто.
не помню ни одного случая, когда нормальное нужное письмо попало бы в спам


Вам просто не присылают нужные письма с ссылками внутри.
Например, на документ в Гуглдрайв или в OneDrive.
Таким образом из-за кривого «спам» фильтра люди не работу научную делают, а предложениями вертят, чтобы не попасть в антиплагиат. В итоге за определения, без которых не понятно в каком контексте рассматривать данную работу, повышается этот процент.
Браво, людям это нервы портит и жизни ломает, а отмазка в стиле мы не совершенны (не будем это писать на сайте), вопросы к вашему институту…
Значит для начала.
Любая научная работа, как минимум начиная с 17ого века (а в некоторых отраслях, медицине, например, и раньше) требует анализа опыта предшественников. Приведу 2 личных примера.
Идеей моего диплома является метод реализации алгоритма, предложенного сначала моим научным руководителем и опубликованным как им лично, так и с некоторыми дополнениями вместе со мной и другими аспирантами. Соответственно, в дипломе я обязан описать опубликованный ранее алгоритм, затем описать свою надстройку над ним и провести сравнение. Для всей кафедры и ученых на тематических конференциях очевидно, что моя работа имеет научную ценность и новизну. Однако, мне пришлось посвятить время сравнимое с подготовкой и проведением экспериментов только на то, чтобы играться словами.

Другой пример, я пишу диссертацию. Одна из её глав посвящена дальнейшей модификации одного из алгоритмов адаптивного фильтра Калмана, предложенного моим научным руководителем. Соответственно, там используются в том числе идеи моего руководителя, который в свою очередь взял идеи Калмана-Бьюси и Ляпунова, которые в свою очередь использовали идеи Гамильтона. В вашей системе все мы, включая перечисленных выше великих ученых имели заимствования. Замечу, что известны случаи (ссылок привести не могу, так как не интересовался, но мои преподаватели про них знают), когда огромная новизна работы состояла в 2-5 формулах. Однако, все вышеперечисленные работы — плагиат.

Теперь по самой системе. Моя коллега аспирантка проверяла написанную диссертацию на плагиат. Из-за ошибки проверяющего эта работа попала в вашу систему. Теперь у неё колосальное количество плагиата. Изъять эту работу даже владелец авторских и иных прав не может.

Кстати об авторских правах. Как владелец авторских и иных прав может изъять своё произведение из вашей системы? Я не желаю, чтобы моя работа находилась в ней и предоставлялась для просмотра полностью или частично сторонним лицам на ваших ресурсах.

Из-за данной системы я отказал в публикации моим институтом текста своего диплома и научного доклада при выпуске из аспирантуры. Таким же образом поступили другие. Знания и опыт не были переданы миру из-за страха перед последствиями и вашей системой.

Касательно количества слов при заимстововании. Вот примеры того, что является заимствованием, но не несет ни смысловой нагрузки, ни плагиата (слова изменены дабы ваш антиплагиат не ругался):
Диссертация contains из N главок, окончательного описания работы и list'а заюзанной литературы.
А вот термин на более чем пять слов: множество возможных начальных условий динамической системы
или вот: матрица, являющаяся решением уравнения типа Риккати-Лурье

Конкретные предложения следующие (вы на них не пойдете, вам важны деньги, а не наука или люди):
— выступить с публичным заявлением, перед клиентами, что вы не являетесь системой, которая находит плагиат (вы на деле просто очень сложный ctrl+F);
— обязать лицензионным соглашением привлекать настоящих экспертов (ученых из данной области) для оценки результатов.
— идея для нормального бизнеса: услуга проверки работы с участием нормальных экспертов (см. пункт выше);
— дать возможность авторам или владельцам прав на публикацию изымать свои произведения из вашего индекса;
— сменить название продукта с антиплагиат (вы сами признаете, что не ищете плагиат, но только местечково, а не в рекламе) а более нейтральное. Ваши конкуренты, Exactus, например, не столь громко лгут в своей рекламе;
— дать возможность студентам и аспирантам под корпоративными аккаунатми бесплатно проверять свои работы, а не наживаться на том, что честные люди должны вам отдавать деньги, чтобы модернизировать текст под вас;
— ослабить требования к проценту антиплагиата или изменить алгоритм подсчета процента (учитывать, например тематику работы, чтобы мне, занимающимуся теорией автоматического управления нелинейными системами в пространстве состояний не приписывался плагиат от физиков или ученых, занимающимися передаточными функциями;
— Не включать в заимстовования самоцитирование. Я уже это сказал и опубликовал в том числе в сильных журналах, включенных в ВАК/Scopus или на конференциях, зачем мне играться со словами, если эксперты и коллеги согласились с моими словами и опубликовали эти слова.

Прошу заметить, что предложения касаются как самой проверки, так и функционала вокруг проверки. Даны предложения касательно маркетинговой и юридической составляющих.

Проблема моих предложений, что государственно вас не заставить быть честными в своей риторике. Более того, вам выгодна данная ситуация.

Хочу также заметить, что риторика типа, а мы науку очищаем неверна. Научные публикации проходят этап рецензирования и вот этот этап важен, а не ваша система. В хороший научный журнал (хорошо их хоть не обязали использовать вашу систему) не попадет плагиатная статья, так как рецензент поймет, что нового в ней ничего нет. А выступление на конференции вы вообще не заметите. Вы лишь занимаетесь поимкой ленивых студентов. Проблема в том, что из-за того, что вы допускаете ложноположительные срабатывания, вы тратите людям время и нервы, а подчас вообще решаете машиной их судьбу (да-да нужно, чтобы вуз привлекал человека, а не слепо верил, да да вы тут много раз это написали, но в лицензии не обязали это делать и не выводите в рекламе предупреждение). А человек, который списал диплом, он в науку не пойдет. Его не примут там, да и самому будет неинтересно. В науке бОльшая проблема не плагиат, а проверяемость результатов, с чем вы никак не сможете бороться. Так что последнее конкретное предложение: прекратите прикрываться очищением науки. Это делают без вас, другими методами.

Прошу прокомментировать по каждому пункту, включая предложения и примеры.
В дополнение и в связи с: комментарием дополняю список конкретных предложений:
ввести ответственность компании антиплагиат в лицензионное соглашение. Необходимо отвечать за показания, если вы называете себя экспертом. Не должен добавляться процент при самоцитировании, например.
— выступить с публичным заявлением, перед клиентами, что вы не являетесь системой, которая находит плагиат (вы на деле просто очень сложный ctrl+F);


Антиплагиат помогает находить плагиат. Причём лучше всех существующих на рынке систем.

— обязать лицензионным соглашением привлекать настоящих экспертов (ученых из данной области) для оценки результатов.


Мы делаем продукт, поставляем его вместе с документацией и помогаем с методиками (в т.ч. вебинары/семинары/конференции и пр.). Требовать от клиентов мы ничего не можем. Требовать от вузов могут студенты и государство как их пользователи.

— идея для нормального бизнеса: услуга проверки работы с участием нормальных экспертов (см. пункт выше);

Такая идея была реализована в РГБ. Увы, они были закрыты после «диссергейта» депутатов. А вообще да, идея хорошая. Не могу сказать, почему не была реализована нами или третьей стороной.

— дать возможность авторам или владельцам прав на публикацию изымать свои произведения из вашего индекса;

У них есть права на это. До сих пор никто не обращался. Как только обратится — сразу удалим (после проверки наличия таких прав). Вообще, на многие коллекции нам были переданы права.

— сменить название продукта с антиплагиат (вы сами признаете, что не ищете плагиат, но только местечково, а не в рекламе) а более нейтральное. Ваши конкуренты, Exactus, например, не столь громко лгут в своей рекламе;


Вам не нравится название? Или вы наш конкурент и вам оно нравится? Смотрите ответ на первый вопрос.

— дать возможность студентам и аспирантам под корпоративными аккаунатми бесплатно проверять свои работы, а не наживаться на том, что честные люди должны вам отдавать деньги, чтобы модернизировать текст под вас;


Честный студент/аспирант вообще не должен использовать нашу систему как физическое лицо. Загружать его работу должен либо преподаватель, либо через специальный код. В обоих случаях это происходит для него абсолютно бесплатно. Проверять работу «перед сдачей» на всякий случай не надо.

— ослабить требования к проценту антиплагиата или изменить алгоритм подсчета процента (учитывать, например тематику работы, чтобы мне, занимающимуся теорией автоматического управления нелинейными системами в пространстве состояний не приписывался плагиат от физиков или ученых, занимающимися передаточными функциями;


АП не выставляет эти пороги процентов. Этим занимаются конкретные вузы в качестве своей отсебятины. В будущем мы, надеюсь, вообще уберём эти проценты из отчёта чтобы неповадно было.

— Не включать в заимстовования самоцитирование. Я уже это сказал и опубликовал в том числе в сильных журналах, включенных в ВАК/Scopus или на конференциях, зачем мне играться со словами, если эксперты и коллеги согласились с моими словами и опубликовали эти слова.


Мы работаем над автоматической маркировкой типов совпадений. В т.ч. над самоцитированием. Но в конечном счёте пользователь может изменить тип совпадений на любой другой.
Антиплагиат помогает находить плагиат. Причём лучше всех существующих на рынке систем.

Вы не ищете плагиат, а ищете похожие слова и словосочетания. Ваши алгоритмы не понимают смысл текста и вы не можете говорить о плагиате.
Такая идея была реализована в РГБ. Увы, они были закрыты после «диссергейта» депутатов. А вообще да, идея хорошая. Не могу сказать, почему не была реализована нами или третьей стороной.

А я могу, потому, что вы позиционируете продукт, как эксперта в области антиплагиата, которому не нужны люди
У них есть права на это. До сих пор никто не обращался. Как только обратится — сразу удалим (после проверки наличия таких прав). Вообще, на многие коллекции нам были переданы права.

Будте добры дать контакты куда я могу послать текст своих работ для удаления
Вам не нравится название? Или вы наш конкурент и вам оно нравится? Смотрите ответ на первый вопрос.

Я человек, который вместо научной работы вынужден бороться с вашей системой. И да, я работал и с вашей системой и с системой Exactus. Но именно ваша компания начала эту порочную практику. Почему есть борьба прочтите комментарий выше.
Честный студент/аспирант вообще не должен использовать нашу систему как физическое лицо. Загружать его работу должен либо преподаватель, либо через специальный код. В обоих случаях это происходит для него абсолютно бесплатно. Проверять работу «перед сдачей» на всякий случай не надо.

Проверять обязательно и все преподаватели это всегда говорят своим студентам. Ведь вдруг логичный словесный оборот уже занят кем-то до человека. А это повысит процент. Не надо лукавить. До 30-40% «плагиата» убираются совершенно идиотическим жонглированием слов, от чего теряется стройность изложения.

Мы работаем над автоматической маркировкой типов совпадений. В т.ч. над самоцитированием. Но в конечном счёте пользователь может изменить тип совпадений на любой другой.

«Но пока, неуважаемые люди, терпите»

Прошу ответить и на другие мои слова или они тоже плагиат. Про «плагиат» научного руководителя, про то, как изымать случайно загруженный файл. Про включение ответственности за показания «эксперта». Про приведенные примеры предложений. Про процент плагиата по титульному листу.

А еще вопрос скорее к государству. Почему я, как студент, не могу выбрать какой компанией (антиплагиат/Exactus/etc) проверять мою работу. Ведь иначе это монополия какая-то.
Вы не ищете плагиат, а ищете похожие слова и словосочетания. Ваши алгоритмы не понимают смысл текста и вы не можете говорить о плагиате.


Плагиат продуцирует схожие слова и словосочетания. Плагиат это или нет — Система не решает, а помогает решать пользователю.

А я могу, потому, что вы позиционируете продукт, как эксперта в области антиплагиата, которому не нужны люди


Это ваши домыслы.

Будте добры дать контакты куда я могу послать текст своих работ для удаления


www.antiplagiat.ru/about/contacts, далее в «общие вопросы».

Я человек, который вместо научной работы вынужден бороться с вашей системой.


Сообщите нам название вашего вуза и опишите суть проблемы письмом. Контакты дал выше. Мы попробуем помочь. Злобные комментарии к этой статье вашу проблему не решат.

Проверять обязательно и все преподаватели это всегда говорят своим студентам.


Это сугубо ваш опыт. Я знаю преподавателей, которые считают иначе. Более того, мы рекомендуем этого не делать.

Прошу ответить и на другие мои слова или они тоже плагиат. Про...


Я и мои коллеги в свободной форме постарались ответить на Ваши вопросы и вопросы других комментирующих. Увы, формат комментариев статьи не позволяет адекватно вести дискуссию. Мы, видимо, сформулируем некий FAQ для ответа на наиболее актуальные вопросы (в т.ч. заданные в этих комментариях) и выпустим отдельную статью на эту тему.
Переслал ваш ответ коллеге. А можно все же дать ответ как быть с такими фразами:
Касательно количества слов при заимстововании. Вот примеры того, что является заимствованием, но не несет ни смысловой нагрузки, ни плагиата (слова изменены дабы ваш антиплагиат не ругался):
Диссертация contains из N главок, окончательного описания работы и list'а заюзанной литературы.
А вот термин на более чем пять слов: множество возможных начальных условий динамической системы
или вот: матрица, являющаяся решением уравнения типа Риккати-Лурье
Так вроде уже писали. Через корневого администратора ВУЗа присылаете для включения в модуль общеупотребительных выражений. Пока так.
Получается, что это костыль.
Причем к тому же мне нельзя будет проверять заранее работу на антиплагиат, но я должен буду отыскать некоего администратора и просить его включить фразы в модуль, не зная какие фразы уже есть в нем. Вам не кажется, что тут есть противоречие?
Проверять можно, есть коррекция отчета экспертом. Об этом уже сотню раз здесь написано и даже видео снято и здесь размещено. Поищите.
Есть конечно неудобство, поэтому я написал, что сделаем по другому. Пока так.
По второму разу фразы не добавятся, можно не бояться повторится.
Администратор указан в контактах на сайте АП вашего ВУЗа.
В будущем мы, надеюсь, вообще уберём эти проценты из отчёта чтобы неповадно было.

Вот это действительно важный и нужный шаг. Вам стоит его приоретизировать.


Сам факт наличия этого процента создает соблазн ввести формальный бюрократический критерий. А дальше несовершенство Вашего продукта тратит людям очень много нервов (все-таки, задача более сложная, чем спам фильтры и ложно-положительный процент у Вас достаточно высокий).


Мало в инструкции написать "проверяйте экспертом". Вам надо в рабочий процесс вашего продукта обязательно включить этого самого эксперта. Если бы АП показывал все заимствования и требовал человека выбрать "плагиат/не плагиат", то это бы исключило большинство проблем и полностью перенесло с Вас ответственность.

Хочу прокомментировать вопрос с авторскими правами, безотносительно «Антиплагиата» (я с ним не сталкивался и не знаю, как там у них). Упрощенно говоря, авторское право — право признаваться автором произведения. Оно неотчуждаемо — кто создал, тот и автор, навеки. Другому лицу невозможно это право передать. Но наличие у вас такого права не гарантирует наличия права отозвать своё произведение (этот момент часто вызывает недоумение у людей, не сталкивавшизся со всей этой кухней). Все зависит от того, на каких условиях автор (вы) это разместил.

Например, размещая текст или изображение в Википедии, вы соглашаетесь (об этом пишут на экране на этапе сохранения правки) на его безотзывную публикацию на условиях лицензии CC-BY-SA, которая, в числе прочего, не ограничивает коммерческое использование. Если вы впоследствии передумаете и не захотите, чтобы кто-то мог зарабатывать на сделанной вами фотографии, то будет уже поздно. С точки зрения закона тут все чисто.

То же самое действует и в отношении программного кода — невозможно заслать патчик в ядро Linux, а потом передумать, обнаружив, что ядро используется массой коммерческих компаний и помогает им извлекать прибыль. Но автором соответствующего кусочка кода навсегда будете вы, этого не отнять.
Таким образом из-за кривого «спам» фильтра люди не работу научную делают, а предложениями вертят, чтобы не попасть в антиплагиат
Мне всё-таки кажется, что проблема — не техническая. У меня сейчас жена тоже такое проходит и тоже столкнулась с теми же проблемами (но в Украине). Написать идеальную программу — нереально. Но это ведь лишь инструмент. Проблемы в головах тех, кто не даёт пользоваться этим инструментом правильно. Он должен помогать — вот и пусть помогает. Переформулировать предложения заставляют не программисты.
Конечно конечно, инструмент хороший, просто перегибы на местах. Убивает не автомат, а тот, кто его держит и так далее.
Вот только у автомата есть предохранитель.

Весь мой посыл сводится к тому, что до тех пор, пока смысл текста не будет понятен программе говорить о поиске плагиата нельзя. Только о поиске похожих фраз. Однако, позиционируется система, как «слегка недоработанный» эксперт, таким образом, что вот она выдала процент и он правильный. Если бы она просто показывала то, что по её мнению заимствования без процента, то вопросов бы не было. Программисты молодцы, делают сложный ctrl+F, реально молодцы. Но эти же люди добавили в свой софт расчет процента по каким-то закрытым алгоритмам.

На мой взгляд это похоже на алгоритм автовыстрела при наведении на цель (сильно утрированно) со словами (ну вы не наводите на цель-то).
Кстати, тут не так уж и давно массово предлагали увольняться и не брать программистов из РКН за следование законодательству их работодателя. А вот выставление процента законодательно закреплено, интересно? Думаю нет, так как, например тот же Exactus не говорит о проценте, а дает метрики и кому надо может считать процент.

Ситуация на деле осложняется тем, что каждый год пишется куча текстов. Со временем нельзя будет написать текст без «плагиата». И весь твой многолетний труд в том числе на благо науки (как многие, кто пишет диссертации, хотят верить) может быть выкинут из-за того, что никто не стал вчитываться и просто следовал указанием программы.

Я ни к чему не призываю, мои конкретные предложения не будут переданы руководству. Я ничего не имею против людей, пишущих сложный анализ текстов и поиск. Мне не нравится риторика и то, что заведомо неправильное истользование инструмента несет кучу проблем простым людям и никак не пресекается, хотя меры есть. Мне не нравится, что данная компания в договорах прописывает отсутствие своей ответственности, но при этом позволяет себе делать оценку (процент) значимости и новизны (наличие плагиата=отсутствие новизны) научной работы в автоматическом режиме.
Программисты просто разрабывают продукт, который, увы, не идеален. Очень плохо, что есть люди, которые ждут, что этот продукт будет идеален. Проблема именно в них
Вы передергиваете, да еще и весьма странно. Пример. Вам начислили дополнительные налоги из-за ошибки в программном коде. В налоговой говорят:
Программисты просто разрабывают продукт, который, увы, не идеален. Очень плохо, что есть люди, которые ждут, что этот продукт будет идеален. Проблема именно в вас


Почему вы не видите мой посыл, что проблема не в программистах, а в руководстве и пиарщиках, которые выдают данный софт, как 100% рабочий и говорят, что ему можно доверять важные для судьбы людей решения? Заметьте, что в приведеном примере можно заставить налоговую отказаться от софта и пересчитать вручную. Статей о том, как у кого-то произошли проблемы с налоговой много.
Нет, вы неправильно меня поняли. Проблема не в тех, кто сдаёт дипломы. Проблема в тех, кто их принимает. Ваш пример валиден, в моём «идеальном» мире должно было бы так:

Пример. Вам начислили дополнительные налоги из-за ошибки в программном коде. В налоговой говорят:
Программисты просто разрабывают продукт, который, увы, не идеален. Простите за эту ошибку, мы вам отменим это начисление


В данном случае продукт не идеален. Научрук должен иметь возможность отметить ошибочное заимствование как ошибку и не использовать его в подсчёте процента.

Проблема в бюрократах, которые не позволяют научруку пользоваться этим инструментом правильно.

проблема… в руководстве
Да, именно в нём
А чтобы дали научруку, то нужно, чтобы бюрократы поняли, чем на самом деле является антиплагиат. Но, для этого, данная компания должна сменить риторику. Опять же заявить, что они не ищут плагиат, а ищут похожие куски текста. Признание плагиатом из заимствованием должен проводить науч рук или человек, который работает в данной тематике.
К сожалению, для компании это означает сильно подорвать доверие тех кто платит им деньги и подорвать продажи. Таким образом, можно сделать довольно сильное заявление о том, что важнее деньги, а не правда и наука.
Они — коммерческая компания, что с них взять? А виноваты в тупости всё те же люди, о которых я говорил выше.
Они — коммерческая компания, что с них взять?

А, вот, всякие фарма-фирмы продают гомеопатию. При чем не просто продают, а рекламируют и какие-то утверждения о пользе делают. Если бы не законы, вообще позиционировали как обычные лекарства бы.


Тоже коммерческая компания — что с них взять, да? Отменить все законы о рекламе лекарств и маркировке? Виноваты лохи сами, которые это покупают, да?


Нет. Так и тут. АП рекламирует и позиционирует себя как полуавтоматическое средство определения плагиат/не плагиат. Само наличие единой метрики процента — именно об этом. Но это вообще даже не близко так.
И понятно, почему они это делают — так денежки с бюрократов можно зарабатывать. То, что огромные ресурсы человеко часов и нервов тратятся из-за этого несоответствия заявленной функции и фактического алгоритма — АП игнорирует, формально перенося вину на бюрократов.

Заметьте, что в приведеном примере можно заставить налоговую отказаться от софта и пересчитать вручную. Статей о том, как у кого-то произошли проблемы с налоговой много.

В вашем примере лицо, обиженное налоговой, должно сделать какое то усилие, чтобы опротестовать некорректное начисление.


С АП точно так же. В спорных случаях есть manual override. Проверяющий может убирать с блоков автоматические отметки о заимствовании. Но без обращения от автора работы никто не узнает об ошибке.


Разница только в том, что с АП вы можете "перефразировать" свой текст и добиться бОльшей уникальности, а с налоговой так не получится. Счет заблокирован, иди доказывай что не верблюд.

Я вчера молотком по пальцам заехал, думаете надо предъявить претензию производителю молотка?
если у молотка неудобная ручка, сам молоток плохо закреплен на деревянной ручке, а «рабочая» поверхность молотка неровная и кривая — то да, очень вероятно что нужно предъявить претензии к производителю молотка. К тому же, если вы не сами выбрали молоток в магазине, а вас вынудили купить именно этот.
Если закончить аналогию, то…
Да нет, вроде у молотка все нормально, пользуются такой моделью около 10 млн человек, есть конечно жалобы, но не много, скорее всего у таких же как я раз в год берущих в руки молоток, профессионалы хвалят. Вообще говорят, что стал спасением, до этого сотнями гвозди кулаками в стены вколачивали, и неэффективно и получалось плохо, да и кулаки болели…
Гугл, «эволюция молотка» — развитие на протяжении тысячелетий.
Антиплагиат — да всё у нас нормально, это пользователей надо исправлять, глупые они, не ведитесь.
И вы так и не ответили на вопрос — считаете ли вы такую работу АП корректной?
Формально — все корректно. Но нюансы, естественно, надо учитывать при анализе отчета.
Опять же, даже если таких ситуаций в отчете много (из-за пересечения выглядывает одно слово как заимствование) — это не сильно должно влиять на итоговый процент заимствований.
Я даже не о этих пересечениях — ещё раз повторю, мне абсолютно всё равно, что у вас там с чем пересекается (равно как и проверяющим). Считаете ли вы корректным, что антиплагиат считает заимствованиями фразы из пары-тройки слов, значительная часть которых является либо терминами, либо названиями законов?
image
В Вашем примере, 67 блок в реальности скорее всего имеет такие размеры. Источник 7, скорее всего, какой-нибудь LexPro, который имел примерно ту же формулировку. В итоге система большую часть этого блока пометила как корректное заимствование. «Хвостик» — не общий, поэтому система не может его откинуть или поглотить в блок источника 7. При такой ситуации 1-2-3 слова, помеченные как заимствование — технически корректно, но при анализе отчета этот блок должен быть отключен.
Похоже, вы не понимаете, что я спрашиваю. Вернёмся немного назад: задача Антиплагиата, по крайней мере, если судить из названия и из того, что написано на сайте — находить плагиат. Так вот, считаете ли вы вышеприведённые скриншоты примерами именно корректно найденного плагиата? Не в терминах «блок 67», а в терминах «плагиат это или нет».
Похоже что вы тоже кое-что не понимаете. Мы помогаем бороться с плагиатом, против плагиата, отсюда и название. Но! Мы не утверждаем что тот или иной блок это плагиат. Все что мы говорим это то, что данный текст есть где-то еще. Поэтому ответ на ваш прямой вопрос: Мы не обязаны считать или не считать это плагиатом, это не задача нашего сервиса, это работа ЧЕЛОВЕКА-эксперта который анализирует отчет.

Дисклеймер, который существует на всех печатаемых и выгружаемых формах отчета:
image
По факту получается так, что вы боретесь против всех, кто пишет дипломы, диссертации, другие научные работы. И зарабатываете деньги с помощью административного ресурса. Сейчас ситуация такова, что независимо от того, была ли работа самостоятельно написана, или сворована откуда-то — усилия на борьбу с АП требуются одинаковые. Если это борьба с плагиатом — то где моя тиара Папы Римского?
Все что мы говорим это то, что данный текст есть где-то еще.
Любое слово есть где-то ещё. Вы именно это и говорите.
Поэтому одно слово АП и не интересует — выделяются блоки слов. Кстати нот всего 7, а оригинальных произведения на разную тематику и в разных жанрах, каждый год выпускается, наверное, больше чем научных статей.

Значит, надо подумать на тем, чтобы куски текста, которые с большой долей вероятности не могут быть плагиатом, вообще не помечались, как пересекающиеся с чем-то ещё.

И уже все придумано, есть «Модуль поиска общеупотребительных выражений» в формировании которого участвуют все корпоративные клиенты. Все что добавлено в этот модуль (если конечно не является частью большего блока позаимствованного автором) помечается как цитирование (поскольку сложно приписать автору текста авторство общеупотребительном выражении). Улучшать, да, можно. Но инструментарий есть.

А не лучше ли будет, чтобы подобные вещи вообще не отмечались и не влияли на значение оригинальность текста?

[тип_нормативного_акта] "[название]" от [дата] [номер] — это же вообще шаблонная структура, которую можно сразу детектить и распознавать как единое целое. Или я чего-то не понимаю?

Ну во-первых, 2-3 слова это не заимствование.
Во-вторых, есть области, конкретно юриспруденция или допустим фармокология, где просто запрещено делать «пересказы». Т.е. цитаты из законов или там инструкций к лекарствам должны идти буква-в-букву, и это в принципе не должно помечаться как заимствование.
В Вашем примере, 67 блок в реальности скорее всего имеет такие размеры. Источник 7, скорее всего, какой-нибудь LexPro, который имел примерно ту же формулировку. В итоге система большую часть этого блока пометила как корректное заимствование. «Хвостик» — не общий, поэтому система не может его откинуть или поглотить в блок источника 7. При такой ситуации 1-2-3 слова, помеченные как заимствование — технически корректно, но при анализе отчета этот блок должен быть отключен.
Переведу для «обывателей».
Загнал машину на СТО на регулировку движка.
На следующий день машина глохнет на каждом светофоре.
Приезжаю на СТО разобраться в чем дело.
Мастер:
Мы все отлично отрегулировали, это Вы неправильно ехали.
Мы же настроили для поездок с севера на юг и обратно, а Вы поехали на юго-восток. Вам надо было самому перенастроить подачу топлива по эжекторам в соответствии с картой фаз Луны, тем более что звезда Саад-Аль-Забих сегодня уже в созвездии Скорпиона — а это значит что подачу воздуха в топливную смесь следует увеличить на 3,87%.

PS Если для корректной работы с АП требуется специальная подготовка, то откройте курсы, выдавайте сертификаты. Чтобы проверку проводили «специально обученные люди», которые в итоге отвечают за результат и дают обратную связь.
Вот 1С берет деньги, но и решает вопросы при этом (иногда за конечно дополнительные деньги)
В Вашем примере, 67 блок в реальности скорее всего имеет такие размеры. Источник 7, скорее всего, какой-нибудь LexPro, который имел примерно ту же формулировку. В итоге система большую часть этого блока пометила как корректное заимствование. «Хвостик» — не общий, поэтому система не может его откинуть или поглотить в блок источника 7
Надо подсказать братьям Нургалиевым, пусть тоже возьмут на вооружение.
Получит бухгалтер годовой отчет, а там в «Итого» 53 рубля 48 копеек
И поддержка ей
У вас обороты по дебету 289 млн и по кредиту 253 млн, но программа не смогла «проглотить» поэтому откинула лишнее и показала «хвостик» 53 рубля 48 копеек. Хотите точные цифры — возьмите калькулятор и пересчитайте сами.
Вот скажите, а в таком участке текста есть плагиат?
Исходя из Постановления Правительства РФ от 1 ноября 2013 г. N 980
«Об утверждении Правил разработки примерных программ профессионального обучения водителей транспортных средств соответствующих категорий и подкатегорий» следует что-нибудь.

Как быть ели многие правовые документы имеют длинные названия и требуют точного указания? И при разборе любой правовой ситуации таких документов будет дохрена.

И более того, кажется, что в юриспруденции при разборе и толковании правовой ситуации применяется заведомо ограниченный набор типовых фраз, в которых даже перестановка слов местами может быть чревата.

Ну они пометятся как цитаты, что правда, этот же текст не вы придумали.
Что? Отсылка к нормативному документу по его названию по вашему есть… ЦИТАТА?
А упоминание ФИО автора по вашему тоже цитата?
И за избыточное цитирование названия произведения можно подавать в суд за нарушение авторских прав?
Кстати, использование таких слов, как, цитирую произведения: шинель, недоросль, бедные люди,; так вот, использование этих слов по вашему является «цитатами»?
Ну, тогда вообще практически любое произведение будет на 99,99% неоргинально, ибо большую часть слов придумали задолго до их написания, ага. Зачем анализировать, нейросети крутить? словарь и достаточно указывать процент выдуманных слов и всё…

Мне все таки любопытно, как именно вы предлагаете классифицировать наименования документов, упомянутые в тексте?

Задал схожий вопрос филологу.
Но явно не как «дословную выдержку из текста».
Собственно, по сути вы сами указали: наименование документа/произведения. Которые вроде как сами по себе могут являтяся объектом авторского права на уровне торговых марок. При этом за «цитирование» названия книг про того же Гарри — вроде как не наказывают)

Тогда каким образом отличать слова, которые применены по прямому назначению, от упоминаний каких-то произведений?
Например упомянутую вами "Шинель".

А зачем? Ну и самое простое: кавычками)
Так вот, кстати, филолог-компьютерный лингвист на вопрос является ли название цитатой пока коротко ответила «нет».
Ок, значит в АП введут что-то другое и будут это другое считать, но в оригинальный текст это конечно не добавится, потому как является текстовым заимствованием, хоть и разрешенного типа.
Не является. Отсылка по названию к чужому произведению, закону, документу не может являться заимствованием и тем более плагиатом, раз уж систем называется "антиплагиат".
Как не является заимствованием имена собственные (ага, упомянул Л.Н. Толстого, злостный плагиатор!), названия торговых марок (не упоминая имя Эпл в суе!), названия препаратов (да-да, не дай бог сплагиатишь название ибупрофен в своей медицинской работе!), действующих веществ лекарств (в памбеде сплошные плагиаторы!) и т.д., и т.п. В противном случае эта система делает не то, что обещает. А вводит в прямое и целенаправленное заблуждение.
Потому что с такой логикой, я повторюсь, надо писать количество новых словоформ не содержащихся в вашем словаре, ибо всё остальное — заимствование. Особенно, если не дай бог, это термин, ага.

Ещё раз, ответ филолога лингвиста — название произведения / закона в тексте не является «цитатой», т.е. не является «выдержкой из текста».

Ну либо показывайте распоряжение минобра и РАН, что такие вещи нужно считать как неоригинальный контент.
В АП всего 3 результирующих % (оригинальность, заимствования, цитирования). С этой тройной логикой слава богу научное сообщество практически освоилось за 14 лет. Добавим еще виды заимствований и цитирований (конечно назвав их по другому). Будет, так сказать, задача научному сообществу на следующие 10-15 лет.

Соглашусь, что название произведения в тексте работы — это не совсем цитата, но уж точно не оригинальный текст автора, на который распространяется авторское право. В условиях, что увеличивать количество категорий было нельзя (взорвался бы мозг у проверяющего) из остальных двух результатов выбрали «цитирование».

Мне нравится с вами дискутировать, но комментарии уже давно вышли за рамки данной статьи. Предлагаю дождаться статей по обсуждаемой тематике и продолжить дискуссию.
Я поучаствую, если меня к этому времени совсем не заминусуют студенты «хулиганы-двоишники» )))
Вы опять раз за разом подтверждаете, что раз автор не сам придумал слово, то оно — заимствование.
Человек получает авторские права не на слова в тексте. И не названия упоминаемые там. Он получает право на весь текст в совокупности. И то, что в нём общеизвестные слова — не означает, что они как-то становятся собственностью автора.
Оригинальность — в правильной расстановке этих слов.
И то, что он использует требуемые в этой отрасли знаний слова, словосочетания и названия — не может уменьшать оригинальность работы.
А так же доказывает, что название параметра в АП — неправильное, ибо вводит целенаправлено в заблуждение, как и название системы в рамках обещаний.
Вы раз за разои передергиваете(((
Не слова, а блоки — достаточно большие последовательности слов, которые должны быть уникальны. И у вас заблуждение, что авторские права распространяются только на полный текст.
авторские права распространяются только на полный текст.
Это у вас заблуждение, что авторские права распространяются на любое словосочетание слов в написанном человеком тексте, в противном случае вы в своих комментариях уже нарушили авторские права миллионов людей, написавших их до вас.
Оно должно быть осмысленно и содержать само по себе идею. А уж тем более передергиванием будет ваши слова:
Соглашусь, что название произведения в тексте работы — это не совсем цитата, но уж точно не оригинальный текст автора, на который распространяется авторское право
Потому что с точки зрения логики как раз понятно, что авторские права не распространяются на произвольно вырванное сочетание слов из текста. Но никак не на 5 слов подряд, особенно, когда десять из них название закона, пару предлогов, указание дат и т.п. И целого слова «Закон» перед этим.
Но вы можете показать мне решение суда, которое бы опровергло мои слова, ага.
Пока же вы не указали на каком основании название документа считается «цитатой» и является основание для снижения оценки оригинальности статьи.
Мне ещё раз указать вам на то, что в таком понимании единственным способом написать полностью оригинальную работу — это выдумать новые слова?
Не слова, а блоки — достаточно большие последовательности слов, которые должны быть уникальны.

Что же вы постоянно передергиваете-то…

Но вы можете показать мне решение суда, которое бы опровергло мои слова, ага.


Так вы бы сказали, что у вас нет практики применения закона об авторских и смежных, так сказать. Мы бы давно к этим примерам перешли…
Держите, вот здесь неплохая подборочка, старая, но хорошая, legal.hse.ru/data/2013/05/15/1299780188/%D0%9E%D0%B1%D0%B7%D0%BE%D1%80%20%D1%81%D1%83%D0%B4%D0%B5%D0%B1%D0%BD%D0%BE%D0%B9%20%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B8_15.05.12_IP%20dpt%20HSE.pdf

А вот это мое любимое:
«Освещая волнующие общественность вопросы, компания «Региональные независимые газеты С-З» опубликовала в газете «Мой район» статью под названием «Трагедия на Мичуринском проспекте», состоящую из текста и иллюстраций к нему. Статья была посвящена произошедшему ДТП с участием прокурора. Видимо, материал статьи был настолько интересным, что работник газеты «Известия» гражданин А. данную статью несколько изменил и опубликовал в Известиях, но уже под названием «Пьяный водитель — преступник. Даже если он прокурор». Такое копирование своих материалов не
понравилось компании «Региональные независимые газеты С-З», и ответом на него
явилось обращение последней в суд с требованием о:»
Вообщем вкратце, совпал полностью там один абзац, что для статьи совсем не мало в процентах, может путаю, и суд наказал известия на 100 тыс рублей.

Вообще по признаниям крупных журналов, они судятся постоянно.
Что же вы постоянно передергиваете-то…
ещё раз, это сказал человек, который заявил вот это?
Соглашусь, что название произведения в тексте работы — это не совсем цитата, но уж точно не оригинальный текст автора, на который распространяется авторское право
Ещё раз, из такой позиции — вы либо плагиатчик наглый, либо оригинального контента не существует, кроме как новообразованных слов.
Ещё раз, оригинальность не в словах или названиях, а в том, как их расставить вместе. Вы сейчас необоснованно снижаете оригинальность статей в тех областях, в которых некомпетентны — в филологии и в юриспруденции.
Вообщем вкратце, совпал полностью там один абзац
А не блок от 5 слов из которых 10 — это название закона и дата его принятия? И содержащие, небось, законченную мысль куском?
Ну да, передергиваю здесь я, я так и понял.
Подождите вы хотите сказать, что название произведения в тексте работы — это оригинальный текст автора, на который распространяется авторское право (мысль обратная моей, с которой вы не согласились)

оригинального контента не существует, кроме как новообразованных слов.

Опять о словах, боже (рука-лицо)

А не блок от 5 слов из которых 10 — это название закона и дата его принятия?


Может и такой, сейчас уже не помню, легко же найти мотивировочную часть решения суда, почитайте, если вам интересно.

Вы просили привести пример, я привел. Если не нравится мой, в инете примеров сотни, можете найти, тот который нравится.
Подождите вы хотите сказать, что название произведения в тексте работы — это оригинальный текст автора, на который распространяется авторское право (мысль обратная моей, с которой вы не согласились)
ну да, а подменяю я после этого.
Ок, то есть вы утверждаете, что автор не имеет права рассматривать своё предложение, как защищенное авторским правом, если внутри него будет название торговой марки или название какого-нибудь документа?
вы сейчас серьезно ЭТО утверждаете?
Опять о словах, боже (рука-лицо)
Потому что названия начинаются от одного слова, если что. Но вам, видимо, это не известно.
Как и то, что авторские права получают не за словосочетания, если уж на то пошло.
Может и такой, сейчас уже не помню, легко же найти мотивировочную часть решения суда, почитайте, если вам интересно.
То есть ваш аргумент уровня «это всем известно», но доказывать что это не так, должен — я?
Вы просили привести пример, я привел.
А передергиваю — я?
Напомните, что именно я ПРОСИЛ?
И да, чтоб наконец донести до вас мысль:
«Было бы величайшей ошибкой думать...» В.И.Ленин, Полное собрание сочинений, т.42, с.55

Вы правда утверждаете, что Ленин имеет авторские права на такое словосочетание в кавычках и наличие этих слов в любом тексте является безусловной цитатой Ленина, причём осмысленной?

Ах да, причём прошу заметить, что на самом деле цитатой здесь является все слова и при этом они, в отличие от текста в кавычках, по сути должны защищаться авторскими правами, вот только найти автора уже трудно. Надеюсь, вы поймёте причину, почему именно все слова, а не только 5 в кавычках. И почему не Ленину…
Вашу мысль я давно понял, и с ней не спорю, слова сами по себе не уникальны (я с этим полностью согласен, поэтому АП отдельные слова не интересует) и еще позволю себе еще раз цитату, чтобы донести до вас свою мысль:
Не слова, а блоки — достаточно большие последовательности слов, которые должны быть уникальны.


Правоприменительная практика, когда за заимствованные блоки наказывают рублем, с указанием конкретных решений суда — выше.

Вы конечно, можете сказать, что суд не тупо принимал решение по процентам АП, а исследовал вопрос. Но именно об этом мы и говорим уже 150 коментов, что именно так и должен поступать эксперт. И если у вас его нет в ВУЗе, можете найти его в суде.
От 5 слов звучали заявления в комментах. Я привёл пример с 5 словами а прямо спросил, но вы ушли от ответа, потому что это прямо покажет шаткость вашей позиции.
Сейчас вы подменяете «достаточно большими блоками», однако продолжаете настаивать, что использование названия законов и т.п. должны уменьшать оригинальность, ведь автор их не придумал.
И да, подменяете тем, что отсылаете к общим делам. Где решения принимаются по абзацам и т.п.
А не по злостному копированию слов «законом таким-то от такого-то числа установлено», о чем я вас просил. То есть осуществляете прямую подмену тезиса и уводите от темы название != цитата. После чего обвиняете в передергивании меня.

Извините, но после таких комментариев сотрудников АП я склонен понять агрессивное настроение многих здесь к вам и тому, что компания создает плохой имидж себе.
Отвечено уже 150 раз, но вы видимо не хотите видеть ответы. Отвечу 151, надеюсь последний.

В АП достаточно много алгоритмов, у всех у них разные настройки в том числе и по количеству слов (есть 5, 6, 25 и т.д.).
АП ищет текстовые заимствования (в соответствие с параметрами алгоритмов) и размечает их по 2 категориям (пока по 2, будет больше): «цитата» — то, что легитимно к использованию, название законов сюда входит и «заимствование» — текстовое заимствование, которое не определилось, как «цитата» (для двух категорий, мы попытались найти максимально близкие к реалиям названия). Далее в виде полного отчета текст с разметкой выводится эксперту, который принимает решения по каждому блоку заимстсвования.

Попытался как можно проще рассказать.
Ещё раз, вы выносите кучу хлама и требуете от эксперта проанализировать весь тот мусор, который вы неправомерно записали в заимствования, причём неверно квалифицировав (напомню ответ филолога, что названия не являются «цитатами», во-первых, а во-вторых, что названия законов тоже не могут являться заимствованиями по очевидным причинам).

И оправдываете это тем, что автор не сам придумал эти наборы буковок и пробелов подряд. Это профанация логики и демагогия.

Вы прям наглядная демонстрация той цитаты Ленина…

PS. Но с учетом токсичности программистов данной компании я, видимо, прекращу сюда писать. Потому что общаться с людьми, которые на указания халтуры начинают выкручиваться демагогией и минусами — да нафиг надо.
Но с учетом токсичности программистов

Ну если уж вы начали развешивать ярлыки, я пожалуй не буду отвечать на вашу демагогию.

Так в том и проблема, что текст, состоящий из таких шаблонных фраз просто не пройдёт формальную проверку: процент уникальности контента будет низким.

Не согласны с тем, что шаблонные фразы будут классифицированы как цитирование, что они не будут засчитаны как неуникальный контент или что нельзя добиться высокой уникальности текста с большим количеством шаблонных фраз?

Не согласен с тем, что шаблонные фразы вообще хоть как-то учитываются при вычислении метрики. Система должна их определять и исключать из знаменателя, как если бы их не было написано вообще.

… И из числителя естественно, иначе процент будет больше 100%
Определяет, был ответ про общеупотребительные выражения, поищите.
Нет вы не то нашли, вам надо про модуль «Общеупотребительных выражений», он наполняемый и каждый ВУЗ его наполняет так как считает нужным (к совсем общим фразам), ВУЗ данной работы видит наполнение модуля так.

Но у нас в планах все-таки добавлять фразы статистически. Как-нибудь сделаем. Пока наполняют ВУЗы.

Просто это ПО делает не то что от него ожидает заказчик (про ТЗ не знаю не видел) либо заказчик был того же уровня что исполнители надписей преподающих в топ новостей как "опечатки" и "ошибки".
Более того сама система требует уникальности там где её уже "днём с огнём" не найти, когда в год нужно получить n дипломов а все более менее адекватнвюые темы давно закончились.

Подтверждаю вашу ситуацию, я в 2018 защищал диплом по теме, связанной с компьютерными сетями, полностью написанный мной лично. И столкнулся с тем, что некоторые устойчивые фразы воспринимаются как плагиат.
Проверка считала плагиатом такие вещи, как:
описание модели OSI во вступлении, описание поднятой проблематики, даже некоторые устойчивые фразы: «сети с коммутацией пакетов» / «оборудование уровня агрегации», фразы из экономической части диплома (не удивительно, ведь большая часть этих глав пишутся по методичке из года в год почти одинаково, только со сменой цен и вывода, более того, методичка обязывает использовать тот порядок расчетов и формулы, которые в ней описаны).
В итоге мне пришлось корпеть над переписыванием и перефразированием, используя платные проверки, чтобы довести до хорошего процента, и это при самостоятельно написанном дипломе.
И здесь все уже придумано. Есть индекс одобренных документов, который нормальный ВУЗ наполняет методичками и это все указывается как цитирования в работе. Но правда в 2018 году этого еще не было. АП не стоит на месте — развивается.

Если работа написана самостоятельно без цитирования, то зачем греть планету увеличивая бюрократию?

Я не защищаю АП, но конкретно на ваш вопрос есть достаточно простой ответ: потому что в общем случае без этой бюрократии нет возможности убедиться в оригинальности работы. Другое дело в качестве этой бюрократии и в скорости ее доработки. Шаблоны из методичек (причем обязательные) существуют на порядок дольше чем АП, но соизволили их заметить только в этом году?

В общем случае нет возможности убедиться в оригинальности работы даже при использовании АП. Как проверить, что человек написал сам, а не купил?

Никак. Просто затраты на написание с нуля выше, чем на компиляцию копипаста.


Может быть ситуация выродится в то, что науку будут двигать не учащиеся, а организации, которые сейчас пишут дипломы на заказ.

Кстати вполне возможно. Есть же сейчас сео-компании, предлагающие наполнение сайта уникальным контентом, который проходит "проверку" поисковиков.

Да, очень нехорошая ситуация с антиплагиатом в областях, в которых недопустимы вольности в формулировках и/или достаточно ограничено разнообразие достоверного материала/используемых терминов и определений. Именно до абсурда.

Но проверять идею вместо слов-это же надо лично читать хотя бы по диагонали, что нафиг никому не сдалось =(
Приходите, креативным всегда рады. Думаю, вам понравится и вы останетесь.
Нужно еще постараться, чтобы к нам попасть ;) Так запросто может и не получиться.

Это из серии "хакнуть препода по информационной безопасности и спереть ответы"?

Зачем этот диплом нужен если уже имеются знания, позволяющие работать, да еще и не джуниором?

Разве не проще самому написать дипломную работу, чем пытаться выдать чужую за свою?


А если серьёзно, как часто дипломные работы оказываются плагиатом и какая зависимость от области знаний, к которой относится работа?

К сожалению, не всегда проще. Пример: на некоторых специальностях диплом должен содержать цитаты из литературы. Соответственно, автор их добавляет. Затем "девочка" проверяет диплом Антиплагиатом, разумеется, находит цитирования. Возмущается, что найден "плагиат". Попытки оправдать тем, что это законное цитирование в рамках нормы, и каждой цитате проставлена совершенно корректная ссылка в списке литературы, соответствующая Антиплагиату, понимания не находит. Разумеется, результаты проверки оглашаются чуть ли не накануне защиты, когда сколь-либо вменяемо отредактировать текст времени уже не остаётся. В результате получается абсолютно идиотская ситуация, в которой в выигрыше остаётся только Антиплагиат, которому независимо от всего приходят деньги.


Другая ситуация: в технических дипломах пояснительная записка сопровождает расчётную часть и отсебятины не должна содержать по определению. Если сверху поступит указание проверять и такие работы, то поголовно пойдёт дублирование, просто потому что расчётная часть по большей части только цифрами и будет отличаться.

Во-первых, мы (в Антиплагиате) двигаем алгоритмы в сторону автоматического определения корректности цитирований вплоть до построения сетей цитирования. Но этот процесс не быстрый из-за… см ниже.

Во-вторых, не будь «девочки», будет «мальчик», а проблема останется. Отчёт о проверке должен просматривать компетентный человек. Для устранения этой проблемы мы постоянно проводим бесплатные вебинары для преподавателей и вузовских работников. Увы, человеческий фактор здесь намного важнее всяких изощрённых алгоритмов.
По поводу второго вопроса: в этом поле у вас еще очень много работы:
Заголовок спойлера


Текущие положения закрепляют функцию «девочек» на проверке и задают жесткие границы оригинальности в процентах на различные типы работ.
Хоть к каким-либо экспертам отчет попадает только в виде распечатки.

Я как-то пытался выяснить почему такие формулировки закреплены в положении, давал ссылки на документацию компании Антиплагиат, рассказывал о корректном заимствовании, но потерпел неудачу. Говорят что некий эксперт по аккредитации сказал, что надо в положении закрепить проценты. Для всех остальных такого рода «проверка» вполне нормальное явление.
Дайте, пожалуйста, источник. Передам его в методический отдел.
Текущие положения закрепляют функцию «девочек» на проверке и задают жесткие границы оригинальности в процентах на различные типы работ.
С нарастанием объема базы научных работ скоро закончатся «оригинальные сочетания слов» и все работы станут плагиатом на 99,99%.
Единственным реальным вариантом сдачи работы останется выполнение её, например, на суахили.

PS Инженеры Intel плагиатят уже много лет.
Если прогнать их изыскания через Антиплагиат, то везде будут сочетания слов — кремний, подложка, транзистор, нанометр, n-канал, p-канал. Из оригинального текста будут только «художественные» названия ядра процессора.

Я не эксперт, но разве антиплагиат это какая-то юридическая норма для подачи диплома? А если я диплом соберу по кускам из своих же к примеру работ? Интересно вообшем, могу ли я подать к примеру в суд на вуз или какие ещё меры есть? Но так как суды не работают, чувствую что все просто тихо ненавидят систему. Дай человеку число и он будет ему поклоняться, будь то индекс Хирша или процент уникальности. Отвратительно на самом деле, главное не доползти на уровень выше, а то Китай уже открыл филиал психопаспорта. Хз по моим личным впечатлениям, лучшие спецы в айти токсичные антисоциальные ребята. Вообще надоел маразм, интересно хватило бы у Гугла денег купить страну?

Антиплагиат — это инструмент для поиска текстовых заимствований, лучший из имеющихся на данный момент, но все-таки инструмент. Значительно умнее чем тюбик с типографской краской, валик и стеклышко для снятия отпечатков пальцев, но все-таки инструмент. Как и в случае совпадения отпечатков пальцев, совпадение текстовых фрагментов — это факт, делать выводы из него должен человек, наделенный полномочиями, в первом случае следователь, во втором случае преподаватель.
Но выходит, что в сущности это абсолют, почитайте трейды свеху-снизу. Я спрашиваю, конкретно, есть ли способ правового воздействия, если твою работу отсекают. У человека жена переделывала работу с использованием цитаты из правовых источников.
Я рад что вы верите в проверяюшего, как в компетентного специалиста, я же склонен считать, что проверяющий как правило не будет разбираться, так как есть указание свыше, вот к примеру, есть некоторая работа для которой антиплагиет выдает уникальность 30%, очень круто, что решение должен принимать человек, но че делать, если решение тебя не устроило не понятно.
Вообше не понятно, что есть никальность. Есть к примеру некоторый алгоритм написать который возможно бесконечным колличеством способов, однако, если он известен, выходит, что это просто некоторая реализация, а если не известен, он может быть разложен на известные паттерны.
www.youtube.com/watch?v=8IIA2HjiH8w
Евгений Онегин, вообше полностью состоит из плагиата, но признается самостоятельным произведением, что дальше то… признаем, что это плагиат и выкенем из учебников? Был бы интересный прецидент.
В дипломной работе важна не уникальность текста, а некоторая относительная уникальность идеи, полет мысли так сказать. Защита диплома — она на то и защита, что бы защитить состоятельность своей работы, если ты смог по кускам собрать из других работ, по твоему мнению, что то новое и смог обосновать причину по которой ты считаешь, что можешь это представлять, ты должен иметь право это сделать, вот и все. Ну вообшем случае я даже рад, еше один гвоздь в крышку гроба традиционного образования.
Требование к объему тоже крайне обсурдны habr.com/ru/post/468645.
Я спрашиваю, конкретно, есть ли способ правового воздействия, если твою работу отсекают.
Для этого лучше обратиться с подробностями к юристу.
С одной стороны, в отсечении по причине «это плагиат» можно разглядеть то ли клевету, то ли ущерб деловой репутации, то ли недополученную прибыль, то ли еще что-то из подобного.
С другой же стороны, для подачи в суд нужно качественно определить ответчика, а на «инструмент» или «девочку» в суд особо не подашь — у первого отмазприписка внизу отчета, у второй должностная инструкция, которую не она писала, а писавший может сослаться на «мы не заставляли вас нести ваш текст в наш монастырь с нашим уставом» или переадресовать претензию выше вплоть до министерских указов.
В общем, лучше спросить у специалиста, которому предоставить все доступные детали.
Все-таки верну к отпечаткам пальцев, если бы по совпадению отпечатков пальцев на местах преступлений следователем автоматически выносилось бы решение о виновности, то во-первых сидело бы напорядок больше, а во-вторых по несколько человек за одно и то же преступление. Этого не происходит даже в условиях российских следственных органов. Т.е. мифические эксперты все-таки существуют. Следователей, насколько я помню на 2 порядка меньше, чем профессорско-преподавательского состава, а количество правонарушений сравнимо с количеством защит от диплома и выше, что подкрепляет уверенность в немифичности эксперта. И как показывает практика, нормальные эксперты, присутствуют и в хороших вузах и в хороших диссоветах. Что делать если вам не повезло? Отстаивать свои права. Есть колоссальное количество примеров защит диссертаций, которые, как и положено по требованиям ВАК, на большую часть состоят из заимствований из своих статей, изначально отклоненных именно по этой причине.
Во-вторых, не будь «девочки», будет «мальчик», а проблема останется. Отчёт о проверке должен просматривать компетентный человек. Для устранения этой проблемы мы постоянно проводим бесплатные вебинары для преподавателей и вузовских работников. Увы, человеческий фактор здесь намного важнее всяких изощрённых алгоритмов.
По сути, вместе с ЭГЕ, антиплагиат — это инструмент для добивания отечественной науки.
Но в отличие от ЭГЕ он делает «Double Kill» — бъет по и преподавателям, и по студентам.
Чиновникам от науки АП (антиплагиат) очень нравится тем что есть возможность нарисовать показатели — «указать цели» и отчитываться по результатам.
На местах это приводит к «обязаловке» в том или ином виде. Ведь гораздо проще посадить мальчика-деффачку прогонять через АП работы чем читать все самому.
В итоге студенты в основном заняты не столько «научкой» сколько преодолением АП.

Если бы не было АП.
Любой преподаватель в ВУЗе должен быть в курсе новинок в своей дисциплине, логично? Если студент тащит что-то стыренное, то «доцент», по идее, должен быть уже в курсе. Но для этого «доцент» тоже должен «расти над собой», а не «отсиживать часы». Если студент «стырил» что-то совсем новое, даже «доцент» не знает, значит студент провел изыскательские работы — он молодец. Соответственно второй раз эта «стыренная» работа уже не прокатит — выиграл только первый и единственный студент.
Без АП преподаватель следит за «новинками» и благодаря этому держит студиосов в «тонусе». Студенты в свою очередь работают над идеями, а не над словарем синонимов.

АП, вкупе с министерскими указаниями, дает возможность преподавательскому составу забить на самообразование ( Вы часто ходите пешком по лестнице при наличии лифта?) и заставляет студентов заниматься фигней вместо научной работы.

PS Возьмем уровень чуть повыше — кандидатская, докторская и тд.
Если «ученый совет» без АП не в состоянии заметить плагиат, то какая цена этого «совета» и насколько он «ученый»?
Собрались, например, в городе «М» светила кардиологии на защиту докторской по новому методу аорто-коронарного шунтирования, и ни один из них не в курсе что в городе «Н» по этой методике уже второй год проводятся операции? Смешно?
АП — идеальный инструмент для бездарностей.

PPS Работа Коперника тоже вряд ли бы прошла АП — ведь там используются те же самые слова («Солнце», «Земля», «вертится», «вокруг» ) что и в предыдущей модели мира. ))
А зачем гадать, что было бы без АП, ведь было время когда интернет уже был, а АП не было. Достаточно в него вернуться. 2004 год, по экспертному мнению 90% всех дипломов в стране делались скачиванием из инета и с заменой титульного листа сдавались. По вузам конечно % разный был, где-то 100%, где-то 0%.
А еще диссертаций защищалось под 30 тыс (это с учетом, что это время missmidle — количество людей занимающихся наукой без степеней было минимальным), сейчас в районе 10 тыс. Т.е. без АП порядка ~20 тыс фейковых диссертаций в год. 20 тыс фейковых кандидатов — это 2 дивизии, полностью укомплектованных. А если взять за пять лет (с 2000 года по 2005, год появления АП)- это общевойсковая армия фейковых кандидатов и докторов, которая не щадит сил своих на уничтожение российской науки. Да не только науки, фальшивые доктора от медицины активно и в прямом смысле уничтожают людей.
И да, работа Коперника прошла бы АП, как проходит АП нефейковые дипломы и кандидатские.
Я успел попреподавать в ПТУ и ВУЗе. «Ворованные» из интернета дипломы очень легко распознать. Пару наводящих вопросов димломнику — и становится понятно, сам он это делал, или стащил готовое.
Аналогично с диссертациями. Есть экспертный совет, функционал которого — проверить, насколько диссер оригинальный. Можно потратить пару дней и, выборочно пробежавшись по ссылкам на литературу, сравнить содержимое цитируемых вещей с текстом.
Но никто ж не хочет свои функции выполнять, хотят все нахаляву!

Кстати, с диссерами есть еще другой вариант: когда человек оплачивает другому человеку написание работы и сопутствующих публикаций. В итоге получается оригинальная работа с настоящими статьями. Заказчик успешно ее «защищает», а исполнитель получает свои 300..1000 тысяч рублей. Все рады. И антиплагиат в этом случае вообще никак не поможет.
как проходит АП нефейковые дипломы и кандидатские.
Ну не проходят полностью самописные работы проверку АП, не проходят! Выше я уже описывал такой пример.
Как так не проходят? Блоки есть? Сообщений об ошибках нет? Значит проверка то прошла!
Дальше человек стоит и его вот не проходит. Так, стоп! Разумный человек наверное все поймет? Значит дальше биоробот. Извините, это уже не наша разработка, обращайтесь в другую компанию которая выпустила этих биороботов.

А чтото поменялось, да теперь дипломы содержат более широкий набор символов нежели win1251 и что? Ах да ещё кто-то получает деньги за отлов и продажу системы государству а кто-то за обход… :)

Любой преподаватель в ВУЗе должен быть в курсе новинок в своей дисциплине, логично? Если студент тащит что-то стыренное, то «доцент», по идее, должен быть уже в курсе. Но для этого «доцент» тоже должен «расти над собой», а не «отсиживать часы». Если студент «стырил» что-то совсем новое, даже «доцент» не знает, значит студент провел изыскательские работы — он молодец. Соответственно второй раз эта «стыренная» работа уже не прокатит — выиграл только первый и единственный студент.
Вот тут позвольте очень сильно не согласиться.
1 — Невозможно быть в курсе всех новинок в своей дисциплине, за ключевыми бы успевать следить, и то хорошо.
2 — Каких-то особых новинок, интересных за пределами родной кафедры, и в докторских-то не всегда можно найти, а вы их в дипломах собрались искать.
3 — Студентов больше одного. И тем больше одной. И вузов больше одного. Как вы узнаете во время защиты диплома, что этот же самый текст сейчас защищается ещё в 10 ВУЗах по встране?
Вот тут позвольте очень сильно не согласиться.
Не позволю )) Немедленно соглашайтесь!!!
1 — Невозможно быть в курсе всех новинок в своей дисциплине, за ключевыми бы успевать следить, и то хорошо.
Как бы научрук давая задание на диплом (курсач), должен все-таки быть в теме, а не командовать «напиши — то, не знаю чего». Согласитесь все-таки было бы как-то неординарно от препода по микроэлектронике получить на курсовую работу тему «Удаление аппендицита в полевых условиях»?
2 — Каких-то особых новинок, интересных за пределами родной кафедры, и в докторских-то не всегда можно найти, а вы их в дипломах собрались искать.
Вопрос в том что антиплагиат заставляет находить «новинки» там где их в принципе быть не может. По «мнению» АП курсач-диплом чистый от «допинга» если он почти 100% «оригинальный», то есть каждый студент-научный сотрудник должен заново «сотворить мир», причем иной мир. Что при этом творится в головах чиновников, если наш министр образования заявляет что все зло в высшей математике?
3 — Студентов больше одного. И тем больше одной. И вузов больше одного. Как вы узнаете во время защиты диплома, что этот же самый текст сейчас защищается ещё в 10 ВУЗах по встране?
Пока диплом-научка не защищены — их нет в базах, так что в любом случае мимо.
Наскока я помню темы придумываются не от фонаря, а раздаются по указиловке или согласуются в «верхах». То есть вероятность двух одинаковых тем ну очень мала, а то что 2 человека, получив одну тему, напишут одинаковые работы еще меньше.

PS Что такое цивилизация? Это память (знания) предыдущих поколений.
Концепция АП:
«хорошая научная» работа не должна (использовать ) опираться на знания предыдущих поколений
Как бы научрук давая задание на диплом (курсач), должен все-таки быть в теме
Тут всё определяется порогом «быть в теме». Занть про новый метод упаковки транзисторов на кристале — одно дело. Знать про «новый» метод стабилизации уровня легирования, который имеет применимость ровно на одной производственной линии в мире и обновляется 5 раз в год — такое себе.
Вопрос в том что антиплагиат заставляет находить «новинки» там где их в принципе быть не может.
Это проблема неправильно использования инструмента. Проблема плагиата есть, её необходимо решать. Перекладывать её на доцентов странно, т.к. именно физическая невозможность её решить силами одного человека — и есть причина появления антиплагиата.
Пока диплом-научка не защищены — их нет в базах, так что в любом случае мимо.
Ну ладно, если вам нравится придираться к словам, как вы, принимая диплом в Питере, узнаете, что ровно такой-же год назад защищали в Красноярске? Напомню, при условии, что диплом — это тренировочная задача начинающего специалиста, и в 99,9% случаев около нулевую ценность даже на своей кафедре.
Тут всё определяется порогом «быть в теме». Знать про новый метод упаковки транзисторов на кристалле — одно дело. Знать про «новый» метод стабилизации уровня легирования, который имеет применимость ровно на одной производственной линии в мире и обновляется 5 раз в год — такое себе.
Значит студент получает задание на неведомую фигню «метод стабилизации уровня легирования», пишет (тырит что-то в инете) про это. Откуда в принципе возьмется «новизна», это же не его разработка?
Пересказ от первого лица «своими словами»?
Типа как пересказать SQL-запрос «словами» из 1С
ВЫБРАТЬ
Товары.Наименование
ИЗ
Справочник.Номенклатура КАК Товары
ГДЕ
Товары.Ссылка В
(ВЫБРАТЬ
РасходнаяНакладнаяСостав.Номенклатура
ИЗ
Документ.РасходнаяНакладная.Состав КАК РасходнаяНакладнаяСостав
ГДЕ
РасходнаяНакладнаяСостав.Номенклатура = Товары.Ссылка)

Это проблема неправильно использования инструмента. Проблема плагиата есть, её необходимо решать. Перекладывать её на доцентов странно, т.к. именно физическая невозможность её решить силами одного человека — и есть причина появления антиплагиата.
Но проблема в том что АП узаконен и установлены целевые показатели. Теперь доцент в принципе не несет ответственности — «Вон умная машина сказала — 66%, а у нас план не меньше 75%. На пересдачу.»
Ну ладно, если вам нравится придираться к словам, как вы, принимая диплом в Питере, узнаете, что ровно такой-же год назад защищали в Красноярске?
Для этого и придумали защиту диплома. Обсуждая работу вполне можно понять уровень погружения дипломника в тему.
Предположим я и Вы написали дипломы на тему «Разработка узкополосного фильтра на ПАВ» с интервалом в один год. Вряд ли в наших дипломах будут какие-то кардинальные различия в технологиях и расчетах. Обе наши работы будут одинаково «плагиатиться» на ГОСТ-ы, ТУ, справочники материалов, методики расчетов. И практически оба диплома будут близнецами, за исключением диапазона частот, температур ну и может быть еще корпусов.
Так, давайте не будем съезжать с темы. Всё началось с то, что надо антиплагиат полностью отменить, а доцент должен знать по своей теме всё.

Но оно так уже работало. Вернее не работало. В Иркутске фабрика по штампованию дипломов была прямо напротив местного политеха, и с этим ничего не могли поделать, их штамповка ничем не отличалась от «честных» работ, потому что это и были точно такие же «честные» работы, уже защищённые где-то ещё.
Дипломов защищается по миллиону в год. По каждой отдельной теме — тысячи в год. И почти всё это — одноразовый информационный мусор, о существовании которого все забудут через месяц. Где взять тех сверх-людей, которые будут во всём этом разбираться, при том ещё и выполняя параллельно какую-то полезную работу?

Да, я с вами согласен, тепершнее положение тоже не сахар, но его надо улучшать, а не откатываться к временам, когда было ещё хуже.
Т.е. корпус текстов пухнет с каждым годом на миллионы единиц, а про коллизии думать — лишнее? То, как оно не работает сейчас, уже, видимо, хуже того, как оно не работало раньше. Потому что ложноположительная защита по одноразовой работе, право, меньшее зло в сравнении с ложноотрицательным отлупом тех, кто работал самостоятельно.
Собственно, цель защиты — в том числе и выяснение степени самостоятельности в подготовке работы через владение темой. А у нас практика защиты как формальной прелюдии к банкету никогда и не пропадала.
Всё это конечно замечательно, но как полная отмена проверки на плагиат исправит проблему? Да, она устранит проблемы в процедуре (нет процедуры — нет проблем), но как решать изначальную проблему, для решения которой процедура появилась?
Нужно исходить из того, что масс-маркет (вузовские дипломы) не предполагает глубокой уникальности в принципе. И — соответственно — проверять владение материалом на защите. Если кто и позаимствовал чего на стороне, но не плавает в вопросе, то квалификации по избранной специальности достоин.
А так получается, что молятся на АП, потому что с ним можно посредственную квалификацию приемной комисии задрапировать.
Стоп-стоп-стоп. Самой важной квалификацией приобретаемой в ВУЗе (вообще она должна быть до ВУЗа, но в ВУЗе должна быть развита) — это умение самостоятельно написать работу (пусть не научную, пусть инженерную), должным образом сформировав свои мысли (может быть не точная цитата, но как-то так это формулировалась). Если ВУЗ этой компетенции не дает, нет смысла называть это учебное заведение «Высшим», есть ПТУ, есть техникумы, где результатом обучение является овладение профессией. Поэтому если в выпускной квалификационной работе 100% копи-паст, то выпускник не показал освоение основной квалификации и диплома не достоин. При этом мысли могут быть не 100% оригинальные — это понятно.
Ну вот не дал мне Бог умения складно излагать свои мысли… Зато дал отличное абстрактное мышление благодаря которому. я Еще в 7 классе любую теорему по геометрии мог за 10 мин доказать без подготовки. И оригинальное решение запрограммировать от которого приходили восторг не только учителя, мне не составляло проблем.
И потом большинство задач по физике в школе и уверение мне давались легко. Затем стал соавтором одной из теорий в «физике взаимодействия элементарных частиц» с публикацией в зарубежных журналах. Вот только на большинство публикаций пришлось нанимать хорошего копирайтера.
По вашему я не достоин двух своих дипломов по физике и Информационным технологиям?
Судя по описанию, вы себя не дооцениваете, либо сознательно передергиваете.
Ниже пример неумения излагать свои мысли, к нему близки защитники заимствованных дипломов, некоторые переплевывают:
«Те, кто за-затевают эту русофобию, русофобию затевают, вот это вот, вот это затевают все вот это. Это в я, в эти людям я и адресовываю: „Доиграетесь. Вот с этой русофобией, котор-которую Вы затеваете“. Я не говорю, не адресую это конкретно м-м, конкретно, или более того, я благодарен польскому народу за-запа-запа, за поддержку. Я только что сейчас об этом сказал. Слушайте, давайте меня не провоцируйте. Я эта вот… на эти вопросы. Сами, сами ответите. Сами ответьте на этот вопрос. А куда, чем это может кончиться. Это вся, это вся продолжающаяся вот эта истерия, которая, знаете иногда, э, трусоватый человек. Который трусоватый, знаешь, или крыса, которая загнана в угол, загнана, она может кинуться, кинуться укусить, а трус может иногда с перепугу выстрелить. Понимаете, я вот это имею в виду. Вот эта вот, эта вот истерия, она сама, мракобесие, она может их заставить нажать на курок. Что потом будет это только, вэ-да, я думаю не надо никому объяснять. Я это имею в виду». Не мое, автор чувствуется, называть не буду.
Думаю, что если вам были даны эти дипломы, соответствующую квалификацию комиссия установила.
Среди студентов-физиков даже ходит шутка: «в теорфизике Ландау-Лифшица нет ни одной мысли Лифшица и ни одного слова, написанного рукой Ландау.
По основным пунктам уже хорошо отвечено, есть что сказать по постскриптуму.
Если коротко, то вы ошибаетесь. Вы приписываете Антиплагиату то, чем он не является. Антиплагиат не оценивает качество научных работ. Он показывает что данный текст есть где-то еще. Принимать решение о допустимости наличия этого фрагмента именно тут должен человек.
Если коротко, то вы ошибаетесь. Вы приписываете Антиплагиату то, чем он не является. Антиплагиат не оценивает качество научных работ.
Понятна Ваша мысль что АП — это лишь инструмент, но вот Сахаров в какой-то момент разочаровался в созданном им «инструменте» и стал призывать человечество не пользоваться им.
Антиплагиат не оценивает качество научных работ. Он показывает что данный текст есть где-то еще. Принимать решение о допустимости наличия этого фрагмента именно тут должен человек.
Вот тут давайте прям подробненько пройдемся?
Есть неплохой ВУЗ, в ВУЗе есть факультет КБ, на факультете есть молодой-перспективный научно-активный преподаватель. Преподаватель ведет научную работу в сфере компьютерной безопасности и соответственно интересуется новинками по данной теме и, что логично, выдает темы работ студентам в эту же «сторону». если студенту в ходе работ над проектом удастся найти что-то прям «сверхновое», то препод, в силу заинтересованности по своей научной работе, обязательно глубоко изучит данный вопрос. И сделает вывод — студент «содрал или творчески переработал».

Но вот пришел «прогресс». Преподаватель должен проверить работу на детекторе лжи антиплагиате. Так как ВУЗ хороший (читаем не бедный) начальство закупило полный комплект игрушек с модулями переводов и прочая-прочая. В результате преподаватель получает 100500 предупреждений от АП — «волки, волки!!!». Принять работу он не может — не хватает «оригинальности» исходному тексту. Написать поверх «акта» АП — «Всё это глупости» и скрепить своей подписью тоже не может. Надо на каждый чих сделать отписку. В результате, поминая тихим незлым словом разработчиков АП и министерство образования, препод сидит неделю делая пометки в отчете АП что конституция Казахстана, переводная статья с суахили по разведению коров и описание товара с Али-экспресса не имеют отношения к теме несимметричных ключей шифрования.

Как вы думаете, насколько хватит нервов преподавателя?
Когда он начнет просто отфутболивать студентов, ибо жена грозится подать на развод по причине его постоянных задержек на работе?
Принять работу он не может — не хватает «оригинальности» исходному тексту.
Вы уже в 100-й раз пишете одно и то же и так и не можете понять, против чего с вами спорят. Антиплагиат как инструмент просто отображает текст, который встречался в других работах. ВСЁ.

Он не показывает количество заимствованного текста.
Он не определяет «уникальность» содержания.
Он не определяет «качество» содержания.
Он не устанавливает проходных баллов.
Он не выносит вердикт, оригинальная статья, или ворованная.
Он даже не обязывает себя использовать.

Все эти требования по набиранию определённого количества попугаев в сферовакуумных бенчмарках спускают вполне конкретные некомпетентные руководители. В таких руках использование ЛЮБОГО инструмента запросто превращается во вредительство, и отказ от его использования ничего не исправит.
Антиплагиат как инструмент просто отображает текст
Вы уже в 100-й раз пишете одно и то же и так и не можете понять, против чего с вами спорят (здесь ироничное цитирование, а не плагиат).
Инструмент «антиплагиат» предназначен для борьбы с плагиатом, по определению, а не для простого отображения текста. Глядя на название и руководствуясь фразами вроде «образовательный стандарт (!) и гарант (!) реализации государственных (!) решений», вынесенными на видное место главной страницы, данный инструмент вполне логично начали использовать не для простого отображения текста. Как яхту назвали, так она и поплыла.
который встречался в других работах.
Если бы. Реакция на слова «закон от» из примера выше — это, очевидно, большая проблема, несовершенство инструмента, слишком большая погрешность. Раз за разом инструмент с водой выплескивает ребенка (здесь перефраз поговорки, а не плагиат).
требования по набиранию определённого количества попугаев в сферовакуумных бенчмарках спускают вполне конкретные некомпетентные руководители
Вторая очевидная проблема — перехвалили инструмент, которым лишь в некоторых случаях можно извлекать пользу. В рекламных целях его начали позиционировать отнюдь не как «инструмент для простого отображения текста». Далекое от совершенства и нуждающееся в постоянных приписках «мы только показываем текст для эксперта» авторы прямо называют стандартом и гарантом — вряд ли один только я замечаю странность этой ситуации. Некомпетентность отдельных руководителей и реальная невозможность найти толпу экспертов, которые смогут «правильно» использовать инструмент, — это часть объективной реальности. И в эту несовершенную, но таки реальность привнесли решение, которое приносит вред в слишком длинном ряде случаев. Без рецепта от врача продают лекарство с сильными побочками.

Да, данный инструмент может приносить пользу, и инструмент может вредить — с этим мы не спорим. Да, реальность несовершенна, и инструмент несовершенен — и с этим не спорим. Но, инструмент начали продвигать и смогли продвинуть так, что вред стал нормой. И дальше ситуация будет только ухудшаться, поскольку с ростом количества работ в базе станет увеличиваться количество ложных срабатываний.
Вместо споров типа «вы неправильно держите айфон» (здесь явно цитирование) было бы любопытно прочитать в блоге компании статью о том, как компания планирует выходить из кризиса. Компания ведь не хочет стать еще одним тормозом в и без того многострадальной машине науки, так может уже пора перестать спорить и начать что-то делать помимо «мы начали срабатывать еще и в таких случаях»? Ниже в комментариях упоминают какой-то корпоративный модуль по заведению общеупотребительных исключений — вот про что-то такое и хотелось бы увидеть рассказ.
Может, добавить вес найденному в зависимости от типа источника? Может, внести амнистию для некоторых словосочетаний? Может, сео-шнику по рукам дать? Может, провести брейн-шторм по поиску решения для реально существующей проблемы, а не отмахиваться от комментариев множества преподавателей и научных сотрудников?

P.S. Согласно системе «антиплагиат» данный комментарий на 100% оригинален.
Глядя на название и руководствуясь фразами… вынесенными на видное место главной страницы,
На заборе тоже много чего вынесено на видное место.
С каких пор рекламные разглагольствования стали чем-то весомым?
Коммерческий сервис «Атиплагиат» не устанавливает стандартов, чтобы там не было написано у них на главной, стандарты устанавливает министерство. Если министерство спускает мешающие работе указания, то это проблемы с министерством, а не с инструментом.

… Раз за разом инструмент с водой выплескивает ребенка…
… невозможность найти толпу экспертов…
… которые смогут «правильно» использовать инструмент…
… Без рецепта от врача продают лекарство с сильными побочками…
… Компания ведь не хочет стать еще одним тормозом в и без того многострадальной машине науки…
… Может, добавить вес найденному в зависимости от типа источника…
… не отмахиваться от комментариев множества преподавателей и научных сотрудников…

ИМХО, вы мыслите в той же парадигме, что и министерские дуболомы. Вот есть инструмент, на нём написано, значит он должен идеально делать всё за нас, а мы только отчёты смотреть будем. А если не может, то это не наша проблема, а производителя инструмента.

Чтобы всё это решить, достаточно ровно одного — не ставить целевых показателей. Вот так просто. Не надо там никаких экспертов, особых методик, амнистий, и т.д. Просто оставить рассмотрение отчёта системы на совести дипломного/научного руководителя. Пусть он сам решает, допустимое это заимствование или нет, и подписывается под этим собственной репутацией наравне с автором работы. А «антиплагиат» будет только инструментом, избавляющим от необходимости знать всё на свете.
ИМХО, вы мыслите в той же парадигме, что и министерские дуболомы.
ИМХО, вы спорите со сложившейся реальностью. Можно бесконечно досадовать на то, что в реальности встречаются дуболомы, можно отмахиваться от недовольных, но можно и перевести свои мысли в сторону учета реальности.
Чтобы всё это решить, достаточно ровно одного — не ставить целевых показателей. Вот так просто.
Гладко было на бумаге, но забыли про овраги… Увы, но я не вижу способа применить Ваше решение к нашей реальности. Как на практике реализовать «пусть они просто не ставят»?
А чем ваш-то вариант лучше? Если «пусть они просто не ставят» — не реализуемо на практике, то по чему «пусть они просто откажутся» — реализуемо?
А чем ваш-то вариант лучше?
Подскажите ссылку на мой комментарий, где я предлагал «пусть они просто откажутся». По-моему, мы с Вами по-разному воспринимаем написанное выше.
Конкретно вы — нигде.
Но с чего пошла эта под-ветка:
Если бы не было АП.
Любой преподаватель в ВУЗе должен быть в курсе новинок в своей дисциплине,
ну и далее по тексту, о том, как хорошо заживётся без АП.
Конкретно вы предложили ещё меньше, дорабатывать АП костылями, чтобы от его использования было не так больно.
Конкретно вы предложили ещё меньше, дорабатывать АП костылями, чтобы от его использования было не так больно.
Теперь я предложил дорабатывать АП костылями… Пожалуй, оставлю Вас в Вашей реальности, она слишком сильно отличается от моей. Я не способен настолько глубоко читать между строк, чтобы поддерживать беседу здесь.
Может, добавить вес найденному в зависимости от типа источника? Может, внести амнистию для некоторых словосочетаний? Может, сео-шнику по рукам дать? Может, провести брейн-шторм по поиску решения для реально существующей проблемы, а не отмахиваться от комментариев множества преподавателей и научных сотрудников?
Это не костыли?
Фильтрация источников и амнистия — реализованные фичи, а не костыли, осталось только статью про них сделать.
Предложения брейн-шторма и «не отмахиваться» в вопросительной форме — не костыль.
Дать сео-шнику по рукам — не костыль, хотя…
Ирония?
Если АП пометил блок, который объективно не является заимствованием, то этот блок (или источник) необходимо отключить/пометить как цитирование.
есть «Модуль поиска общеупотребительных выражений» в формировании которого участвуют все корпоративные клиенты
А об это уже 5 лет ведутся вебинары/семинары/выступления. Где же здесь новизна для хабра, это скорее баян.
Возможно, вы немного неверно оценили аудиторию здесь. Здесь, в основном, собрались не эксперты и не «эксперты», которые используют АП в повседневной работе или по какой-то другой причине за 5 лет удосужились посетить упомянутые выступления, чтобы ознакомиться со всеми фишками продукта, некоторые из которых предлагаются исключительно корпоративным клиентам.

Здесь есть некоторое количество студентов, которые были бы не прочь научиться обходить АП, чтобы сделать что-то неблаговидное. И здесь есть некоторое количество научных сотрудников, которые откровенно устали обходить фильтры АП, чтобы просто сделать свою работу.

Здесь есть люди, которым АП просто не интересен, но интересно узнавать о технической стороне вопроса — детективные истории и алгоритмические решения. И здесь есть наблюдатели, которые ознакомились с вашим продуктом по предоставленному на его сайте, ознакомились с отзывами тех, кто столкнулся с продуктом на практике, ознакомились с интерфейсом бесплатного пакета и…

И наличие неблагодарной аудитории привело к тому, что в комментариях к очередной статье разгорелся сыр-бор. Возможно, ваше руководство вскоре предложит убавить ироничность комментариев да перестать отмахиваться от озвученных проблем, существующих в нашей далекой от совершенства реальности, и с учетом аудитории начать работать на создание образа, которые будет полезен для продукта.
Есть что сказать по этому поводу и, пожалуй, я сделаю это в отдельной статье. Воспользуюсь вашим советом.
Могу добавить для будущей статьи следующую параллель.

Ученые жалуются на рецензентов в научных журналах — сидят непонятно откуда пригретые болванчики и по формальным признакам заворачивают гениальные публикации.
Те же ученые жалуются на руководителей и грантодателей, которые оценивают ученых по бестолковому счетчику публикаций, так что приходится тратить прорву времени не на науку, а на прорывание через вышеупомянутые фильтры.

Айтишники жалуются на эйчаров — сидят бестолковые девицы и формальными вопросами заворачивают отличных специалистов.

Все подряд жалуются на бестолковых депутатов, которые принимают вредные законы.

Во всех подобных случаях есть нечто общее — система в попытках защититься от множества явных злоупотреблений начинает иногда своими действиями приносить вред. Однако, системе выгодно продолжать — лучше отсеять много плохого и немного хорошего, получив приемлемое среднее, чем оставить много плохого в попытках не потерять великолепное лучшее.
Существующая выгода не позволяет просто так взять и отказаться от упомянутых эйчаров, депутатов, рецензентов и того же Антиплагиата, поэтому остается только точечно бороться в тех местах, где усилия способны улучшить используемые инструменты или методы применения инструментов.
Как-то философски и явно не про АП.
В случае АП уже было без АП, и от этого ада, даже с АП наука еще не скоро избавится. Еще ваших внуков будут «гробить» фейковые доктора (конечно, не дай бог, но таковы реалии) от медицины, выпущенные до 2005 года.
Поправка — ваших внуков будут гробить. Постарайтесь воздержаться от подобных «предсказаний» или применяйте их исключительно к себе. Тем более, что после 2005 года фейковые специалисты не перестали появляться.
явно не про АП
Явность зависит от глядящего, так что нет повода для спора — признаю Ваше право на точку зрения, которая Вам импонирует.
Для меня явно сходство — предназначенный для фильтрации мусора инструмент иногда отфильтровывает полезное.
Кстати среди моих знакомых в последнее время существует практика проверки работ специалиста, прежде чем начинать следовать его советам по серьезным вопросам. Проверяют по АП (а почему еще, глазками просмотреть и тему изучать при образовании по физике и/или математике и/или юриспруденции — не вариант). Я сам придерживаюсь такой же методики, поскольку конечно единицами, но просачиваются гады после 2005 года. Рекомендую, можете на меня как на автора не ссылаться, лайфхак отдаю в народное достояние. В случае своего здоровья, я лучше пропущу новоявленное светило, чем доверюсь шарлатану. Но вы правы, явность зависит от глядящего, может кому-то импонирует рискнуть со светилом, и то, что он окажется шарлатаном не так важно, наука наверняка скоро научится генерировать поврежденные органы.
Врачи пишут диссертации, многие из которых есть в открытом доступе.
Ученые жалуются на рецензентов в научных журналах — сидят непонятно откуда пригретые болванчики и по формальным признакам заворачивают гениальные публикации.

Про рецензентов вообще не в тему — обычно статьи в журнал рецензируют те же обычные учёные из других институтов, и за это кстати говоря не доплачивается.
обычно статьи в журнал рецензируют те же обычные учёные из других институтов, и за это кстати говоря не доплачивается
Нисколько не сомневаюсь в Ваших познаниях внутренней кухни журналов уровня Science или Nature, но было бы любопытно прочитать что-то для подтверждения Ваших слов, можете подсказать?
Я сходу заглядываю в гугл, гугл посылает в Википедию, которая не может служить достоверным источником, разумеется, однако там написано:
Большинство направляемых в Nature статей отсеиваются ещё до стадии рецензирования
по мнению Шекмана, проблема в том, что редакторы этих журналов являются не учёными, а издателями
Где можно прочитать о том, кто именно заворачивает статьи в научных журналах, да еще и без доплаты?

P.S. В данном комментарии нет иронии, чистое любопытство.
Где можно прочитать о том, кто именно заворачивает статьи в научных журналах, да еще и без доплаты?

В комментарии, на который вы отвечали.
Рецензируют сами учёные, бесплатно.


Пруф: сам учёный, сам рецензирую.

В комментарии, на который я отвечал, сказано:
обычно статьи в журнал рецензируют те же обычные учёные из других институтов
Это — не источник информации, а постулат без указания источника, потому я и заинтересовался.
Пруф: сам учёный, сам рецензирую.
При всём уважении и без иронии — субъективный опыт не может являться основанием для постулата со словом «обычно». Уважаемых журналов сотни, из них десятки широко известны.
Это — не источник информации, а постулат без указания источника, потому я и заинтересовался.

А что, по-вашему, источник или пруф? Или вы считаете, что на абсолютно любое высказывание должна существовать подтверждающая ссылка? Хорошо, я могу создать страничку на сайте университета или в википедии с тем же самым текстом.


Уважаемых журналов сотни, из них десятки широко известны.

Приведите пруф или источник на процитированное мной данное голословное утверждение. Откуда вы взяли именно такие цифры? Дайте определение понятия "уважаемый журнал".

Ученые жалуются на рецензентов в научных журналах — сидят непонятно откуда пригретые болванчики и по формальным признакам заворачивают гениальные публикации.
Про рецензентов вообще не в тему — обычно статьи в журнал рецензируют те же обычные учёные
Мой постулат основан на отзывах ученых, которых проблема public or perish вынуждает продираться через очень странные резолюции. На субъективных отзывах.
Вы опровергаете высказанный мной постулат и для утверждения Вашего опровержения ссылаетесь на Ваш субъективный опыт.
Моя попытка понять расхождение субъективных точек зрения с целью уточнения более объективной картины вместо подтверждения опровержения, с которым я был готов согласиться, получила лишь встречные вопросы.
Дайте определение понятия «уважаемый журнал».
Далее можно дойти до необходимости определить слова «журнал» или «болванчики» — тоскливый финал. Предлагаю не дожидаться его и свернуть дискуссию.
Буду и дальше придерживаться неоднократно озвученной и даже попавшей в википедию точки зрения — статьи иногда заворачивает неизвестно кто по формальным поводам. Что вполне укладывается в общее свойство упомянутых выше систем:
предназначенный для фильтрации мусора инструмент иногда отфильтровывает полезное
Мой постулат основан на отзывах ученых, которых проблема public or perish вынуждает продираться через очень странные резолюции. На субъективных отзывах.

Потому что рецензируют не особо мотивированные люди. За рецензии денег не платят, но учёные, как правило, соглашаются, потому что рецензирование — хороший способ расширить кругозор и не терять квалификацию.


Но рецензирование — это кот в мешке. Рецензент видит только аннотацию, но не видит саму работу, пока не согласится на рецензирование. В итоге в половине случаев работа оказывается для рецензента либо неинтересной, либо сложной. Часто в таких случаях рецензирование делегируется аспирантам или рецензия пишется в последний день после прочтения статьи по диагонали. Ни о каком качестве тут и речи не может идти.


Моя попытка понять расхождение субъективных точек зрения с целью уточнения более объективной картины вместо подтверждения опровержения, с которым я был готов согласиться, получила лишь встречные вопросы.

Так ищите больше субъективных точек зрения и пытайтесь построить объективную картину самостоятельно.

Во-первых, nature и science — не совсем обычные научные журналы всё-таки. Им кроме актуальности и научной новизны желательно иметь также бОльшую «популярную» значимость, чем при публикации в других научных журналах, о чём у них прямо на сайте написано. Поэтому абсолютно неудивительно, что там меньшая часть поступающий статей публикуется. На самом деле может быть и в других журналах большинство статей получают отказ, я как-то не интересовался статистикой.

Однако, даже в nature и science научное рецензирование делают абсолютно обычные учёные, можете подробно почитать на их сайтах. Просто перед этим недостаточно интересные широкому кругу читателей статьи сразу получают отказ, от редактора.

Где можно прочитать о том, кто именно заворачивает статьи в научных журналах, да еще и без доплаты?

Не слышал от коллег и сам не встречался с беспочвенным отлупом статей в нормальных журналах. Бывает рецензент невнимательно/неадекватно что-то написал, и если он продолжает на своём негативном мнении настаивать, то обычно дело решается письмом редактору журнала с пояснением. Если нет, то можно подать в другой журнал, но это уже совсем редкость. И если уж в паре нормальных профильных журналов работу завернули, значит дело явно не в журналах, а в работе.
Просто перед этим недостаточно интересные широкому кругу читателей статьи сразу получают отказ, от редактора.
Про это и шла речь. Ученым приходится прикладывать немало усилий, чтобы прорваться через систему, предназначенную для фильтрации мусора. И решение о заворачивании в длинном ряде случаев принимают не ученые. Прорываться удается не везде и не всегда.
IMHO, здесь прямая аналогия с АП — есть бесспорно полезная функция, но есть и побочные эффекты. Еще одна подобная аналогия — формы для ввода паролей, где приходится балансировать между мощностью защиты и удобством пользователей.

Если нет, то можно подать в другой журнал, но это уже совсем редкость. И если уж в паре нормальных профильных журналов работу завернули, значит дело явно не в журналах, а в работе.
Навскидку могу привести недавнюю статью "Как я публиковал научную статью в Nature", опыт автора которой несколько противоречит сказанному выше.

Science:
Because your manuscript was not given a sufficiently high priority rating during the initial screening process, we have decided not to proceed to in-depth review.
Nature Physics:
we are sorry to say that we are unable to offer to publish your paper in our journal.
Physical Review X:
We feel that the paper will be better placed in a journal specialized in quantum optics or instrument development for GW detection.
Light: Science & Applications:
Проходит неделя, вторая, третья, от них ничего не слышно. Это хороший знак — значит, редактор журнала не отклонил ее сразу, а послал на рецензию! Почти три месяца спустя приходят рецензии. Одна положительная, одна более или менее, одна — отрицательная (рецензент совсем ничего не понял)
Через несколько дополнительно месяцев на общение с рецензентами статья таки прошла. Предполагаю, что не всегда проблема в работе, иногда выбор журнала важнее, и весьма важно таки дойти хотя бы до стадии рецензирования, где появится шанс получить рассмотрение статьи учеными.
Про это и шла речь. Ученым приходится прикладывать немало усилий, чтобы прорваться через систему, предназначенную для фильтрации мусора. И решение о заворачивании в длинном ряде случаев принимают не ученые.


Вы точно прочитали полностью моё предыдущее сообщение? В журналы типа nature и science действительно есть сильный дополнительный фильтр помимо актуальности и научной новизны. Но в обычные профильные журналы такого нет — у нас в астрономии такими являются, например, MNRAS, ApJ, A&A.
Вы точно прочитали полностью моё предыдущее сообщение?
Взаимно.
Мое сообщение — проблему с АП можно проиллюстрировать следующими примерами.
Ваше сообщение — в одном из примеров в некоторых случаях бывает не так. Бывает так, но бывает и не так.
Предлагаю свернуть никуда не ведущий диалог.
Основная разница в том, что nature/science открыто позиционируются, как журналы которые и не должны пропускать к себе все научно интересные/актуальные/правильные работы. Они явно указали, что мол «нам важно, чтобы статья имела потенциально более широкий интерес». И публикация в этих журналах не требуется для всяких отчётностей, получения грантов и позиций.

Предлагаю свернуть никуда не ведущий диалог.

Ок.
В таких руках использование ЛЮБОГО инструмента запросто превращается во вредительство, и отказ от его использования ничего не исправит.
Поясню — Вы сделали «дубинку».
И сейчас рассказываете тем кто под неё попал, что Вы ни при делах — виноват «полицейский» который ей размахивал.
Я бы согласился с Вами, но ведь Вы при этом постоянно совершенствуете ту самую «дубинку» по заявкам той самой «полиции».

PS
Антиплагиат не оценивает качество научных работ. Он показывает что данный текст есть где-то еще
То есть как бы название продвигаемого бренда ни о чем не говорит потенциальному покупателю? И Ваши менеджеры говорят клиентам что Антиплагиат — это всего лишь программа которая ищет похожие слова и сочетания? Чета не верится.
На ваши налоги полиция закупает дубинки и порой использует их не так, как нам хотелось бы.
И сейчас вы рассказываете тем, кто под них попал, что виноваты полицейские, которые ими размахивали, а не вы, профинансировавший эти покупки.

Я бы согласился с вами, что вы не хотите, чтобы ваши налоги тратились на подобные цели, но ведь вы при этом с каждым годом получаете все большую ЗП и платите все больше налогов, позволяя закупать все больше и больше дубинок. Что вы делаете, чтобы ваши налоги не шли на закупку дубинок?

Это я к тому, что всегда легко других обвинять, не вдаваясь в детали. В реальности всегда все намного сложнее.
Что вы делаете, чтобы ваши налоги не шли на закупку дубинок?

1. Хожу на выборы и голосую за своих кандидатов.
2. Не работаю на предприятиях производящих «дубинки» и комплектующие к ним и предупреждаю знакомых, которые, по незнанию, могли бы туда пойти работать.
1. Работает? Кажется, не совсем.
2. Мы же о налогах, налоги вы все равно платите. Плюс, вы же понимаете, что цепочка чуть длиннее. По вашей логике и пластик не надо производить, и в транспорт не надо пускать сотрудников предприятий, производящих дубинки.

Одним словом, надо обращать внимание на корень проблемы, а не пытаться перекладывать вину на всех и вся, кто опосредованно, очень слабо с ней связан.
Поясню — Вы сделали «дубинку».
И сейчас рассказываете тем кто под неё попал, что Вы ни при делах — виноват «полицейский» который ей размахивал.
Ну, как бы, ДА. Дубинки стоят на вооружении полиции примерно во всём мире, и почему-то нигде, кроме богоспасаемой, не являются причиной беспредела. Ну или раз у нас в некоторых местах беспределят, давайте тогда всю полицию без дубинок оставим. И без пистолетов. И без полномочий. И вообще разгоним нафиг. Справлялись же как-то раньше, 10 тысяч лет назад, без них, и сейчас справимся.
То есть как бы название продвигаемого бренда ни о чем не говорит потенциальному покупателю?
Его можно использовать для поиска плагиата? Можно. Где-то в названии бренда или хотя бы рекламных материалах сказано, что для этого не обязательно пользоваться мозгом? Нет. В чём претензия?
Вы уже в 100-й раз пишете одно и то же и так и не можете понять, против чего с вами спорят. Антиплагиат как инструмент просто отображает текст, который встречался в других работах. ВСЁ.
«Врете, дяденька» (с) Приключения Буратино.
АП показывает процент «уникальности», а это уже не просто "текст, который встречался в других работах", а показатель на который начинает опираться «надзиратель».
Если надзиратель начинает опираться на фазу луны, это вина луны или надзирателя?
Если надзиратель начинает опираться на фазу луны, это вина луны или надзирателя?
В данном случае Вы принесли надзирателю дубинку и убедили его что она поможет решить все его проблемы.
А сейчас рассказываете нам что к дубинке оказывается прилагался текст конституции, но надзиратель, по причине неграмотности, скурил её.

PS Уберите все цифровые показатели из программы, оставьте только ссылки на найденные тексты, чтобы «эксперту» в любом случае пришлось хотя бы минимально поработать мозгами.
Вы же за это тут ратуете, чтобы окончательный вывод делал эксперт? И отвечал за свой вывод, а не кивал на «машину».
А сейчас рассказываете нам что к дубинке оказывается прилагался текст конституции, но надзиратель, по причине неграмотности, скурил её.
И, проблема снова не в надзирателе?
И, проблема снова не в надзирателе?
Попробую объяснить попроще и подоходчивей.
Есть такие станки — гильотины. На больших гильотинах под нож можно засунуть не только руку, но и голову. Чтобы избежать таких случаев запуск ножа производится одновременным нажатием двух кнопок, которые расположены таким образом, что будь даже работник йогом 80 уровня он не сможет засунуть в рабочую зону ни одну часть своего тела. Вы же выпустили гильотину с однопедальным ножным приводом, дав «свободу воли» рукам и голове рабочего.
И вот теперь, после серии несчастных случаев, когда Вам говорят что Ваше изделие небезопасно, Вы заявляете что в паспорте на станок написано «к управлению станком допускаются только специально обученные люди» и этого вполне достаточно.
PS Уберите режим «дубинки» из программы и тогда наверняка вдруг запляшут облака все сразу встанет на свои места.
Позволю себе вмешаться немного в вашу беседу. По-моему, правильнее сравнивать АП не с дубинками, а с автомобилями.
Сначала эти шумные и вонючие повозки просто не понимали, потом начали активно использовать эти мощные и быстрые устройства, потом обратили внимание на массу несчастных случаев и создали ПДД, потом эти ПДД долго дорабатывали и продолжают дорабатывать.
И да, если использование инструмента многократно приводило к несчастным случаям, то дорабатывают не только инструкцию, но и инструмент — это нормально, это правильно, это логично.

Я понимаю разработчиков АП — они остро воспринимают критику своего продукта, как и все разработчики хорошего продукта. И я понимаю критикующих продукт — столкнувшись с несовершенством, они перестают замечать выгодные стороны продукта. Истину же следует искать где-то между полярными позициями.
Я понимаю разработчиков АП — как и все разработчики остро переживают критику своего продукта. Я понимаю критикующих продукт — столкнувшись с несовершенством они перестают замечать выгодные стороны продукта. Истину же следует искать где-то между полярными позициями.
Авторам АП надо не бросаться на защиту своего продукта, а совсем наоборот — достать блокнот и
image
потому как косяки вроде
указываются, как заимствованные, такие слова и фразы, как «объект авторского права», «Глава 4», «закон». Вот именно так, отдельное слово.
убьют продукт.
Все же понимают что отмазки «окончательный вывод делает эксперт» не работают.
Ага, у преподавателей, которым теперь спускают ЦУ проверять не знания пациентов абитуриентов, а «уникальность» сдаваемых ими работ.

PS.
Ведь преподы же сами не понимают кто что сдаёт, дааа....
Вспоминая, как группа сдавала написанные в паре с сокурсником рассчётный курсач:
— кому заказывал?
— сам писал!
— тем двум (другим напарникам)?
Если отвечали «да», то посылали переделывать, если же «нет» то уже называли наши имена, хотя мы ещё свои не сдали.
— да…
— иди, 3.
У нас ничего не спрашивали, да...

PPS. И да, я спросить у знакомой преподавательницы легко могу — циферки важны, хотя она проверяет что там нашлось, но выше требуют, понимаешь ли именно индекс уникальности!
Не в нем одном, а в «предварительном сговоре группы лиц», выражасяь казенным языком. А значит, тут еще и коррупционный элемент присутствует. Прокуратура, СК и пр. погононосители — ау!
Антиплагиат как инструмент просто отображает текст, который встречался в других работах. ВСЁ.

Он не определяет «уникальность» содержания.

Нет же!
Он выдает процент оригинальности. Да, теоретически, кто-то может сильно постаравшись этот процент переписать (отметить каждый термин, как не заимствование).


Вот когда уберут все итоговые метрики совсем, а только покажут что вот тут и тут есть возможно заимствование оттуда-то, вот тогда вы будете правы.

Так точно! Сам сталкиваюсь. Образование превратилось в «как обойти систему», вместо понять «как это работает».

На 100% согласен. В последние годы моей работы в вузе у нас ввели этот антиплагиат. Возможно для гуманитарных специальностей он и подходит, но на технических специальностях это кошмар. Вместо того, чтобы работать над содержательной частью диплома, теперь нужно заниматься переписыванием текста для прохождением этого антиплагиата.

Полностью согласен с Вами.
Моя дипломная работа прошла АП только на 61%. Оказывается, сдав её в 2005-м году, я посмел заимствовать текст из источников с 2009-го по 2019-й годы!
Выключил источники из будущего — 72%. Ведь я украл фразы типа «файл X содержит код ответа от модуля Y» и описания правил работы с банковскими картами. Да вашу ж мать!

Представляю, что творится с дипломами юристов. АП найдёт там кучу цитирования, а возможности перефразировать текст нет: это законы и стандартные формулировки.

Короче говоря, посади на проверку через АП обезьяну — ни одна работа проверку не пройдёт.

Было бы неплохо заточить проверку под конкретные предметные области, а также исключить из «заимствований» устойчивые словосочетания и формулировки, которые применяются в этих самых областях.
Отчёт о проверке должен просматривать компетентный человек

Вы забываете, в какой стране работаете. Даже если научный руководитель понимает проблему, ему все равно нужно пробиться через тупое руководство, для которого главное — статистика, а не результаты по делу.


Впрочем, такой маразм творится сейчас и в остальном мире — я сталкивался с антиплагиатом в IEEE, который аффилиации авторов, название гранта и даже формулы считал плагиатом. Хорошо хоть, он разрешал перестановку слов и синонимы.

Я вообще не представляю, насколько антиплагиат может сочетаться с требованиями к расчетно-пояснительной записке в технических дипломах. Цель РПЗ — точно и кратко описать цели и задачи проекта, обосновать выбранные решения и описать методики расчетов. И в реальной работе инженера чем меньше «воды» будет в РПЗ, тем лучше. Инженеры как раз стремятся к стандартизации и унификации всей документации, используя единые справочники, альбомы технических решений и методические указания по расчетам, что прямо противоположно тому, что требуют от студента при проверке антиплагиатом.
Никак не должен сочетаться. Расчетные работы проверяйте сами, смысла отправлять их в Антиплагиат нет.
А если есть приказ прыгать с обрыва, тоже безропотно будете выполнять? Научных советов, экспертных советов, профсоюзов наконец больше нет? Ректор — барин, все остальные холопы?
Поддержу и добавлю. Юриспруденция — значительная часть диплома это цитаты из нормативных актов, законов. Причем их даже менять нельзя.

Было бы здорово и хорошо распознавать «честные» цитаты и давать им немного иной вес.
Модуль поиска по Гаранту делает именно это! Цитаты из него «красятся в зеленый цвет» («цитирование», против оранжевых «заимствований»).
Отлично. А еще там есть цитаты, определения — из монографий и учебников, обыкновенно приводящихся в списке используемой литературы. Модуль поиска учитывает список литературы? Кажется это бы решило часть проблем.
Цитаты да, тоже зеленые, есть специальный модуль и на это. Общеизвестные факты — нет, вы удивитесь, но и для них нужно ставить источники. Список литературы — тоже да, есть специальный модуль.
На всякий случай напомню, что Антиплагиат это инструмент который показывает что этот фрагмент текста есть еще где-то. Иногда полезно отключить модуль определения библиографии и посмотреть где еще есть такие-же источники. Увиденное может сильно удивить :)
Кстати, для эксперта есть возможность менять цвет блока заимствований.
Вот далеко не всегда распознаёт даже корректно оформленную цитату, с указанием источника и т.д.
Кстати, для эксперта есть возможность менять цвет блока заимствований.

Тогда эксперту придётся подготовить официальную "отписку", что именно показал АП и что именно он исправил. Иначе его запросто обвинят в предвзятости. Допустим, защищает какой-нибудь известный человек диссертацию, эксперт проверяет выдачу АП, меняет параметры заимствований и допускает диссер к защите, а завтра некий журналист прогоняет этот самый диссер через свой АП с дефолтными настройками и пишет разгромную статью о коррупции в университете, что эксперт пропустил работу, где АП рисует плагиат на плагиате.

К исправлениям можно дать комментарии. Можно сделать перманентную ридонли-ссылку на отчет. В отчете будет видны комментарии по изменениям. Вот пример того как можно сделать такое: www.antiplagiat.ru/news/Zhakypova-dissertation-scandal-111019 (одна из ссылок — ссылка на отчет).

Нашёл ссылку с отчётом, комментариев, к сожалению, не увидел. Увидел, что проверяющий выключил пару блоков с очевидными общеупотребительными словами на первой странице, но вся критика АП идёт в основном из-за того, что к этим фразам он в принципе не должен придираться.



На АП ежегодно проверяются сотни диссертаций. Неужели в каждой из них находится такое "заимствование"? Как такой баг пропустил ваш QA? Почему АП в принципе проверяет титульный лист, а не пропускает его автоматически?



Аналогичная проблема. Эти фразы требует ВАК и нормоконтроль. Почему этот абзац не фильтруется автоматически?



Фраза точно так же составлена из общеупотребительных слов и, более того, даже не полностью повторяет фразу источника. Что здесь можно называть заимствованием?



Здесь нужно было перефразировать названия организаций и назвать их "Нур-Султан"? :)


Разумеется, если пролистать дальше, то становится очевидно, что работа была скопипащена целыми абзацами. Так что польза систем, подобных АП, очевидна. Однако лично мне кажется, что если разработчики исправят "детские болезни" системы, связанные с мусорными срабатываниями, то это улучшит позиции компании в глазах честных авторов работ.

Здесь нужно было перефразировать названия организаций и назвать их "Нур-Султан"? :)

Похоже, что так. Создать отдельную главу "Список условных обозначений" и придумать по новому бессмысленному слову для каждого из словосочетаний.

Да, только вот в моём последнем скриншоте АП придрался как раз к списку сокращений, и АФН ему не понравился :)

Так он же не к сокращению придрался, а к исходному названию организации.

Разработчики постоянно работают над улучшением со своростью сотен человек-лет в год…
Это то, чего мы добиваемся. Чтобы написать собственную работу было проще (а еще важнее — приятнее и полезнее), чем пробовать схалтурить.

По вашему второму вопросу — в 2019 в период сессии количество документов с обходами достигало 7% от всех загруженных документов. Можем смело считать, что эти документы содержали существенную долю заимствованного текста.
Чтобы написать собственную работу было проще (а еще важнее — приятнее и полезнее), чем пробовать схалтурить.
Пока что, увы, получается ровно наоборот. Если пишешь полностью сам, то потом всё равно борешься с антиплагиатом, причём затрачиваешь на это столько же усилий, сколько потребовалось бы для полностью сворованной работы.
Конкретику, пжлста.

И может вместо того чтобы воровать или бороться с АП, следовало поступать в вуз, который требует качественной работы, а не «75% оригинальности по АП»?

В комментариях уже много раз отвечено, что АП — инструмент. Проблема в том, что многие вузы пользуются им неправильно, несмотря на все наши усилия. А мы тратим на них очень много ресурсов.
Реальность такова, что практически везде требуют именно проценты антиплагиата. Потому что очень уж удобный именно для этого инструмент. И даже если есть такие ВУЗы, в которых дела обстоят не так — то при поступлении это никак не проверить. А картинка будет, не переживайте. Не факт, что вот прямо сейчас (потому что защита ещё не прошла), но после защиты — уж точно. И картинка будет, и подробное описание результатов «работы» этого вашего антиплагиата. У меня жену эта ситуация настолько задела, что она даже статью написала об этом, подробную, с картинками, как вы любите, с примерами.
Вы опять возвращаетесь к проблемам в системе образования. Вузы должны быть очень сильно заинтересованы в поддержании своего имиджа, который, кроме всего прочего, должен быть обусловлен качеством образования и хорошо выстроенными процессами. Сам не раз сталкивался с бардаком, бессмысленными процедурами и откровенным раздолбайством за время обучения в одном из «ведущих» вузов РФ. Бездарное применение АП — лишь очередное проявление существующих проблем в системе образования.
К сожалению, далеко не все вузы в действительности заботятся о своим имидже через выстраивание процессов. И это общая беда. :(
Ну топ — заботится (топ не по рейтингу, топ по факту). Я думаю все стабилизируется как с банками, останется топ-100 по факту, а все остальные…

То есть вы серьезно считаете что если в существующей реальности ваш инструмент используется неправильно, то виновата реальность, а не вы? Я бы понял если бы АП был создан в благословенные времена, когда везде были эксперты и никто не опирался на циферки которые вы показываете, но потом случился апокалипсис и у вас просто нет ресурсов все поправить. Но это же не так. Вы изначально создали инструмент которым удобнее пользоваться неправильно. И это исключительно ваша ответственность.

Расскажите, а как очистится текст вида:
'\u202E' + «колуб хиксзуцнарф хикгям хитэ ёще ьшеъС»?
который должен отображаться как
«Съешь ещё этих мягких французских булок»
Ну и можно вставить очень много подобных вещей, так что «очищенный» текст просто перестаёт быть читаемым.
Да, в приведенном вами примере текст может извлечься «развернутым». Но извлечение «читаемого» текста не принципиально, когда система помечает документ подозрительным (в данном случае, из-за наличия непечатных символов и плохого качества извлеченного текста). Кроме очень редких случаев, нет объективных причин использовать подобные хитрости в работах.

Мне, как учёному, смысл есть. Раньше (до времён sci-hub) я выкладывал тексты своих драфтов на сайт. Но потом их стал находить антиплагиат, причём оригинальным источником он считал именно сайт, а не официальный источник в виде журнала. Так что приходится извращаться, чтобы, наоборот, материалы с сайта были доступны, но не индексировались.

Мы пока не устанавливаем первоисточник. Максимум, скажем когда данный текст был найден нашим роботом. Посмотрите, Пушкин списал из реферата!

Я не конкретно о вашей системе, а о системах, которые используются журналами.

Ну те, кто хочет качество из российских, пользуются АП ))) Так что вы о нашей системе ))) А она пока не устанавливает первоисточний.
с проваленным дипломом и потенциальным отчислением из ВУЗа

Формально, студент будет отчислен из вуза как в случае защиты, так и не защиты диплома :)

Все это здорово, но лично мне система антиплагиат, используемая вузом для проверки дипломных работ, принесла тучу проблем вовсе не тем что я пытался схитрить с текстом, а тем что благодаря ей единственным принимаемым форматом работы был docx (о чем мне сообщили почти перед сроком, при этом спокойно принимав пдф для ревью на протяжении полугода до этого). Занавес. Все мои логично разбитые файлы, красиво скомпонованные формулы, гибкие стили, таблицы терминов, автособираемый список литературы, графика в пдф, динамические схемы и прочие блага latex накрылись медной ДокИксиной. Конечно, тут скорее виноват стафф кафедры, который почти в последний момент "вспомнил" о такой важной детали, но ситуация такая себе. Ворд не предназначен для технических работ как не крути, но общие по вузу требования проверки на плагиат превращают работу над техническими дипломами в борьбу с убогостью требуемого инструмента.

Так в статье пишут же что основной формат — pdf. Или я что-то не понял?

Скорее всего бзик вузовского нормоконтроля. Так-то Антиплагиат позволяет скормить ему PDF. По крайней мере в 2013 году я ему LaTeX'овый PDF скармливал и даже нормоконтроль прошёл. Кстати тогда же обнаружил, что он цифровые таблицы считает заимствованием, хотя ссылается на документы с совсем другими числами.

Ну, в статье они постоянно апеллируют к docx. Впрочем тут я не знаю точно насколько это принципиально. В моем конкретном случае на вопли "ну почему именно docx?" мне на кафедре напрямую ответили что это требование исключительно из-за антиплагиата, им самим, понятное дело, было до высокой степени пофиг на формат, лишь бы нормоконтроль по оформлению проходило.

Из doc и docx мы однозначно рекомендуем только docx. Видимо, на вашей кафедре, услышали где-то только два последних слова из этой фразы.
Приведенные вами слова это точно не требования Антиплагиата.
Наверное это все-таки вопрос к к кафедре. АП pdf точно так же рекомендует
PDF — рекомендуемый (основной) формат документов для загрузки в Антиплагиат. Возможно, только он и останется. Требование DOCX'а — это отсебятина вашего вуза.

А как надежно из пдф текст извлекать? Он позволяет быть весьма креативным с выводом буковок на лист, насколько я понимаю. Т.е. то, что для читателя выглядит как обычный текст может быть перемешанным кошмаром в самом файле.

в тексте статьи есть упоминание про оптическое распознавание
100% — никак. Но это намного лучше чем все остальные форматы (кроме plain text'а, конечно).
Я тоже при защите диссера в универе столкнулся с идиотизмом со стороны бюрократии: этим [censored] нужен был doc. От человека, который диссер защищает по мат. моделированию и у которого формул чуть ли не с четверть текста! И если с печатью авторефератов я сам разобрался (дома на принтере напечатал и прошил — в универской типографии pdf-файлы почему-то рендерились ужасно, читать было нереально), то с «обязательным помещением диссертации в базу данных» пришлось хитрить: imagemagick'ом (или чем-то еще, не помню уже точно) распустить pdf на страницы, а затем в опенофисе собрать их в единый «документ». Этот ужас и поместил в БД.
К сожалению, даже в наше время — а уже 2020 год на носу — умственно неполноценных, которые вместо латеха используют «ворд» очень много. И это печально.
Жалобу в ФАС на вуз. И название ВУЗа в студию, Хабр должен знать своих «антигероев». Или «давать в морду» (бюрократически) за ущемление опенсорса, или у каждого со временем найдут nginx.
А что там с переводными заимствованиями, есть прогресс?

UPD: А можно посмотреть полный список технических требований к оригинальности работы? Порой ведь некоторые идеи другими словами и не выразишь, как ни крутись, а пытаться угадать, на что там Антиплагиат возбудится — такое себе удовольствие
А что с ними? Уже который год переводные есть. Список языков постоянно расширяется.

Что касается «полный список технических требований к оригинальности работы», то это изъезженная тема, на которую целые конференции по всему миру проводятся. Статья была несколько на другую тему.
Мой диплом на заметную долю состоял из переводов иностранных статей, и Антиплагиат меня не поймал.

Если тема избитая — почему бы не дать ссылку хотя бы на обсуждение? Статья была о том, как ловятся нарушения этих требований, разве не логично изложить требования в самом начале?
Охват статей на других языках у нас пока уже, чем русскоязычных. Но это дело времени. Растём. Кроме того, не могу отвечать за то, шла ли проверка вашего диплома с поддержкой переводных заимствований или нет.

Технических требований нет. Есть регламенты конкретных вузов. И здравый смысл. В т.ч. опыт экспертов. Конкретные ссылки, думаю, позже накидают мои коллеги.
По первому вопросу спасибо, закрыт.

По второму я имел в виде не то. Вот допустим, я решу снова поступить и написать диссертацию. А какие формальные требования к ней? Как я могу доопытно узнать, что не нарушаю критерии Антиплагиата? Например, у меня много цитат. Или же я так привык к канцеляриту, что пишу неотличимо от многих источников? Вот эти требования меня интересуют, вы их публикуете? Если нет, получается, что объект проверки должен подогнать свою работу непонятно подо что, и это может стать проблемой
Заимствования можно разделить на 3 категории:
1. Правомерное заимствование: читатель знает, что текст заимствован и знает из какого источника.
2. Некорректное заимствование: читатель знает, что текст заимствован, но может испытывать затруднения в поиске источника
3. Неправомерные заимствования: читатель умышлено или неумышлено вводится в заблуждение и не имеет основания считать, что заимствованный текст написан не автором.

Ваша задача написать работу с отсутствием неправомерных заимствований и минимальным количеством некорректных.
Правомерность и корректность оценивает человек, не Антиплагиат (инструмент по выявлению схожих фрагментов текстов).
Так как я могу понять, корректное заимствование или нет? Доопытно. Вот пишу я про, допустим, решение СЛАУ. Упоминаю метод Гаусса, описываю своими словами и… Они дают большой процент совпадений со стандартным определением из учебника т.к. метод Гаусса я изучал по учебнику. И что?

В предыдущих статьях не раз указывали, что многие преподаватели сваливают свою работу на Антиплагиат, и не спешат разбираться, где там цитата, где допустимое заимствование, а смотрят просто на числовой показатель на выходе. Мне повезло т.к. я заимствовал из иноязычных статей (думаю, вполне корректно т.к. мог написать то же самое из головы, просто перевести статью было проще), но, боюсь, тут есть возможность студентам очень сильно влететь на пустом месте.

Ну вот и как мне до проверки понять, что работа пройдет вот такую формальную проверку?
Ваш последний вопрос должен быть адресован вузу. Требования и критерии вуза должны быть максимально прозрачными.

Вообще говоря, человеком выносится намного более сложное решение — определяется оценка той же дипломной работы, где, согласитесь, формальных критериев значительно меньше, чем при определении оригинальности работы. И, если комиссия/преподаватель затрудняются просмотреть отчет о заимствованиях для определения оригинальности работы, как думаете, насколько «качественно» они определяют оценку за диплом?
Хех, в требованиях нам прямо заявили обязательный процент оригинальности по Антиплагиату) Но я вас понял, неправильное использование инструмента не делает инструмент плохим
Ну так лопатой можно копать, а можно убить. Нам бы к самому образованию вменяемые требования получить, а не вот это вот всё…
Антиплагиат не делит заимствования на перечисленные выше. Не он проверяет вашу работу и результат проверки не является критерием качества работы. Как только мы решим задачу замены преподавателя машиной, то… вот тут я даже не знаю что написать то, вы же сами понимаете насколько это фантастическая перспектива.

Заменить полноценную проверку формальным критерием по проценту это очень заманчиво, и, чего уж таить, так и делают. Это не правильно! Некоторые студенты «влетают на ровном месте». Мы проводим разъяснительную работу среди преподавателей и помогаем решать такие ситуации студентам и другим пострадавшим. Мы, как изготовитель микроволновки, во всех местах написали что котов сушить нельзя и постоянно об этом рассказываем во всех выступлениях.
Спасибо, что понимаете это. Проблема действительно имеет место, и стоит проводить разъяснения. Надеюсь, со временем утрясется, и невинных жертв будет немного
Мы, как изготовитель микроволновки, во всех местах написали что котов сушить нельзя и постоянно об этом рассказываем во всех выступлениях.

Хорошая аналогия. Вот только у вас дверца в микроволновке по форме кота, внутри стоит кошачья когте-точка и миска с кошачьей едой. Снаружи нарисован кот и стрелка указывающая внутрь.


Лучшая аналогия была бы с обогревателем, который по форме как раз имеет очень удобную вешалку для носков. Вот только от этого пожары случаются: ежегодно тысячи домов сгорают. Вы и в инструкции уже написали, что сушить носки на обогревателе нельзя. Но очень уж удобная вешалка приделана к обогревателю. И убрать ее нельзя, потому что большинство покупателей именно для сушки носков Ваш обогреватель и покупает.


Уберите итоговые метрики, чтобы пользователям Вашего инструмента пришлось его использовать так, как Вы на всех выступлениях рассказываете. Очень простое с технической точки зрения решение моментально уберет абсолютно всю критику вашего продукта. Инструкции и тренинги менять, кстати, тоже не надо почти совсем.

Антиплагиат находит совпадения о чём подробно сообщает в отчёте. В некоторых кейсах эти совпадения мы сами пытаемся классифицировать, но не во всех. Считать из некорректными заимствованиями (плагиатом) или нет — решает пользователь. Если в конкретном вузе этим пользователем является некомпетентный «мальчик»/«девочка» — это повод поставить под сомнение компетентность всего вуза и всего образовательного процесса в нём.

Требований нет и вряд ли такие появятся. Есть рекомендации, которые постоянно даются на вебинарах, а также выездных семинарах сотрудникам вузов. Даю ссылку: www.antiplagiat.ru/training
Ну что же, в неадекватности ВУЗа я не сомневался) Но что-то менять было уже поздно. У нас была тупо формальная оценка по циферкам, не менее 70% надо было вроде бы. Как рассказать своими словами кучу уже не раз описанной теории, чтобы не попасть в эти 70% — та еще задача, на самом деле.

В общем, я не выдвигаю никаких претензий к инструменту, но используется он неверно, и вам надо и от негатива как-то отбиваться, и пытаться его в принципе устранить, иначе шлейф ненависти и за вами потянется
Только преподаватель их не читает, а смотрит чисто проценты.
А что поделать, если в преподавателях сейчас по большому счету сидят либо старики, уже не способные воспринять новый материал, либо некомпетентные люди (т.к. компетентные за такую нищенскую зарплату работать не пойдут)?
Крайне редко в наше время можно найти толкового преподавателя.
Преподавание и доход — это вообще как сладкое и круглое. А хороших преподавателей немеряно. Когда подходишь к своему пребыванию в ВУЗе как образованию, а не как детско-юношескому лагерю на 4-6 лет, найти не составит проблем.
Какая же эта система приема дипломов — устаревшая, неповоротливая, бессмысленная, создающая одинаковых роботов… В своё время я бросил учебу именно потому-что это нудно и безрезультатно. В итоге я сам выучился и всем того же советую, благо сейчас это реальнее, чем 13 лет назад.
В частности, при обнаружении существенного количества формул в документе мы их заменяем на простой текст, который сохранится при конвертации документа в pdf.

Любой текст по физике или математике может иметь кучу формул.
Так и есть. Основное, что мы делаем с формулами — гарантируем, что они не потеряются после конвертации в pdf и их текст вместе с остальным текстом документа будет проверен на заимствования.

Вы верно обратили внимание на то, что обнаруживаемые «особенности» не всегда являются обходами. Для некоторых типов «особенностей» достаточно нескольких появлений в документе, чтобы мы пометили документ подозрительным, а найденное посчитали потенциальными обходами. Для других типов — даже при большом их количестве в документе мы можем не посчитать документ подозрительным, т.к. нет оснований полагать, что имеем дело с попыткой обхода.

Подозрительным документ из-за наличия в нем большого количества формул может быть помечен только в отдельных, очень редких случаях.
Ага-ага, помню, как в моём дипломе одна из длинных формул был признана плагиатом. Ссылка вела на учебник по совсем другому научному разделу, в котором совсем другая теорема доказывалась в примерно тех же обозначениях (типа x_A, x_B, y_C).
Вы слегка не о том. Ваша формула не была определена как попытка технического обхода.

О том, что преподаватель должен адекватно оценивать характер обнаруженных пересечений с другими документами, в комментариях уже не раз писали :)
Кстати, мне известен 100-процентно надежный способ «обойти систему»: достаточно взять работу на иностранном языке и перевести ее хоть дословно на русский. Антиплагиат пока не умеет с таким бороться
Если возьмете текст которого нет в интернете, то точно получите высокую оригинальность. А вот с переводными заимствованиями все не так очевидно…
Модуль поиска переводных заимствований есть уже более года и мы усиленными темпами наращиваем объемы проиндексированного им контента. Иностранного контента, как вы понимаете, существенно больше рускоязычного. Модуль переводных заимствований пока не найдет то, что не проиндексировал, это правда. А вот то, что проиндексировал — найдет. Мы тестировали его на статьях из РИНЦ, нашли серии переводов, когда бралась большая статья на английском и из нее делалась серия публикаций для диссертации.
Риск дело благородное ;)

Так никто ж не предлагает пользоваться готовым переводом. А самостоятельно переведенный текст как-то мне тяжело представить как проверить на плагиат.

Весь фокус в том, что распознается не какаой-то конкретный перевод. Если Антиплагиат проиндексировал английский текст, то он сможет обнаружить широкий спектр точных переводов его на русский и казахский (поддерживаемые сейчас языки).
Трудности перевода: как найти плагиат с английского языка в русских научных статьях
Признаться честно, как-то, когда отчет надо было водой разбавить, я просто засунул туда 10 страниц перевода статьи одного китайца.
Не было бы дебильных требований об объемах и т.п., не было бы нужды мухлевать.
А так у нас получается, что наука все глубже и глубже засаживается в [censored] из-за все более и более дебильных требований «верхушки». Одной из немаловажных проблем является то, что наукой теперь руководят «эффективные манагеры», т.е. пустоголовые бизнесмены, у которых даже грамотность хромает, но им очень хочется набить свой карман деньгами и отчитаться батюшке царю, как все замечательно!
Вот бы не назвала этот способ простым. Во-первых, машинный перевод научнику не покажешь, а ручной те еще трудозатраты. Во-вторых, этож нужно еще найти подходящий текст с совпадающей темой, подходящими требованиями к работе. По тематике моего диплома вообще ничего не было, кроме ссылок на научника, его научника и их учеников, ну и, сходная тематика, но довольно далёкая от конкретной темы. Поиск я этот вела намеренно, чтоб велосипед не изобретать и иметь ссылки на иностранные работы в это направление.
Для закрытия данной бреши мы применяем оптическое распознавание текста.

Интересно, а текст в кривых (но не символами) вы тоже распознаёте?

Для распознавания плагиата опытному преподавателю достаточно задать пару вопросов студенту по содержанию его работы.
И все технические способы обхода антиплагиата тут же идут лесом.
Плагиат в каком-нибудь реферате совершенно не исключает, что студент разбирается в материале. Может быть просто лениво что-то от себя писать — проще с гугл транслейтом и минимальными правками получить более-менее адекватный текст.
Плагиат в каком-нибудь реферате совершенно не исключает, что студент разбирается в материале


Те, кто разбирается в теме — обычно (т.е. практически всегда) в курсе требований к допустимому объему цитирования. Плюс они сами способны проверить свои работы на плагиат и не приносят заведомо непроходные работы.

(к слову, большинство описанных в статье уловок с текстом — выявляется за секунды при помощи пары «самодельных» макросов, выделяющих все «левые» места ярким красным цветом )
Никакой конвертации в pdf при этом делать ненужно.
Такие крутые технологии определенно стоят треть миллиарда бюджетных денег и совершенно точно улучшат качество российского образования.
Интересно, а если написать макрос которые вставит в нужные места документа недостающие слова? Объяснить необходимость скрипта можно какими-нибудь интерактивными графиками. По идее, при конвертации в pdf — такой текст скорее всего потеряется, и текст станет уникальным.

В идеале, можно даже сделать три версии текста:
1. одну уникальную, но бредовую скажем пропустив текст через цепочку переводов.
2. неуникальную (скачанная из инета версия).
3. «Поврежденный текст» — мешанина символов и сообщений об рандомых ошибках сделанная в формате картинок.

Потом в версию «Поврежденный текст» каким-то простым способом типа невидимых абзацев вставляем уникальную версию, и пишем макрос, который заменяет всю эту белиберду на неуникальную версию.

В деканате поясняем, что «глюк ворда» приводит к ошибкам если запретить макросы, так «работа по программированию». Учитывая уровень проверяльщиков, обычно даже ничего пояснять не придется. «Специалист» откроет файл, увидит кучу ошибок, вспомнит и нажмет «разрешить», увидев нормальный текст (не уникальный), радостно загрузит его на сайт. Машина при конвертации в pdf проигнорирует макрос, попробует восстановить текст с картинок с ошибками, при этом найдет только мешанину символов (надо добавить уникальную мешанину), и проигнорирует картинки, но восстановит невидимый текст. Так как восстановленный текст уникальный, то программа просто сообщит о проблемах в файле, но уникальность текста сочтет высокой. «Специалист» скорее всего на ошибки даже не посмотрит (или спишет на особенности «работы по программированию»), его интересует только одно число — уникальность текста. Она высокая — квест пройден :)
В деканате поясняем


В большинстве случаев преподавателю достаточно взглянуть на текст вашей работы (10 минут по диагонали), что бы определить — заимствован текст или нет.
Потом задается пара вопросов по конкретным интересным местам — и дело становится абсолютно ясным.
(опыт работы, да)
Не оценивая степень соответствия вашего комментария реальности, замечу, что он не имеет отношения к описываемому мной сценарию. Статья ТС описывает существующий инструмент и методы его обмана. Я только предложил еще один метод (рабочий или нет — вопрос открытый). Обсуждения степени востребованности самого инструмента — несколько другая тема.

Также, замечу что сам факт существования инструмента (компании/бизнеса, построенного на нем), является сильным (хоть и не абсолютным) свидетельством его востребованности.
что он не имеет отношения к описываемому мной сценарию


У вас было: «Учитывая уровень проверяльщиков, обычно даже ничего пояснять не придется»

Уровень у проверяющих может быть разный, но описанный мной метод вполне работает.
При этом проверяющий может быть и не в теме работы — но стиль изложения материала всегда выдает (опытных рерайтеров среди студентов крайне мало, даже на факультете журналистики).
Антиплагиат в отчёте показывает уже сконвертированную pdf-версию. Весь мусор будет там виден как на ладони. Сработает обнаружение обходов конвертаций. Будут вопить метрики. Спасибо. Следующий.
Каждый раз, как идут статьи от антиплагиата, я вспоминаю уже двухлетнюю (трех?) проблему сломанного цитирования. Поясню.
Регулярно, если в тексте есть формулы (вроде, еще таблицы и метаданные из вставленных рисунков), они перегенерируются во всякий мусор, среди них с большой вероятностью находится двойные кавычки и начинаются чудеса. До следующих таких ненастоящих кавычек весь блок текста объявляется цитированием. В некоторых работах у моих студентов так получалось до 20-40% в один непрерывный блок (от 40-50 страниц 14 шрифтом), при этом никакого настоящего цитирования там нет.
В результате, просто эту проверку отключаешь. Хорошо еще, что работы у нас чисто проектные, цитирование как таковое не является значимой частью.
P.S. Комментарий в сторону. В текущих академических реалиях, самоцитирование (сборка диссертаций и дипломов из своих других работ, статей там или других публикаций) фактически запрещено.

Со стороны:
В таких реалиях в науке останутся только умеющие обходить и бороться с неожиданными препятствиями из области бюрократии, а вот умеющим думать на другие темы места не останется, у них просто не хватит времени на обход этого всего...