Pull to refresh

Comments 50

Приведенные в качестве примеров фрагменты не являются плагиатом — по крайней мере первый точно. Это просто та-же самая информация изложенная на том же самом языке.
Ещё лучшего результата можно достичь если построить семантические деревья для текстов и их сравнить. Только вот к плагиату это будет иметь крайне опосредованное отношение, особенно когда речь идет не об оригинальном исследовании а о перечислении общеизвестных фактов.
Вы правы, первый пример не является плагиатом. Но он также и не является оригинальным текстом: этот факт явно заимствован из некоторого источника. Не любое заимствование является плагиатом, поэтому так важна проверка отчета экспертом.
Вам бы поиск по документации запилить, чтобы пишешь запрос на своем ламерском, а он выдает книжки где то же самое, но по человечески.
А эти антиплагиаты нормальным людям нужны также как роскопозоры интернету.
Сформулированная задача — поиск пертинентного ответа на нечеткий вопрос на естественном языке — это «поиск философского камня» в информационном поиске. Может быть и у нас получится внести свою скромную лепту ;)
Что касается нужности/ненужности, то есть очень простой довод. Примерно к 2005 году письменная студенческая работа умерла как жанр — практически все скачивали и сдавали. Про диссертации тоже особо говорить не стоит. Можно было защититься за недорого.
Если решить, что этот жанр в информационную эпоху не нужен, а вместо написания диплома теперь нужно будет спеть, станцевать, художественно прочитать стихи, отлить заготовку или метнуть молот, то никаких проблем — закрываем антиплагиат вместе с необходимостью писать работы. Но пока люди работы пишут, должна быть возможность узнать, а не списывают ли?
Проблема в том, что данная программа не способна именно в секторе студенческих работ сделать ничего кроме поиска прямых заимствований. Так-как ученические работы в принципе базируются на общеизвестном и открытом материале — в общем случае невозможно установить — является ли отдельный короткий фрагмент «творчески переработанным» фрагментом другой работы или самостоятельно написан на основании аналогичных источников — факты то должны быть изложены одни и те-же.
Так что за пределами поиска прямых заимствований — продукты антиплагиата чаще всего бесполезны или вредны. В принципе можно легко провести эксперимент который это подтвердит — если дать достаточно большой группе студентов написать ответ на простой и однозначный вопрос — алгоритмы нечеткого поиска найдут у них значительное количество перекрестных заимствований. Вероятно даже прямое цитирование обнаружится.
в общем случае невозможно установить — является ли отдельный короткий фрагмент «творчески переработанным» фрагментом другой работы или самостоятельно написан на основании аналогичных источников

Поэтому нечетким поиском мы определяем достаточно длинные фрагменты. И полнота и точность нечеткого поиска на средне-модифицированных заимствованиях превышают 90%, что адекватно задачам алгоритма.
Немного большего качества можно достичь семантическими моделями, но они работают в десятки (а то и сотни) раз медленнее.
Проводили похожее исследование. Исследовались выпускные школьные сочинения по литературе. Темы у всех простые и однозначные и — это важно — одинаковые. Из источников, только сами произведения. Фактические даже задана структура работы. Введение, три аргумента, заключение. Естественно, учителя следили, чтобы не было общения и списывания. Результат — практически нет совпадений. Только цитаты. Что и требовалось доказать. А студент должен лучше владеть языком лучше чем выпускник школы. Так что финал немного предсказуем.
У меня несколько другие сведения. Сам я простой программист и с образованием не связан, меня это только краем задело, когда ребенку в школе работы заворачивали, причем на основании бесплатной версии — определения и наименования длинной в несколько слов она склонна засчитывать в плагиат. Но я вам процитирую немножко цитаты людей с академической средой связанных непосредственно и в чьем владении языком сомневаться отнюдь не приходится:
… особенно когда запрос тебе стоит: перечислите функции органа Х/ механизма Y. Тут как идиот сидишь и десять раз переформулируешь, чтоб под антиплагиат не попасть. И на выходе получается, как в том описании кефирной диеты, мать ее, где кефир на седьмой итерации окрестили «основной питательной жидкостью»

Биология, боль моя, где термин как раз величиной в их шиндл в среднем, там вообще каждый раз удавишься, пока хотя бы 50% оригинала не получишь. Что в технических всяких трудах твориться — и думать не хочу

«Едва успев закончить со штековым будланием бокра, куздра (что немаловажно для нашего исследования, глокая), перешла к курдяченью бокренка»… И вот так мы теперь и пишем...


Т.е. понятно что дело не в инструменте, дело в его применении. Но это применение, в том числе, основано на том как вы свой инструмент позиционируете. Люди хотят снять с себя ответственность и необходимость напрягаться — вы им такую возможность предоставляете. Хорошему преподавателю ваш инструмент не нужен. Учитывая общий уровень дна на котором находиться наше образование — антиплагиат популярен. В странах с иной юридической системой вас бы уже раскатали исками, и заставили написать соответствующие предупреждения.
Статья как раз посвящена алгоритму, который начинает распространяться с шингла длиной в 5, а не 3 слова, как это делает дословный суффиксный массив. Если нечеткий дубликат в итоге оказался коротким он не будет учитываться

Оригинальные технические статьи (к примеру, на Хабре) имеют высокий процент уникального текста, хотя и не затачивались под Антиплагиат.
С каждым годом алгоритмов всё больше, их сложность всё выше, а растет лишь показатель «Заимствований» по больнице.

Либо система образования пытается измерять температуру транспортиром, либо алгоритмы, заточенные на повышение количественных показателей не способны повлиять на качество.

В любом случае — в текущей форме АП отличный фильтр для откровенно обнаглевших, но стоит ли ожидать от него инструментов определения «Веса» заимствований, а не объема?
Если студент способен защитить списанную работу и ответить по ней на все дополнительные вопросы преподователя, то он вполне заслуживает хорошую оценку.
Смысл образования в том чтобы студент получил свои знания, а не в написании уникальных работ.
Смысл образования (особенно профессионального) в том, чтобы студент получил не только знания, но и умения и навыки. Одним из таких навыков является способность самостоятельно выполнить работу и изложить ее результаты в письменном виде. Полностью уникальной работа быть не должна — так сейчас и не бывает, но его собственные результаты, должны быть очень четко отделены от того, что сделано другими. А умение проводить такое разделение, также является оцениваемым навыком.
При этом продукты антиплагиата позиционируются как готовое решение обнаруживающие именно «плагиат» и оценивающее «качество контента». Конечный пользователь склонен использовать их в соответстветствии с этим. Выдала умная программа 25% оригинальности — и ленивый преподаватель не будет разбираться — зачем ему? Результат — демотивация студента, который потратил на выполнение задания многие часы и знает что работа оригинальная.
Если работа действительно была самостоятельной, Антиплагиат определит значительно больше 25% оригинальности.
А давайте тест. Ответьте на вопрос: «Что такое вектор?»
Мне кажется, что для темы дипломной (или даже курсовой) работы, это узковато. ;) Хотя, если припрет, несколько страниц текста высокой оригинальности можно написать и здесь.
Так о чем и речь. Написать можно, но возможно — придется налить воды. Нормальный краткий ответ будет определением.
Для проверки дипломной работы или диссертации в общем случае антиплагиат не нужен — приемку осуществляет квалифицированная комиссия и она должна оценивать оригинальность работы опираясь не на объем цитирования. А если её члены так не могут — то их бы стоило лишить ученых званий. В сложившейся практике антиплагиат применяется для проверки рядовых школьных и студенческих работ, и проблема тут не в самом инструменте.
Вы смешиваете. Определения — это одно. Тут важна точность. Дипломная работа — это результат исследования. Это не определения. Работа может быть и краткой, но если мы говорим о работе специалиста или магистра, то в ней должны быть новые результаты. А комиссия просто технически не в состоянии оценить оригинальность — на один диплом у нее 10-15 минут. Поэтому нужен инструмент, который, как и любой другой, нужно использовать с умом.
Кстати, говоря про несколько страниц про вектор, я не собирался лить воду. Это могло быть интересное исследование, основанное на сопоставлении источников с моими собственными выводами. Если бы было на это время. И еще раз подумайте о сочинении. Если человек пишет сам, то текст будет точно оригинальным.
Госкомиссии на дипломных и диссертациях и сейчас не используют антиплагиат — зачем он им? Члены комиссии обычно в курсе последних значимых работ по теме и знают весь опорный материал. И если сплагиаченая диссертация проходит комиссию — ну значит кому-то это было надо. Наверное, просто человек уважаемый.

Речь об учебных работах. В которых научной новизны и оригинальности должно быть 0.0%. И на которых антиплагиат регулярно срабатывает даже при полностью ручном написании. В конце концов сколькими разными способами можно изложить одну и ту же мысль? Очень скоро все они окажутся в архивах учебного заведения. Смотрите, первая попавшаяся ссылка:
www.hse.ru/studyspravka/plagiat
К письменным учебным работам (далее – письменные работы) относятся все письменные работы, выполняемые студентами в ходе промежуточной аттестации в соответствии с программой учебной дисциплины, а также в ходе государственной итоговой аттестации. Они включают письменные домашние задания ...
Госкомиссии на дипломных и диссертациях и сейчас не используют антиплагиат — зачем он им?

Неправда ваша, дяденька Биденко ;)
Используют, потому что обязаны. Есть соответствующая нормативка от правительства и министерства и каждый вуз принял у себя необходимые локальные акты. Если нужно дам ссылки на соответствующие документы.
Членам комиссии знать весь опорный материал не возможно. В индексе АП только из области экономики десятки миллионов разных документов (не дубликатов).
Посмотрите здесь: habr.com/ru/company/antiplagiat/blog/413361
Ок, соглашусь, не был в курсе. Скоро вообще комиссии разгоним, пусть нейросети принимают. Соглашусь даже с тем что в области диссертаций от антиплагиата возможно есть польза.
Но. Вы действительно считаете возможным применение антиплагиата для проверки домашних заданий? За исключением сочинений и эссе — там по опыту действительно все нормально.
Можно проверять домашние задания только очень ограниченных видов. В остальных случаях — будет полная глупость.
О. Ура. Мы поняли друг-друга. Теперь осталось это идею донести до учебных заведений, у которых прямо в руководящих документах написано применять антиплагиат к домашним работам, я выше привел типичный вариант.
О! Сколько же до них всего нужно донести. Я встречаюсь с представителями не менее чем 100 вузов ежегодно и чувствую, что и этого не хватает.

Студенческие работы придуманы, чтобы облегчить труд преподавателя. Ему платят фиксированную сумму за проверку работ; следовательно в его интересах минимизировать свое затрачиваемое время, чтобы получить максимальную почасовую оплату. Они делают это, задавая студентам сделать работу, которую они пролистают по диагонали за минуту (проверяя наличие ключевых слов в заголовках).


С точки зрения студента стратегии получаются такие:


  • если у вас есть тема, которая вас интересует, уговариваете преподавателя дать вам ее, всерьез изучаете тему, делаете хорошую работу, которую он все равно не прочтет, вывешиваете на сайт, ссылку кидаете на хабр для получения моего критического комментария. Получаете знания, известность и материал для привлечения внимания топовых работодателей.


    Ну вот например, какой-то чувак сделал работу про анализ регулярных выражений, и по ней сразу понятно, что он умный и его надо брать: https://swtch.com/~rsc/regexp/regexp1.html. Этот чувак наверно умнее любого кандидата, с которым вы столкнетесь на среднестатистическом собеседовании в среднестатистическую компанию.


  • если вам неинтересно, копируете работу с Интернета, меняете слова в заголовках, печатаете и с невозмутимым видом сдаете. У препода нет времени сканировать ее и загонять в антиплагиат, да и даже если она скопирована, а у вас нет времени на формальные задания.



Там ниже еще пишут про серьезные работы, диссертации и проч. Ну а где гарантия, что у преподавателей к ним не такое же отношение? Может, преподаватели думают "вы делаете вид, что платите, мы делаем вид, что проверяем работы". А может там просто сидят выгоревшие люди, которые ничего другого делать не умеют и которым больше некуда пойти. Когда я учился, у меня были преподаватели, которые бубнили лекции по бумажке.


А этот сервис, я думаю, больше для сео-шников. Как известно, поисковики ценят уникальный (по мнению их робота) контент, потому для поднятия сайта надо размещать на нем больше приятных роботу статей. При заказе таких статей надо проверять, чтобы тебе фрилансер-лентяй не подсунул копипасту. Отсюда и все эти фильтры для отлова перефразированных предложений.


P.S. Хотел из любопытства загрузить свои комментарии и флуд с других ресурсов для проверки на уникальность (я уверен, что он уникален на 100%), но без регистрации нельзя воспользоваться системой, так что отказался от этой идеи.

1. Все-таки в нормальных вузах выбор темы диплома — является совместным творчеством научрука и студента. Если не так, то следует задуматься о нормальности вуза.
2. Даже если тема студенту неинтересна, то это не повод читерствовать при подготовке диплома. На работе тоже вкусные задачи прилетают не каждый день, но работодатель не поймет, если сотрудник будет халтурить. В общем не так все однозначно.
3. Диплом — это квалификационная работа. Подтверждается квалификацию студента по умению провести исследование на заданную (пусть и не очень интересную ему тему). Если такого умения нет (работа списана), значит квалификация отсутствует.
4. Проверил ваш коммент. Результат пока нулевой. Так что все ок — писали сами. :) Через некоторое время будет находиться адрес этой страницы на habr.
С нулевыми результатами (по крайней мере в бесплатной версии) сейчас крайне интересно — взял статью про блоху с английской версии википедии, прогнал через гугл-транслэйт, скормил антиплагиату — 100% оригинальности. Выглядит как лайфхак.
статью про блоху с английской версии википедии, прогнал через гугл-транслэйт, скормил антиплагиату — 100% оригинальности.

Проверяли бесплатным сервисом? Там нет поиска переводных заимствований, поэтому результат предсказуем.
Артур Конан-Дойль, «Серебрянный» (из серии «Записки о Шерлоке Холмсе»)

Стеклянный, оловянный деревянный. Здесь "н" двойное.
В остальных прилагательных — одинарное. Серебряный.
Сорри, что не в личку — не нашёл ссылку в мобильном интерфейсе.

Спасибо за замечание, пропустили! :)
Странно, пока показывает без исправления эту цитату в тексте.

Наши законотворцы не планируют использовать подобные системы? А то встречается огромное кол-во ворованного текста, немного переделанного рерайтерами. Сделать ничего с ними нельзя, т.к. с точки зрения закона — новый текст не похож на оригинальный. Однако затраты на рерайтера в сотни раз меньше, чем затраты на авторов оригинального текста.

Мы готовим инструмент. Использовать может каждый. Как говорится, можно привести коня к водопою, но заставить его пить…
.
Спасибо за ответ. На Хабре последнее время повышенное напряжение у аудитории. Минусуют как на развлекательных ресурсах без высказываний и обсуждений.

Во всей этой истории с диссертациями у меня ощущение, что идёт борьба за формальный признак (оригинальность) при этом куда-то исчезает суть.


В чём суть диссертации? Это же не курсовая работа, в которой ученик должен показать знания. Это же научная работа, которая нетривиально новая. Не "отсутствуют заимствования", а нетривиально новая научная работа. Как мне кажется, вместо упора на "нетривиально новая" лучше фокусироваться на "научная работа".


Вот если я нетривиальным новым образом натыкаю рандомных кнопок и отформатирую шрифтами по ГОСТу — это будет научная работа? Эм...

Согласен, что суть существенно важнее. Но что делать, когда в стране защищены тысячи диссертаций, в которых практически нет оригинального текста? Оригинальность не самоцель. Но ее отсутствие — это верный признак проблем.

У этих диссертаций отсутствие оригинального текста — это главная проблема? Неужели все они были научными работами?


… каков критерий научности работы для средней руки историка-политолога, напомните? Отсутствие заимствований — и пусть развернётся фантазия на 100500 кнопок?

Еще раз: неоригинальный текст — это не критерий, это признак. Прочитать больше 30 тысяч диссертаций в год (столько защищалось работ во второй половине нулевых) никто не в состоянии. А для того, чтобы с вполне приличным качеством исследовать их на на заимствования нужно несколько часов машинного времени. Дальше начинайте разбираться с содержанием начиная с топовых по доле заимствованного текста. Это будет погружение в ад. ;) Их уже должны были прочитать несколько человек, но очевидно этого никто не сделал. За что степень?
Просто когда нет проверки на заимствования, то очевидно защищается всякий мусор. Сейчас этот путь уже закрыт. Да открыты другие (перечислять не буду), но это не значит, что закрывание самого просто бесполезно.
Для проверки научности работы и квалификации выпускника или ученого существуют другие, не менее важные процессы: защиты, комиссии, экзамены, преподавательские и экспертные оценки. Тем не менее, проблема списывания одна из самых популярных. Мы предоставляем сопутствующий этим процессам инструмент, чтобы упростить оценку в случаях, когда работа должна быть самостоятельной.

А как вы можете доказать, что у вас низкий уровень ложно-положительных срабатываний?


Я бы вот не отказался от анализа работ, за которые давали нобелевки. Желательно, без предварительного файн-тюнинга вашего алгоритма под этот "специальный" случай.


Последняя опубликованная работа лауреата Новоселова. У нас нет размеченного корпуса с работами Нобелевских лауреатов, но после прогона на различных тестовых корпусах, не использованных в обучении, микро-усредненная точность была в пределах 85-95% для сильно модифицированных заимствований и 98% для слабо-модифицированных.

Это один из примеров. С другой стороны, если бы его работу завернули за "заимствования" в объёме 1.5%, то кому было бы обидно?

Подскажите, пожалуйста, а как в работе можно явно выделить заимствование (чтобы читатель не думал, что это часть исследования, а антиплагиат игнорировал блок, так как автор подтвердил цитирование)?


Например, фразами вида "по мнению ХХХХ из работы QQQQ, термин PPPP означает GGGG" автор осознанно добавляет в свою статью заимствованный блок, так что вроде как нет смысла запрещать/ограничивать подобное.

Выделение косвенного цитирования под автоматическое обнаружение, это пока вопрос будущего. Поэтому какого-то надежного решения кроме стандартных требований к оформлению цитирования подсказать не могу.
Чувствую, скоро «Антиплагиат» будет комментировать документы на уровне: «Автор явно читал книгу ххх и статью ууу, но не указал их в списке литературы».
А что? Неплохая идея. Я думаю, это интересная задача :)
Главное, чтоб со временем автор не стал лишним звеном в цепочке.
В том, что настоящий автор никогда не станет лишним, я абсолютно уверен. Нужно чтобы лишними стали плагиаторы.
Sign up to leave a comment.