Comments 50
Ещё лучшего результата можно достичь если построить семантические деревья для текстов и их сравнить. Только вот к плагиату это будет иметь крайне опосредованное отношение, особенно когда речь идет не об оригинальном исследовании а о перечислении общеизвестных фактов.
А эти антиплагиаты нормальным людям нужны также как роскопозоры интернету.
Если решить, что этот жанр в информационную эпоху не нужен, а вместо написания диплома теперь нужно будет спеть, станцевать, художественно прочитать стихи, отлить заготовку или метнуть молот, то никаких проблем — закрываем антиплагиат вместе с необходимостью писать работы. Но пока люди работы пишут, должна быть возможность узнать, а не списывают ли?
Так что за пределами поиска прямых заимствований — продукты антиплагиата чаще всего бесполезны или вредны. В принципе можно легко провести эксперимент который это подтвердит — если дать достаточно большой группе студентов написать ответ на простой и однозначный вопрос — алгоритмы нечеткого поиска найдут у них значительное количество перекрестных заимствований. Вероятно даже прямое цитирование обнаружится.
в общем случае невозможно установить — является ли отдельный короткий фрагмент «творчески переработанным» фрагментом другой работы или самостоятельно написан на основании аналогичных источников
Поэтому нечетким поиском мы определяем достаточно длинные фрагменты. И полнота и точность нечеткого поиска на средне-модифицированных заимствованиях превышают 90%, что адекватно задачам алгоритма.
Немного большего качества можно достичь семантическими моделями, но они работают в десятки (а то и сотни) раз медленнее.
… особенно когда запрос тебе стоит: перечислите функции органа Х/ механизма Y. Тут как идиот сидишь и десять раз переформулируешь, чтоб под антиплагиат не попасть. И на выходе получается, как в том описании кефирной диеты, мать ее, где кефир на седьмой итерации окрестили «основной питательной жидкостью»
Биология, боль моя, где термин как раз величиной в их шиндл в среднем, там вообще каждый раз удавишься, пока хотя бы 50% оригинала не получишь. Что в технических всяких трудах твориться — и думать не хочу
«Едва успев закончить со штековым будланием бокра, куздра (что немаловажно для нашего исследования, глокая), перешла к курдяченью бокренка»… И вот так мы теперь и пишем...
Т.е. понятно что дело не в инструменте, дело в его применении. Но это применение, в том числе, основано на том как вы свой инструмент позиционируете. Люди хотят снять с себя ответственность и необходимость напрягаться — вы им такую возможность предоставляете. Хорошему преподавателю ваш инструмент не нужен. Учитывая общий уровень дна на котором находиться наше образование — антиплагиат популярен. В странах с иной юридической системой вас бы уже раскатали исками, и заставили написать соответствующие предупреждения.
Оригинальные технические статьи (к примеру, на Хабре) имеют высокий процент уникального текста, хотя и не затачивались под Антиплагиат.
Либо система образования пытается измерять температуру транспортиром, либо алгоритмы, заточенные на повышение количественных показателей не способны повлиять на качество.
В любом случае — в текущей форме АП отличный фильтр для откровенно обнаглевших, но стоит ли ожидать от него инструментов определения «Веса» заимствований, а не объема?
Смысл образования в том чтобы студент получил свои знания, а не в написании уникальных работ.
Для проверки дипломной работы или диссертации в общем случае антиплагиат не нужен — приемку осуществляет квалифицированная комиссия и она должна оценивать оригинальность работы опираясь не на объем цитирования. А если её члены так не могут — то их бы стоило лишить ученых званий. В сложившейся практике антиплагиат применяется для проверки рядовых школьных и студенческих работ, и проблема тут не в самом инструменте.
Кстати, говоря про несколько страниц про вектор, я не собирался лить воду. Это могло быть интересное исследование, основанное на сопоставлении источников с моими собственными выводами. Если бы было на это время. И еще раз подумайте о сочинении. Если человек пишет сам, то текст будет точно оригинальным.
Речь об учебных работах. В которых научной новизны и оригинальности должно быть 0.0%. И на которых антиплагиат регулярно срабатывает даже при полностью ручном написании. В конце концов сколькими разными способами можно изложить одну и ту же мысль? Очень скоро все они окажутся в архивах учебного заведения. Смотрите, первая попавшаяся ссылка:
www.hse.ru/studyspravka/plagiat
К письменным учебным работам (далее – письменные работы) относятся все письменные работы, выполняемые студентами в ходе промежуточной аттестации в соответствии с программой учебной дисциплины, а также в ходе государственной итоговой аттестации. Они включают письменные домашние задания ...
Госкомиссии на дипломных и диссертациях и сейчас не используют антиплагиат — зачем он им?
Неправда ваша, дяденька Биденко ;)
Используют, потому что обязаны. Есть соответствующая нормативка от правительства и министерства и каждый вуз принял у себя необходимые локальные акты. Если нужно дам ссылки на соответствующие документы.
Членам комиссии знать весь опорный материал не возможно. В индексе АП только из области экономики десятки миллионов разных документов (не дубликатов).
Посмотрите здесь: habr.com/ru/company/antiplagiat/blog/413361
Но. Вы действительно считаете возможным применение антиплагиата для проверки домашних заданий? За исключением сочинений и эссе — там по опыту действительно все нормально.
Студенческие работы придуманы, чтобы облегчить труд преподавателя. Ему платят фиксированную сумму за проверку работ; следовательно в его интересах минимизировать свое затрачиваемое время, чтобы получить максимальную почасовую оплату. Они делают это, задавая студентам сделать работу, которую они пролистают по диагонали за минуту (проверяя наличие ключевых слов в заголовках).
С точки зрения студента стратегии получаются такие:
если у вас есть тема, которая вас интересует, уговариваете преподавателя дать вам ее, всерьез изучаете тему, делаете хорошую работу, которую он все равно не прочтет, вывешиваете на сайт, ссылку кидаете на хабр
для получения моего критического комментария. Получаете знания, известность и материал для привлечения внимания топовых работодателей.
Ну вот например, какой-то чувак сделал работу про анализ регулярных выражений, и по ней сразу понятно, что он умный и его надо брать: https://swtch.com/~rsc/regexp/regexp1.html. Этот чувак наверно умнее любого кандидата, с которым вы столкнетесь на среднестатистическом собеседовании в среднестатистическую компанию.
если вам неинтересно, копируете работу с Интернета, меняете слова в заголовках, печатаете и с невозмутимым видом сдаете. У препода нет времени сканировать ее и загонять в антиплагиат, да и даже если она скопирована, а у вас нет времени на формальные задания.
Там ниже еще пишут про серьезные работы, диссертации и проч. Ну а где гарантия, что у преподавателей к ним не такое же отношение? Может, преподаватели думают "вы делаете вид, что платите, мы делаем вид, что проверяем работы". А может там просто сидят выгоревшие люди, которые ничего другого делать не умеют и которым больше некуда пойти. Когда я учился, у меня были преподаватели, которые бубнили лекции по бумажке.
А этот сервис, я думаю, больше для сео-шников. Как известно, поисковики ценят уникальный (по мнению их робота) контент, потому для поднятия сайта надо размещать на нем больше приятных роботу статей. При заказе таких статей надо проверять, чтобы тебе фрилансер-лентяй не подсунул копипасту. Отсюда и все эти фильтры для отлова перефразированных предложений.
P.S. Хотел из любопытства загрузить свои комментарии и флуд с других ресурсов для проверки на уникальность (я уверен, что он уникален на 100%), но без регистрации нельзя воспользоваться системой, так что отказался от этой идеи.
2. Даже если тема студенту неинтересна, то это не повод читерствовать при подготовке диплома. На работе тоже вкусные задачи прилетают не каждый день, но работодатель не поймет, если сотрудник будет халтурить. В общем не так все однозначно.
3. Диплом — это квалификационная работа. Подтверждается квалификацию студента по умению провести исследование на заданную (пусть и не очень интересную ему тему). Если такого умения нет (работа списана), значит квалификация отсутствует.
4. Проверил ваш коммент. Результат пока нулевой. Так что все ок — писали сами. :) Через некоторое время будет находиться адрес этой страницы на habr.
Артур Конан-Дойль, «Серебрянный» (из серии «Записки о Шерлоке Холмсе»)
Стеклянный, оловянный деревянный. Здесь "н" двойное.
В остальных прилагательных — одинарное. Серебряный.
Сорри, что не в личку — не нашёл ссылку в мобильном интерфейсе.
Наши законотворцы не планируют использовать подобные системы? А то встречается огромное кол-во ворованного текста, немного переделанного рерайтерами. Сделать ничего с ними нельзя, т.к. с точки зрения закона — новый текст не похож на оригинальный. Однако затраты на рерайтера в сотни раз меньше, чем затраты на авторов оригинального текста.
Во всей этой истории с диссертациями у меня ощущение, что идёт борьба за формальный признак (оригинальность) при этом куда-то исчезает суть.
В чём суть диссертации? Это же не курсовая работа, в которой ученик должен показать знания. Это же научная работа, которая нетривиально новая. Не "отсутствуют заимствования", а нетривиально новая научная работа. Как мне кажется, вместо упора на "нетривиально новая" лучше фокусироваться на "научная работа".
Вот если я нетривиальным новым образом натыкаю рандомных кнопок и отформатирую шрифтами по ГОСТу — это будет научная работа? Эм...
У этих диссертаций отсутствие оригинального текста — это главная проблема? Неужели все они были научными работами?
… каков критерий научности работы для средней руки историка-политолога, напомните? Отсутствие заимствований — и пусть развернётся фантазия на 100500 кнопок?
Просто когда нет проверки на заимствования, то очевидно защищается всякий мусор. Сейчас этот путь уже закрыт. Да открыты другие (перечислять не буду), но это не значит, что закрывание самого просто бесполезно.
А как вы можете доказать, что у вас низкий уровень ложно-положительных срабатываний?
Я бы вот не отказался от анализа работ, за которые давали нобелевки. Желательно, без предварительного файн-тюнинга вашего алгоритма под этот "специальный" случай.
Последняя опубликованная работа лауреата Новоселова. У нас нет размеченного корпуса с работами Нобелевских лауреатов, но после прогона на различных тестовых корпусах, не использованных в обучении, микро-усредненная точность была в пределах 85-95% для сильно модифицированных заимствований и 98% для слабо-модифицированных.
Подскажите, пожалуйста, а как в работе можно явно выделить заимствование (чтобы читатель не думал, что это часть исследования, а антиплагиат игнорировал блок, так как автор подтвердил цитирование)?
Например, фразами вида "по мнению ХХХХ из работы QQQQ, термин PPPP означает GGGG" автор осознанно добавляет в свою статью заимствованный блок, так что вроде как нет смысла запрещать/ограничивать подобное.
Таинственный противник: нечеткие заимствования