andyray Nov 14 2018 at 09:44

Так устроен поиск заимствований в Антиплагиате

11 min

41K

«Антиплагиат» corporate blogSearch engines*Semantics*Algorithms*Mathematics*

+27

Comments 31

Barsik68 Nov 14 2018 at 10:16

Сервис конечно полезный. Но то как его использует Минобр, это нечто.
Кандидатская диссертация не проходит проверку из-за «плагиата» моих же научных статей, опубликованных в процессе написания диссертации.

andyray Nov 14 2018 at 10:22

Проблема понятна и знакома, но не в области Минобра. Это зона ответственности конкретного диссертационного совета. Мы неоднократно писали письма с разъяснениями, можете написать мне в личку, постараемся помочь. В целом, мы ведем активную разъяснительную работу и уже есть достаточно много мест правильной работы с нашим инструментом.

Barsik68 Nov 14 2018 at 10:50

Спасибо! Уже корочка получена.

SandroSmith Nov 15 2018 at 13:30

За 28 минут решили проблему? Вот это я понимаю — связи!

Gorily Nov 14 2018 at 10:29

Писал в помощь кафедре утилиту, которая позволяла быстро определять попытки грязного обхода вашей системы. Критерии следующие: скрытый текст, блоки с текстом (скрытые, прозрачные, белые, за границей документа), подмена букв, определение прямых модификаций разметки и вывод небольшой статистики: количество изображений в документе, общее количество ошибок.
Это позволяет «на потоке» быстро отсечь совершенно левые работы. При тестировании умудрялись находить работы, где использовались все методы одновременно.
Думаю, что тема для вас не нова, но мне кажется, что было бы неплохо встроить эту проверку на этапе загрузки документа.

andyray Nov 14 2018 at 10:40

Это есть на этапе загрузки документа. Все что вы перечислили уже встроено в систему. Недавно мы сделали показ этой информации в интерфейсе (ниже пример того как это выглядит) и обновили критерий подозрительного документа. Опыт ценный, буду признателен, если поделитесь примерами «подготовленных» документов.

Gorily Nov 14 2018 at 10:44

Тогда просто молодцы :)

DNASoft Nov 14 2018 at 17:08

А как боретесь с «синонимированием»? Надеюсь правильно употребил термин, когда производится автоматическая замена словом-синонимом. Два синонима в предложении и это же будет уже совершенно иной и «чистый» текст.

andyray Nov 14 2018 at 17:16

Как мы боремся с перефразированием описано в статье «Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

yury_chekhovich Nov 14 2018 at 10:37

Кстати, по накопленному опыту, наши письма очень даже помогают поставить ситуацию на место. Хочется, конечно, решить ситуацию системно, но, например, в этом году Минобру было не до плагиата в диссертациях :)

RRRoma Nov 14 2018 at 10:41

Огромные проблемы возникают у студентов-технарей и, соответственно, преподавателей. Большинство курсовых работ — это один и тот же расчет по разным исходным данным и отличия между курсовиками в формулах, таблицах, графиках и чертежах. А текстовая часть и названия рисунков — идентичные.

andyray Nov 14 2018 at 10:47

А зачем в этом случае использовать «Антиплагиат»? Тут скорее эксель нужен для проверки расчетов. Коллекция одобренного к цитированию текста для компании у нас в планах. Правда, пока не могу сказать когда мы это зарелизим. Это должно снять боль студентов-технарей в сценарии описанном вами.

paranoya_prod Nov 14 2018 at 10:58

А это никого не волнует на всех уровнях выше преподавателя/студента/заведующего кафедрой — всё у всех должно быть разное!
Сколько я слов нелестных слышал, работая на кафедре ИТ от преподов ИТ и математиков. Понятное дело, что проблема не в Антиплагиате, а в системе контроля образования, но негативные эмоции возникают только после проверки на плагиат.

RRRoma Nov 14 2018 at 11:31

Вопрос переадресуем к Министерству науки и высшего образования — это их требования.
А расчеты и чертежи и так проверяем на правильность.

yury_chekhovich Nov 14 2018 at 17:01

Это не требования МОН. Это требования вуза, так как конкретный порядок сбора ВКР и проверки на заимствования определяется локальными актами учебной организации

yury_chekhovich Nov 14 2018 at 17:02

Для уточнения: п.38, приказа Минобрнауки РФ №636 от 29 июня 2015 года.

Dvlbug Nov 14 2018 at 16:49

Год назад сдавал дипломную работу. Преподаватели были рады, что это не очередная «локалка на предприятии»

knstqq Nov 14 2018 at 11:46

(удалено)

Zenitchik Nov 14 2018 at 15:38

Microsoft Office 97

2000

andyray Nov 14 2018 at 15:51

Когда готовил статью, то на автомате написал, что 97 офис был последним, для которого doc был родным форматом. Позже занялся проверкой фактов, оказалось, что doc был основным для Word вплоть до 2003 включительно. MS Compatibility Pack, дающий старым версиям возможность читать и писать docx, имеет минимальные требования Word 2000 sp3.

khim Nov 14 2018 at 21:14

Снова нет: www.microsoft.com/en-us/download/details.aspx?id=33298

Recommended Microsoft Office programs:

Microsoft Word 2000 with Service Pack 3, Microsoft Excel 2000 with Service Pack 3, and Microsoft PowerPoint 2000 with Service Pack 3

Microsoft Word 2002 with Service Pack 3, Microsoft Excel 2002 with Service Pack 3, and Microsoft PowerPoint 2002 with Service Pack 3

Microsoft Office Word 2003 with at least Service Pack 1, Microsoft Office Excel 2003 with at least Service Pack 1, and Microsoft Office PowerPoint 2003 with at least Service Pack 1

Ваша первоначальная идея была-таки верна. Почти. MS Office 97 — был последним, который не умеет DOCX вообще. А «из коробки» его добавили только в версии с пресловутым риббоном (2007+)

Datamining Nov 14 2018 at 16:34

Меня очень смущает жадный алгоритм.
Вы сравнивали его полноту с не жадным?
А с MinHash, Bloom filter, SimHash, w-shingling, Count-min sketch?

andyray Nov 14 2018 at 16:36

Как применить хотя бы один из перечисленных алгоритмов в том месте где я упомянул про жадность? Жадный алгоритм выбора документов-кандидатов для построения отчета эффективен и отлично справляется с поставленной задачей.
Возможно я неправильно понял ваш вопрос?

Datamining Nov 14 2018 at 17:54

Огромное спасибо за ваш проект. Жаль, что в 21 веке такой отчет до сих пор не обязателен. Я не ставлю под сомнение эффективность алгоритма, но если эта информация не является секретной было бы классно опубликовать чуть больше технических деталей.

Жадным называется алгоритм, принимающий локально оптимальные решения. В примере с поиском документов по запросу логично предположить, что такой алгоритм может снижать полноту выборки по документам. Поскольку большое количество хешей(не фрагментов) еще не гарантия того, что будут найдены все заимствования, то вроде как условия для жадности не выполняется.
Например, на основании 2х первых наборов хешей будет отброшен документ содержащий общий набор хешей, но в нем будет заимствование, которого может не оказаться в первых документах.
1: AAA 2:BBB 3:AB
Я понимаю, что с учетом перекрытия при шинглировании реальный пример будет сложнее, но потеря полноты на данном этапе может помешать установить наибольший заимствованный фрагмент например.
Если же вспомнить, что хеши имеют коллизии, то еще больше хочется увидеть конкретные цифры полноты и точности для данного алгоритма.
Пример того, как можно использовать MinHash:
Считаем MinHash для типичных фрагментов абзац/предложение, совпадение хешей в этом случае будет означать совпадение фрагментов с вероятностью, которой можно управлять количеством хеш-функций. В дальнейшем, при отборе документов мы имеем фрагменты текста, а нет хеши.

andyray Nov 14 2018 at 18:11

Тут весь фокус в том, что мы не стремимся за полнотой. Важно найти большие фрагменты, а если останутся несколько единичных n-ок слов (черепички), то это не сыграет большой роли и мы заодно не покажем заимствование какого-то часто употребимого набора слов. От отчета требуется максимизировать покрытие текста-запроса найденными фрагментами и вполне логично брать для подробного сравнения документы-кандидаты с большим числом совпавших шинглов. Как показывает практика практически все шинглы документа-кандидата потом вычеркиваются из дальнейшего рассмотрения.

Gryphon88 Nov 14 2018 at 17:32

У меня такой вопрос: я балуюсь корректорской вычиткой на сайтах фанфиков и самиздате, проблема в том, что глаз достаточно быстро замыливается, в итоге я не могу определить, какой в этом случае ставится знак препинания и ставится ли вообще (в первую очередь вводные слова, слова-предложения, несколько союзов подряд, устоявшиеся выражения). Поскольку заучивать Розенталя мне откровенно лень, хотел написать себе хелпер: сопоставление выбранного неуникального куска текста с корпусом литературы, например, от Чехова и до 80х (в 90х корректоры с редакторами, случалось, откровенно халявили), и просто смотреть, ставилась запятая или таки нет. Хотел бы попросить совета по подготовке и хранению текста: имеет ли поступить как это описали Вы (лемматизация, черепички), привязать к хэшу положение в тексте, а потом смотреть глазами, есть ли там запятая. Или стоит как-то иначе?

andyray Nov 14 2018 at 18:47

Объем указанных вами источников не очень велик. Думаю в десяток гигов все влезет. Я бы предложил использовать вторую часть нашего поиска сразу. Копайте в сторону суффиксных деревьев для быстрого поиска. Такое дерево вам потребуется построить единожды т.к. ваш эталонный корпус текстов, судя по всему, меняться уже не будет.

kisskin Nov 14 2018 at 17:40

Забавно, я будучи преподавателем вуза написал прообраз подобной системы в 2000-м году) Тоже в марте) С интернетом тогда еще были сложности и рефераты в основном были на компакт-дисках, а обсуждение системы было в конференции фидонета) Го*ны среди студентов начали сразу бурлить от понимания того, что тайное можно сделать явным. Дошел тогда до того, что сам текст хранить не надо, надо хешировать, но скорость поиска совпадений всё одно была печальной (2000-й год все таки, компьютеры уровня Целерона 466-го). Но в большей степени остановило меня тогда необходимость извлечения текста из документов разных форматов типа doc, поэтому студенты получили еще 5 лет халявы)
И всё-таки хорошо, что такую систему сделали)
Желаю успехов в дальнейшем развитии!

Zenitchik Nov 14 2018 at 18:19

необходимость извлечения текста из документов разных форматов типа doc

На локальной машине для этого можно пользоваться Word'ом. Пишем ему макрос, который будет извлекать текст и сохранять его в txt, и радуемся жизни.

Qvini Nov 15 2018 at 00:08

Интересно узнать, как построена разработка, какие у Вас процессы, как устроен быт команд! Как Вы всё это делаете и доносите продукт пользователю?

andyray Nov 15 2018 at 00:09

Есть в планах такая статья.