Комментарии 13
Почему б не выложить тестовые тексты на GitHub?
критикуйте, восхищайтесь
Пока не вижу причин.
быстрее аналогов (~200 док/c);
Что такое «док/с»? Документов в секунду? Не пробовали в CLD3 устанавливать лимит символов на определение?
Это для того, чтобы по русской аннотации сказать на казахскую статью что она русская? Ну так себе развлечение…
Кстати есть 3-х язычные статьи, например, киргизско-русско-английские. И, наверное, не только на постсоветском пространстве.
Трех-язычные тексты статей — это обычное дело для наших соседей. Я могу придумать разумные примеры с четырьмя языками.
А зачем тексты выкладывать
 мы могли бы удостовериться в ваших выводах…
Текстовые датасеты выложить не получится — тексты принадлежат пользователям. Можно погонять на чем-то открытом, но возникают проблемы с адекватностью выборки.
помню вашу систему по университету. Не знаю, как сейчас, но тогда обходилась довольно легко особой подменой пробелов невидимыми знаками в вордовском документе
Сейчас, насколько я слышал, система создает графический образ документа (типа виртуального принтера), а затем его распознает с нуля. То есть манипуляции с символами бесполезны. Также обрабатываются близкие синонимы и простые замены слов.

Остается старый добрый рерайт, чуть подольше, но зато обеспечивает уникальность 90+%. Юристам только плохо — цитаты из нормативки не отрерайтишь, а они нужны объективно.
Я предполагаю, что у юристов и не нужна борьба с цитатами. Тема работы обычно сужает список используемой литературы, а, если она — это тексты законов, то и вообще выбора не остаётся.
Система предполагает цитирования, которые считаются отдельно от заимствований.
Для юридических текстов уже лет восемь работает механизм т.н. «белой коллекции», который окрашивает юридические тексты, как корректное цитирование. Так что юристы не страдают :)
Сейчас я аспирант, и на методологии полгода назад нам секретарь ученого совета жаловался на проблемы с цитатами из нормативки. Дескать, приходится вручную проглядывать работу и чистить цитаты, помеченные как некорректные заимствования. Мне пока еще проверять нечего, поэтому с уверенностью — так ли это, не скажу ;)
Если возникают конкретные ситуации, напишите в личку. Сможем посмотреть — возможно это баг и где-то нормативка не определяется корректно.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Информация

Местоположение
Россия
Сайт
www.antiplagiat.ru
Численность
51–100 человек
Дата регистрации

Блог на Хабре