Содержание

Краткое описание

Корпус ParaPlag предназначен для оценки качества работы методов выявления плагиата. Он может быть использован в обеих подзадачах поиска плагиата: text alignment и source retrieval.

Корпус содержит тексты с заимствованиями разного происхождения.

  • Академические тексты (academic_plagiarism) - эти тексты содержат большое количество дословных заимствований.
  • Автоматически сгенерированные тексты (generated_copypast, generated_paraphrased) - эти тексты были получены путем заимствований из случайно выбранных источников (см. раздел). Используются как дословные, так и средне модифицированные заимствования. Модификация заимствований также проводилась автоматически.
  • Эссе с заимствованиями (manually_paraphrased, manually_paraphrased2) - тексты, написанные на заданную тему, с большим количеством заимствований из разных источников. Типы заимствования в текстах разнятся: от дословных копирований до сильно переписанных фрагментов. Эссе делятся на две группы, в зависимости от правил, использованных при их написании:
    • manually_paraphrased - допускалось использовать дословные заимствования. В среднем содержат 40% легко или средне модифицированных фрагментов. Размер типичного эссе составляет 150 предложений. Последняя версия правил составления эссе этой группы доступна на странице.
    • manually_paraphrased2 - содержат только модифицированные заимствования. Размер типичного эссе составляет 100 предложений. Могут использоваться продвинутые техники сокрытия: суммаризация текста, переписывание своими словами. Последняя версия правил составления эссе этой группы доступна на странице.

Методика генерирования текстов с заимствованиями

В качестве оригинальных документов для вставки заимствований использовалась случайная подвыборка файлов из архива src7.zip В качестве источников плагиата использовалась случайная подвыборка файлов из архивов src1.zip-src6.zip Модификации производились для текстов с количеством предложений больше 30. Для каждого документа случайно выбирались 1-5 источников для модификации. Некоторое количество предложений оригинального текста заменялись 1-10 предложениями-заимствованиями каждое. Генерировались данные с процентом заимствований (считался в предложениях) 7-13%, 22-28%, 47-53%, 77-83%. Процент считался как отношение количества новых (добавленных) предложений к количеству всех предложений в получившемся тексте.

Применение корпуса для оценки качества работы методов выявления плагиата

Использование в задаче source retrieval

Загрузка

Данные доступны для скачивания по ссылке.

Описание структуры данных

Все файлы в корпусе разложены по трем папкам:

  • src – источники возможных заимствований. Всего около 5 млн. 700 тыс. текстов. Все тексты разбиты на 7 архивов (~4.4Гб каждый). Для распаковки одного архива остальные архивы не требуется. Общий объем в разжатом виде составляет ~130Гб. Тексты источников последовательно пронумерованы и разбиты по директориям (8190 текстов в каждой). Название директории - это наименьший идентификатор документа, входящего в нее. Ниже приведена “карта” разбиения источников по архивам:

    Архив Диапазон источников
    src1.tar.gz 0000001-0810811
    src2.tar.gz 0819001-1629811
    src3.tar.gz 1638001-2448811
    src4.tar.gz 2457001-3267811
    src5.tar.gz 3276001-4086811
    src6.tar.gz 4095001-4905811
    src7.tar.gz 4914001-5700241
  • susp – тексты с заимствованиями из источников.
  • tasks – файлы (задания), сопоставляющие тексты с заимствованиями и источники заимствований.

Описание типов заданий

Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельноей папке). В следующей таблице представлена краткая информация о каждом типе.

  academic_plagiarism manually_paraphrased manually_paraphrased2
Кол-во источников 1-3 источника заимстования; 4-6 источника заимствования 4-6 источника заимствования
Распределение заимствований заимствовано много текста из каждого источника заимствования из источников распределены неравномерно заимствования из источников распределены неравномерно
Использованные модификации в основном дословные заимствования дословные, средне и сильно модифицированные заимствования средне и сильно модифицированные заимствования
Сложность очень легкая легкая средняя

Использование в задаче text alignment

Загрузка

Данные доступны для скачивания по ссылке.

Описание структуры данных

  • src – источники заимствований
  • susp – тексты с заимствованиями из источников
  • tasks – файлы (задания), сопоставляющие заимствованные фрагменты текстов из susp с фрагментами из источников

Описание типов заданий

Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельном архиве).

В следующей таблице представлена краткая информация о каждом типе.

  generated_copypast generated_paraphrased manually_paraphrased manually_paraphrased2
Использованные модификации дословные заимствования средне модифицированные заимствования дословные, средне и сильно модифицированные заимствования средне и сильно модифицированные заимствования
Сложность легкая средняя средняя высокая

Цитирование

При использовании набора данных просьба цитировать публикацию:

  • Sochenkov I.V., Zubarev D.V., Smirnov I.V.: The paraplag: russian dataset for paraphrased plagiarism detection. Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” 2017, v. 1, pp. 284–297 (2017)