Содержание

Краткое описание

Корпус ParaPlag предназначен для оценки качества работы методов выявления плагиата. Он может быть использован в обеих подзадачах поиска плагиата: text alignment и source retrieval.

Корпус содержит тексты с заимствованиями разного происхождения.

Академические тексты (academic_plagiarism) - эти тексты содержат большое количество дословных заимствований.
Автоматически сгенерированные тексты (generated_copypast, generated_paraphrased) - эти тексты были получены путем заимствований из случайно выбранных источников (см. раздел). Используются как дословные, так и средне модифицированные заимствования. Модификация заимствований также проводилась автоматически.
Эссе с заимствованиями (manually_paraphrased, manually_paraphrased2) - тексты, написанные на заданную тему, с большим количеством заимствований из разных источников. Типы заимствования в текстах разнятся: от дословных копирований до сильно переписанных фрагментов. Эссе делятся на две группы, в зависимости от правил, использованных при их написании:
- manually_paraphrased - допускалось использовать дословные заимствования. В среднем содержат 40% легко или средне модифицированных фрагментов. Размер типичного эссе составляет 150 предложений. Последняя версия правил составления эссе этой группы доступна на странице.
- manually_paraphrased2 - содержат только модифицированные заимствования. Размер типичного эссе составляет 100 предложений. Могут использоваться продвинутые техники сокрытия: суммаризация текста, переписывание своими словами. Последняя версия правил составления эссе этой группы доступна на странице.

Методика генерирования текстов с заимствованиями

В качестве оригинальных документов для вставки заимствований использовалась случайная подвыборка файлов из архива src7.zip В качестве источников плагиата использовалась случайная подвыборка файлов из архивов src1.zip-src6.zip Модификации производились для текстов с количеством предложений больше 30. Для каждого документа случайно выбирались 1-5 источников для модификации. Некоторое количество предложений оригинального текста заменялись 1-10 предложениями-заимствованиями каждое. Генерировались данные с процентом заимствований (считался в предложениях) 7-13%, 22-28%, 47-53%, 77-83%. Процент считался как отношение количества новых (добавленных) предложений к количеству всех предложений в получившемся тексте.

Применение корпуса для оценки качества работы методов выявления плагиата

Использование в задаче source retrieval

Загрузка

Данные доступны для скачивания по ссылке.

Описание структуры данных

Все файлы в корпусе разложены по трем папкам:

src – источники возможных заимствований. Всего около 5 млн. 700 тыс. текстов. Все тексты разбиты на 7 архивов (~4.4Гб каждый). Для распаковки одного архива остальные архивы не требуется. Общий объем в разжатом виде составляет ~130Гб. Тексты источников последовательно пронумерованы и разбиты по директориям (8190 текстов в каждой). Название директории - это наименьший идентификатор документа, входящего в нее. Ниже приведена “карта” разбиения источников по архивам:

Архив	Диапазон источников
src1.tar.gz	0000001-0810811
src2.tar.gz	0819001-1629811
src3.tar.gz	1638001-2448811
src4.tar.gz	2457001-3267811
src5.tar.gz	3276001-4086811
src6.tar.gz	4095001-4905811
src7.tar.gz	4914001-5700241

susp – тексты с заимствованиями из источников.
tasks – файлы (задания), сопоставляющие тексты с заимствованиями и источники заимствований.

Описание типов заданий

Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельноей папке). В следующей таблице представлена краткая информация о каждом типе.

	academic_plagiarism	manually_paraphrased	manually_paraphrased2
Кол-во источников	1-3 источника заимстования;	4-6 источника заимствования	4-6 источника заимствования
Распределение заимствований	заимствовано много текста из каждого источника	заимствования из источников распределены неравномерно	заимствования из источников распределены неравномерно
Использованные модификации	в основном дословные заимствования	дословные, средне и сильно модифицированные заимствования	средне и сильно модифицированные заимствования
Сложность	очень легкая	легкая	средняя

Использование в задаче text alignment

Загрузка

Данные доступны для скачивания по ссылке.

Описание структуры данных

src – источники заимствований
susp – тексты с заимствованиями из источников
tasks – файлы (задания), сопоставляющие заимствованные фрагменты текстов из susp с фрагментами из источников

Описание типов заданий

Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельном архиве).

В следующей таблице представлена краткая информация о каждом типе.

	generated_copypast	generated_paraphrased	manually_paraphrased	manually_paraphrased2
Использованные модификации	дословные заимствования	средне модифицированные заимствования	дословные, средне и сильно модифицированные заимствования	средне и сильно модифицированные заимствования
Сложность	легкая	средняя	средняя	высокая

Цитирование

При использовании набора данных просьба цитировать публикацию:

Sochenkov I.V., Zubarev D.V., Smirnov I.V.: The paraplag: russian dataset for paraphrased plagiarism detection. Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” 2017, v. 1, pp. 284–297 (2017)

Paraplag

Краткое описание

Методика генерирования текстов с заимствованиями

Применение корпуса для оценки качества работы методов выявления плагиата

Использование в задаче source retrieval

Загрузка

Описание структуры данных

Описание типов заданий

Использование в задаче text alignment

Загрузка

Описание структуры данных

Описание типов заданий

Цитирование