Paraplag
Содержание
- Краткое описание
- Методика генерирования текстов с заимствованиями
- Использование в задаче source retrieval
- Использование в задаче text alignment
- Цитирование
Краткое описание
Корпус ParaPlag предназначен для оценки качества работы методов выявления плагиата. Он может быть использован в обеих подзадачах поиска плагиата: text alignment и source retrieval.
Корпус содержит тексты с заимствованиями разного происхождения.
- Академические тексты (academic_plagiarism) - эти тексты содержат большое количество дословных заимствований.
- Автоматически сгенерированные тексты (generated_copypast, generated_paraphrased) - эти тексты были получены путем заимствований из случайно выбранных источников (см. раздел). Используются как дословные, так и средне модифицированные заимствования. Модификация заимствований также проводилась автоматически.
- Эссе с заимствованиями (manually_paraphrased, manually_paraphrased2) - тексты,
написанные на заданную тему, с большим количеством заимствований из разных источников.
Типы заимствования в текстах разнятся: от дословных копирований до сильно переписанных фрагментов.
Эссе делятся на две группы, в зависимости от правил, использованных при их написании:
- manually_paraphrased - допускалось использовать дословные заимствования. В среднем содержат 40% легко или средне модифицированных фрагментов. Размер типичного эссе составляет 150 предложений. Последняя версия правил составления эссе этой группы доступна на странице.
- manually_paraphrased2 - содержат только модифицированные заимствования. Размер типичного эссе составляет 100 предложений. Могут использоваться продвинутые техники сокрытия: суммаризация текста, переписывание своими словами. Последняя версия правил составления эссе этой группы доступна на странице.
Методика генерирования текстов с заимствованиями
В качестве оригинальных документов для вставки заимствований использовалась случайная подвыборка файлов из архива src7.zip В качестве источников плагиата использовалась случайная подвыборка файлов из архивов src1.zip-src6.zip Модификации производились для текстов с количеством предложений больше 30. Для каждого документа случайно выбирались 1-5 источников для модификации. Некоторое количество предложений оригинального текста заменялись 1-10 предложениями-заимствованиями каждое. Генерировались данные с процентом заимствований (считался в предложениях) 7-13%, 22-28%, 47-53%, 77-83%. Процент считался как отношение количества новых (добавленных) предложений к количеству всех предложений в получившемся тексте.
Применение корпуса для оценки качества работы методов выявления плагиата
Использование в задаче source retrieval
Загрузка
Данные доступны для скачивания по ссылке.
Описание структуры данных
Все файлы в корпусе разложены по трем папкам:
-
src
– источники возможных заимствований. Всего около 5 млн. 700 тыс. текстов. Все тексты разбиты на 7 архивов (~4.4Гб каждый). Для распаковки одного архива остальные архивы не требуется. Общий объем в разжатом виде составляет ~130Гб. Тексты источников последовательно пронумерованы и разбиты по директориям (8190 текстов в каждой). Название директории - это наименьший идентификатор документа, входящего в нее. Ниже приведена “карта” разбиения источников по архивам:Архив Диапазон источников src1.tar.gz 0000001-0810811 src2.tar.gz 0819001-1629811 src3.tar.gz 1638001-2448811 src4.tar.gz 2457001-3267811 src5.tar.gz 3276001-4086811 src6.tar.gz 4095001-4905811 src7.tar.gz 4914001-5700241 susp
– тексты с заимствованиями из источников.tasks
– файлы (задания), сопоставляющие тексты с заимствованиями и источники заимствований.
Описание типов заданий
Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельноей папке). В следующей таблице представлена краткая информация о каждом типе.
academic_plagiarism | manually_paraphrased | manually_paraphrased2 | |
---|---|---|---|
Кол-во источников | 1-3 источника заимстования; | 4-6 источника заимствования | 4-6 источника заимствования |
Распределение заимствований | заимствовано много текста из каждого источника | заимствования из источников распределены неравномерно | заимствования из источников распределены неравномерно |
Использованные модификации | в основном дословные заимствования | дословные, средне и сильно модифицированные заимствования | средне и сильно модифицированные заимствования |
Сложность | очень легкая | легкая | средняя |
Использование в задаче text alignment
Загрузка
Данные доступны для скачивания по ссылке.
Описание структуры данных
src
– источники заимствованийsusp
– тексты с заимствованиями из источниковtasks
– файлы (задания), сопоставляющие заимствованные фрагменты текстов изsusp
с фрагментами из источников
Описание типов заданий
Задания сгруппированы по уровню сложности (файлы каждого типа находится в отдельном архиве).
В следующей таблице представлена краткая информация о каждом типе.
generated_copypast | generated_paraphrased | manually_paraphrased | manually_paraphrased2 | |
---|---|---|---|---|
Использованные модификации | дословные заимствования | средне модифицированные заимствования | дословные, средне и сильно модифицированные заимствования | средне и сильно модифицированные заимствования |
Сложность | легкая | средняя | средняя | высокая |
Цитирование
При использовании набора данных просьба цитировать публикацию:
- Sochenkov I.V., Zubarev D.V., Smirnov I.V.: The paraplag: russian dataset for paraphrased plagiarism detection. Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” 2017, v. 1, pp. 284–297 (2017)