Paraplag v2
Содержание
- Краткое описание
- Применение корпуса для оценки качества работы методов выявления плагиата
- Цитирование
Краткое описание
Корпус ParaPlag v2 предназначен для оценки качества работы методов выявления текстовых заимствований. Помимо этого он может быть использован для оценки качества обеих подзадач поиска заимствований: text alignment и source retrieval.
Корпус содержит эссе с заимствованиями разной сложности обнаружения (essay1, essay2). Эссе, написанные на заданную тему, с большим количеством заимствований из разных источников. Типы заимствования в текстах разнятся: от дословных копирований до сильно переписанных фрагментов. Эссе делятся на две группы, в зависимости от правил, использованных при их написании:
- essay1 - допускалось использовать дословные заимствования. В среднем содержат 75% легко или средне модифицированных фрагментов. Размер типичного эссе составляет 150 предложений. Последняя версия правил составления эссе этой группы доступна на странице.
- essay2 - содержат только модифицированные заимствования. Размер типичного эссе составляет 100 предложений. Могут использоваться сложные техники сокрытия: суммаризация текста, переписывание своими словами. Последняя версия правил составления эссе этой группы доступна на странице.
ParaPlag v2 также включает в себя переводную версию, используемую для оценки качества выявления кросс-языковых текстовых заимствований. В этой версии текст источников заимствований был переведен на английский язык с помощью Yandex Cloud Translate API. Таким образом, необходимо для эссе на русском языке найти измененный заимствованный текст в коллекции на английском языке.
Количественные характеристики набора данных
Эссе
essay1 | essay2 | |
---|---|---|
Кол-во эссе | 114 | 105 |
Ср. кол-во предложений | 155 | 110 |
Ср. кол-во символов | 17805 | 13937 |
Источники заимствований
essay1 | essay2 | |
---|---|---|
Кол-во источников | 712 | 687 |
Ср. кол-во предложений | 263 | 313 |
Ср. кол-во символов | 23299 | 24885 |
Переведенные источники заимствований
Переводился текст заимствованных предложений и ближайщий к ним контекст (20т символов).
essay1 | essay2 | |
---|---|---|
Кол-во источников | 689 | 678 |
Ср. кол-во предложений | 211 | 229 |
Ср. кол-во символов | 19046 | 19572 |
Применение корпуса для оценки качества работы методов выявления плагиата
Использование для оценки метода выявления заимствований
Загрузка
Данные доступны для скачивания по ссылке (зеркало).
Описание структуры набора данных
Все файлы в корпусе разложены по трем папкам:
enwiki.tar.xz
,ruwiki.tar.xz
– фоновые коллекции для поиска источников. Содержат статьи Википедии от 03.2020 в текстовом формате.mono
,cross
– директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова:essay{1,2}/text_alignment/{dev,test}/{meta,src,susp}
.src
– источники заимствований (их необходимо подмешать в фоновые коллекции);susp
– тексты с заимствованиями из источников (в среднем 4-6 источника заимствования на один текст).meta
– файлы, сопоставляющие заимствованные фрагменты текстов изsusp
с фрагментами из источников.
Использование в задаче source retrieval
Загрузка
Данные доступны для скачивания по ссылке (зеркало).
Описание структуры набора данных
Все файлы в корпусе разложены по трем папкам:
enwiki.tar.xz
,ruwiki.tar.xz
– фоновые коллекции для поиска источников. Содержат статьи Википедии от 03.2020 в текстовом формате.mono
,cross
– директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова:essay{1,2}/source_retrieval/{dev,test}/{meta,src,susp}
.src
– источники заимствований (их необходимо подмешать в фоновые коллекции);susp
– тексты с заимствованиями из источников (в среднем 4-6 источника заимствования на один текст).meta
– файлы, сопоставляющие тексты изsusp
и источники заимствований.
Использование в задаче text alignment
Загрузка
Данные доступны для скачивания по ссылке (зеркало).
Описание структуры набора данных
mono
,cross
– директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова:essay{1,2}/text_alignment/{dev,test}/{meta,src,susp}
.src
– источники заимствований;susp
– тексты с заимствованиями из источников;meta
– файлы, сопоставляющие заимствованные фрагменты текстов изsusp
с фрагментами из источников. Директорияmeta
содержит файлpairs
, в котором перечислены источники заимствований для каждого текста изsusp
. Первая колонка в файле указывает на файл из директорииsusp
, вторая колонка указывает текст из директорииsrc
. В этой задаче требуется только провести сравнение текстов этих пар и выявить заимствованные фрагменты.
Цитирование
При использовании набора данных просьба цитировать публикацию:
Zubarev, D., Tikhomirov, I., Sochenkov, I. (2022). Cross-Lingual Plagiarism Detection Method. In: Pozanenko, A., Stupnikov, S., Thalheim, B., Mendez, E., Kiselyova, N. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2021. Communications in Computer and Information Science, vol 1620. Springer, Cham. https://doi.org/10.1007/978-3-031-12285-9_13