Содержание

Краткое описание

Корпус ParaPlag v2 предназначен для оценки качества работы методов выявления текстовых заимствований. Помимо этого он может быть использован для оценки качества обеих подзадач поиска заимствований: text alignment и source retrieval.

Корпус содержит эссе с заимствованиями разной сложности обнаружения (essay1, essay2). Эссе, написанные на заданную тему, с большим количеством заимствований из разных источников. Типы заимствования в текстах разнятся: от дословных копирований до сильно переписанных фрагментов. Эссе делятся на две группы, в зависимости от правил, использованных при их написании:

  • essay1 - допускалось использовать дословные заимствования. В среднем содержат 75% легко или средне модифицированных фрагментов. Размер типичного эссе составляет 150 предложений. Последняя версия правил составления эссе этой группы доступна на странице.
  • essay2 - содержат только модифицированные заимствования. Размер типичного эссе составляет 100 предложений. Могут использоваться сложные техники сокрытия: суммаризация текста, переписывание своими словами. Последняя версия правил составления эссе этой группы доступна на странице.

ParaPlag v2 также включает в себя переводную версию, используемую для оценки качества выявления кросс-языковых текстовых заимствований. В этой версии текст источников заимствований был переведен на английский язык с помощью Yandex Cloud Translate API. Таким образом, необходимо для эссе на русском языке найти измененный заимствованный текст в коллекции на английском языке.

Количественные характеристики набора данных

Эссе

  essay1 essay2
Кол-во эссе 114 105
Ср. кол-во предложений 155 110
Ср. кол-во символов 17805 13937

Источники заимствований

  essay1 essay2
Кол-во источников 712 687
Ср. кол-во предложений 263 313
Ср. кол-во символов 23299 24885

Переведенные источники заимствований

Переводился текст заимствованных предложений и ближайщий к ним контекст (20т символов).

  essay1 essay2
Кол-во источников 689 678
Ср. кол-во предложений 211 229
Ср. кол-во символов 19046 19572

Применение корпуса для оценки качества работы методов выявления плагиата

Использование для оценки метода выявления заимствований

Загрузка

Данные доступны для скачивания по ссылке (зеркало).

Описание структуры набора данных

Все файлы в корпусе разложены по трем папкам:

  • enwiki.tar.xz, ruwiki.tar.xz – фоновые коллекции для поиска источников. Содержат статьи Википедии от 03.2020 в текстовом формате.
  • mono, cross – директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова: essay{1,2}/text_alignment/{dev,test}/{meta,src,susp}.
    • src – источники заимствований (их необходимо подмешать в фоновые коллекции);
    • susp – тексты с заимствованиями из источников (в среднем 4-6 источника заимствования на один текст).
    • meta – файлы, сопоставляющие заимствованные фрагменты текстов из susp с фрагментами из источников.

Использование в задаче source retrieval

Загрузка

Данные доступны для скачивания по ссылке (зеркало).

Описание структуры набора данных

Все файлы в корпусе разложены по трем папкам:

  • enwiki.tar.xz, ruwiki.tar.xz – фоновые коллекции для поиска источников. Содержат статьи Википедии от 03.2020 в текстовом формате.
  • mono, cross – директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова: essay{1,2}/source_retrieval/{dev,test}/{meta,src,susp}.
    • src – источники заимствований (их необходимо подмешать в фоновые коллекции);
    • susp – тексты с заимствованиями из источников (в среднем 4-6 источника заимствования на один текст).
    • meta – файлы, сопоставляющие тексты из susp и источники заимствований.

Использование в задаче text alignment

Загрузка

Данные доступны для скачивания по ссылке (зеркало).

Описание структуры набора данных

  • mono, cross – директории содержат данные для оценки качества в моно- и кроссязыковом варианте. Структура обеих директория одинакова: essay{1,2}/text_alignment/{dev,test}/{meta,src,susp}.
    • src – источники заимствований;
    • susp – тексты с заимствованиями из источников;
    • meta – файлы, сопоставляющие заимствованные фрагменты текстов из susp с фрагментами из источников. Директория meta содержит файл pairs, в котором перечислены источники заимствований для каждого текста из susp. Первая колонка в файле указывает на файл из директории susp, вторая колонка указывает текст из директории src. В этой задаче требуется только провести сравнение текстов этих пар и выявить заимствованные фрагменты.

Цитирование

При использовании набора данных просьба цитировать публикацию:

Zubarev, D., Tikhomirov, I., Sochenkov, I. (2022). Cross-Lingual Plagiarism Detection Method. In: Pozanenko, A., Stupnikov, S., Thalheim, B., Mendez, E., Kiselyova, N. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2021. Communications in Computer and Information Science, vol 1620. Springer, Cham. https://doi.org/10.1007/978-3-031-12285-9_13