Поиск заимствований

Table of Contents

Описание задачи
Данные
Формат ответа
Метрики качества

Описание задачи

Для заданного текста требуется обнаружить все заимствованные фрагменты из заранее зафиксированной коллекции источников. Решение задачи предполагает индексацию коллекции источников, которая содержит около 6 млн. документов. Эта задача может быть разбита на две подзадачи: обнаружение источников заимствований (source retrieval) и определение заимствованных фрагментов (text alignment).

Данные

Информация о наборе данных, используемом в этой задаче представлена здесь.

Формат ответа

Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml, который содержит метаинформацию об обнаруженных заимствованиях.

Пример:

<document reference="XYZ.txt">
<feature
 name="detected-plagiarism"
 this_offset="5"
 this_length="200"
 source_reference="ABC.txt"
 source_offset="100"
 source_length="150"
/>
<feature ... />
...
</document>

В примере выше заимствованный текст в документе XYZ.txt начинается с 5-ого символа и имеет длину 200 символов. В источнике ABC.txt текст, который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.

Метрики качества

Для оценки качества обнаружения заимствований используются микро-усредненные точность, полнота и F1. Подробнее прочитать про использованные метрики можно по ссылке. Для оценки качества нужно использовать скрипт.

Пример запуска:

$ python text_alignment_measures.py --micro -p paraplag_v2/cross/essay1/text_alignment/test/meta -d result/

где result - папка, содержащая результаты обнаружения заимствованных фрагментов для заданий из папки paraplag_v2/cross/essay1/text_alignment/test/susp.