Table of Contents

Описание задачи

Для заданного текста требуется обнаружить все заимствованные фрагменты из заранее зафиксированной коллекции источников. Решение задачи предполагает индексацию коллекции источников, которая содержит около 6 млн. документов. Эта задача может быть разбита на две подзадачи: обнаружение источников заимствований (source retrieval) и определение заимствованных фрагментов (text alignment).

Данные

Информация о наборе данных, используемом в этой задаче представлена здесь.

Формат ответа

Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml, который содержит метаинформацию об обнаруженных заимствованиях.

Пример:

<document reference="XYZ.txt">
<feature
 name="detected-plagiarism"
 this_offset="5"
 this_length="200"
 source_reference="ABC.txt"
 source_offset="100"
 source_length="150"
/>
<feature ... />
...
</document>

В примере выше заимствованный текст в документе XYZ.txt начинается с 5-ого символа и имеет длину 200 символов. В источнике ABC.txt текст, который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.

Метрики качества

Для оценки качества обнаружения заимствований используются микро-усредненные точность, полнота и F1. Подробнее прочитать про использованные метрики можно по ссылке. Для оценки качества нужно использовать скрипт.

Пример запуска:

$ python text_alignment_measures.py --micro -p paraplag_v2/cross/essay1/text_alignment/test/meta -d result/

где result - папка, содержащая результаты обнаружения заимствованных фрагментов для заданий из папки paraplag_v2/cross/essay1/text_alignment/test/susp.