Содержание

Описание задачи

Для заданной пары текстов требуется обнаружить все заимствованные фрагменты. Для каждой пары известен текст-источник и текст с заимствованиями (подозрительный текст).

Данные

Информация о наборе данных, используемом в этой задаче представлена здесь.

Формат ответа

Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml, который содержит метаинформацию об обнаруженных заимствованиях.

Пример:

<document reference="XYZ.txt">
<feature
 name="detected-plagiarism"
 this_offset="5"
 this_length="200"
 source_reference="ABC.txt"
 source_offset="100"
 source_length="150"
/>
<feature ... />
...
</document>

В примере выше заимствованный текст в документе XYZ.txt начинается с 5-ого символа и имеет длину 200 символов. В источнике ABC.txt текст, который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.

Базовый метод

В качестве базового метода (baseline) используется программа.

Пример запуска только для одного типа заданий:

$ mkdir /tmp/result
$ cd paraplag_v2/cross/essay1/text_alignment/test
$ python /path/to/text_alignment_baseline.py meta/pairs src susp /tmp/result

Метрики качества

Для оценки качества обнаружения заимствований используются микро-усредненные точность, полнота и F1. Подробнее прочитать про использованные метрики можно по ссылке. Для оценки качества нужно использовать скрипт.

Пример запуска:

$ python text_alignment_measures.py --micro -p paraplag_v2/cross/essay1/text_alignment/test/meta -d result/

где result - папка, содержащая результаты обнаружения заимствованных фрагментов для заданий из папки paraplag_v2/cross/essay1/text_alignment/test/susp.

Оценка качества на закрытом наборе данных

Для оценки методов на закрытом наборе данных используется платформа tira. Инструкция для получения виртуальной машины и доступа к данным размещена на сайте (см. секцию Evaluation as a Service). После установки ПО на выданной виртуальной машине и тестирования на небольшом тренировочном корпусе, например pan14-text-alignment-mini-dataset, необходимо запустить прогон на тестовом наборе данных, который называется pan17-text-alignment-test-dataset-dialogue17-russian-2017-02-22. После этого нужно запустить Evaluator для получения метрик качества последнего прогона.