Определение заимствованных фрагментов (Text alignment)

Содержание

Описание задачи
Данные
Формат ответа
Базовый метод
Метрики качества
Оценка качества на тестовом наборе данных

Описание задачи

Для заданной пары текстов требуется обнаружить все заимствованные фрагменты. Для каждой пары известен текст-источник и текст с заимствованиями (подозрительный текст).

Данные

Информация о наборе данных, используемом в этой задаче представлена здесь.

Формат ответа

Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml, который содержит метаинформацию об обнаруженных заимствованиях.

Пример:

<document reference="XYZ.txt">
<feature
 name="detected-plagiarism"
 this_offset="5"
 this_length="200"
 source_reference="ABC.txt"
 source_offset="100"
 source_length="150"
/>
<feature ... />
...
</document>

В примере выше заимствованный текст в документе XYZ.txt начинается с 5-ого символа и имеет длину 200 символов. В источнике ABC.txt текст, который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.

Базовый метод

В качестве базового метода (baseline) используется программа.

Пример запуска только для одного типа заданий:

$ mkdir /tmp/result
$ cd paraplag_v2/cross/essay1/text_alignment/test
$ python /path/to/text_alignment_baseline.py meta/pairs src susp /tmp/result

Метрики качества

Для оценки качества обнаружения заимствований используются микро-усредненные точность, полнота и F1. Подробнее прочитать про использованные метрики можно по ссылке. Для оценки качества нужно использовать скрипт.

Пример запуска:

$ python text_alignment_measures.py --micro -p paraplag_v2/cross/essay1/text_alignment/test/meta -d result/

где result - папка, содержащая результаты обнаружения заимствованных фрагментов для заданий из папки paraplag_v2/cross/essay1/text_alignment/test/susp.

Оценка качества на закрытом наборе данных

Для оценки методов на закрытом наборе данных используется платформа tira. Инструкция для получения виртуальной машины и доступа к данным размещена на сайте (см. секцию Evaluation as a Service). После установки ПО на выданной виртуальной машине и тестирования на небольшом тренировочном корпусе, например pan14-text-alignment-mini-dataset, необходимо запустить прогон на тестовом наборе данных, который называется pan17-text-alignment-test-dataset-dialogue17-russian-2017-02-22. После этого нужно запустить Evaluator для получения метрик качества последнего прогона.