Определение заимствованных фрагментов (Text alignment)
Содержание
- Описание задачи
- Данные
- Формат ответа
- Базовый метод
- Метрики качества
- Оценка качества на тестовом наборе данных
Описание задачи
Для заданной пары текстов требуется обнаружить все заимствованные фрагменты. Для каждой пары известен текст-источник и текст с заимствованиями (подозрительный текст).
Данные
Информация о наборе данных, используемом в этой задаче представлена здесь.
Формат ответа
Программа обнаружения заимствований должна сгенерировать XML-файл suspicious-documentXYZ-source-documentABC.xml
,
который содержит метаинформацию об обнаруженных заимствованиях.
Пример:
<document reference="XYZ.txt">
<feature
name="detected-plagiarism"
this_offset="5"
this_length="200"
source_reference="ABC.txt"
source_offset="100"
source_length="150"
/>
<feature ... />
...
</document>
В примере выше заимствованный текст в документе XYZ.txt
начинается с 5-ого символа и имеет длину 200 символов.
В источнике ABC.txt
текст,
который был заимствован, начинается с 100-ого символа и имеет длину 150 символов.
Базовый метод
В качестве базового метода (baseline
) используется программа.
Пример запуска только для одного типа заданий:
$ mkdir /tmp/result
$ cd paraplag_v2/cross/essay1/text_alignment/test
$ python /path/to/text_alignment_baseline.py meta/pairs src susp /tmp/result
Метрики качества
Для оценки качества обнаружения заимствований используются микро-усредненные точность, полнота и F1. Подробнее прочитать про использованные метрики можно по ссылке. Для оценки качества нужно использовать скрипт.
Пример запуска:
$ python text_alignment_measures.py --micro -p paraplag_v2/cross/essay1/text_alignment/test/meta -d result/
где result
- папка, содержащая результаты обнаружения заимствованных фрагментов для заданий из папки paraplag_v2/cross/essay1/text_alignment/test/susp
.
Оценка качества на закрытом наборе данных
Для оценки методов на закрытом наборе данных используется платформа
tira.
Инструкция для получения виртуальной машины и
доступа к данным размещена на сайте (см. секцию Evaluation as a Service).
После установки ПО на выданной виртуальной машине и тестирования на небольшом тренировочном корпусе,
например pan14-text-alignment-mini-dataset
,
необходимо запустить прогон на тестовом наборе данных, который называется pan17-text-alignment-test-dataset-dialogue17-russian-2017-02-22
.
После этого нужно запустить Evaluator
для получения метрик качества последнего прогона.