Содержание

Описание задачи

Для заданного текста требуется обнаружить все источники заимствований в заранее зафиксированной коллекции источников. Решение задачи предполагает индексацию коллекции источников, которая содержит около 6 млн. документов.

Данные

Информация о наборе данных, используемом в этой задаче представлена здесь.

Формат ответа

Программа обнаружения источников заимствований должна выдавать json-файл с именем XYZ.json, который содержит мета-информацию об обнаруженных источниках. Пример:


{
  "suspicious-document": "XYZ.txt"
  "detected-plagiarism": [
    {
      "id": "5216589"
    },
    {
      "id": "323433"
    },
    {
      "id": "3838483"
    }
  ]
}

В примере выше для подозрительного документа XYZ.txt было найдено три источника заимствований, идентификаторы источников указываются в поле id.

Документы должны быть отсортированы по объему заимствований в символах, словах или фрагментах, т.е. документ, из которого было больше всего заимствовано текста должен находиться на первом месте.

Метрики качества

Для оценки качества обнаружения источников используются макро-усредненные точность, полнота, F-мера, средняя точность (average precision).

Для оценки качества во время обучения нужно использовать скрипт. Пример запуска:

python source_retrieval_measures.py -p paraplag_v2/cross/essay1/source_retrieval/test/meta/ -d result

где result - папка, содержащая результаты обнаружения источников для текстов из папки paraplag_v2/cross/essay1/source_retrieval/test/susp/.