Обнаружение источников заимствований (Source retrieval)
Содержание
Описание задачи
Для заданного текста требуется обнаружить все источники заимствований в заранее зафиксированной коллекции источников. Решение задачи предполагает индексацию коллекции источников, которая содержит около 6 млн. документов.
Данные
Информация о наборе данных, используемом в этой задаче представлена здесь.
Формат ответа
Программа обнаружения источников заимствований должна выдавать json-файл с именем XYZ.json
,
который содержит мета-информацию об обнаруженных источниках.
Пример:
{
"suspicious-document": "XYZ.txt"
"detected-plagiarism": [
{
"id": "5216589"
},
{
"id": "323433"
},
{
"id": "3838483"
}
]
}
В примере выше для подозрительного документа XYZ.txt
было найдено три источника заимствований,
идентификаторы источников указываются в поле id
.
Документы должны быть отсортированы по объему заимствований в символах, словах или фрагментах, т.е. документ, из которого было больше всего заимствовано текста должен находиться на первом месте.
Метрики качества
Для оценки качества обнаружения источников используются макро-усредненные точность, полнота, F-мера, средняя точность (average precision).
Для оценки качества во время обучения нужно использовать скрипт. Пример запуска:
python source_retrieval_measures.py -p paraplag_v2/cross/essay1/source_retrieval/test/meta/ -d result
где result
- папка, содержащая результаты обнаружения источников для текстов из папки paraplag_v2/cross/essay1/source_retrieval/test/susp/
.