Семинар по оценке алгоритмов поиска заимствований в текстах

В 2016-2017 гг. проходит семинар по оценке алгоритмов поиска заимствований в текстах PlagEvalRus. В ходе проведения семинара планируется решение задачи поиска заимствований (External Plagiarism Detection). Тематика текстов смещена в сторону заимствований из научных текстов (академический плагиат). Участникам предлагается участвовать в следующих дорожках:

  1. Определение источника заимствования (source retrieval);
  2. Дословные заимствования: определение заимствованного фрагмента (text alignment);
  3. Заимствования с парафразами: определение парафразированного фрагмента (text alignment).

Каждая дорожка представляет собой поисковое задание: в заданном тексте необходимо найти заимствованные фрагменты и для них указать тексты - источники заимствований из фиксированной коллекции источников. Участникам предоставляются коллекции текстов источников и обучающие данные по каждой дорожке.

Ход тестирования и оценка результатов

Перед тестированием участникам получают доступ к обучающему набору заданий по каждой дорожке. Для быстрого начала работы с обучающими данными рекомендуется ознакомится с инструкцией для каждой дорожки:

После этапа обучения участникам будет выдан тестовый набор данных.

Сроки проведения

  • Сентябрь – декабрь: подача заявок, разработка и настройка алгоритмов.
  • Январь: тестовая сессия и подача результатов.
  • Февраль – Март: оценка результатов.
  • Апрель – Май: подготовка общего отчета и докладов участников.
  • Июнь: итоговая сессия на конференции Диалог, http://www.dialog-21.ru/en

Организаторы

Иван Смирнов (Институт системного анализа ФИЦ ИУ РАН, Москва), Михаил Копотев (Хельсинкский университет, Финляндия), Андрей Кутузов (Университет Осло, Норвегия), Илья Соченков (Институт системного анализа ФИЦ ИУ РАН, Москва), Ольга Ляшевская (Высшая школа экономики, Москва), Рита Кузнецова (компания Антиплагиат), Олег Бахтеев (компания Антиплагиат), Любовь Иванова (Высшая школа экономики, Москва, секретарь семинара), Dr. Мартин Поттхаст (основатель PAN, Digital Bauhaus Lab).

При поддержке:

PAN, a network of experts on digital text forensics (http://pan.webis.de)
Конференция Диалог (http://dialog-21.ru)
Киберленинка: научная электронная библиотека открытого доступа (http://cyberleninka.ru)