Данная статья представляет собой отчет организаторов соревнования RuATD-2022, посвященного автоматическому распознаванию сгенерированных текстов на материале русского языка. Соревнование RuATD-2022 проходило в рамках кампании Dialogue Evaluation в 2022 году. Набор данных, использованный в соревновании, частично составлен автоматически с использованием моделей генерации текстов. Мы использовали модели, обученные решать различные задачи генерации текстов: машинного перевода, генерации парафраз, автоматического реферирования и упрощения предложений. Мы также рассматриваем популярные постановки задач, такие как обратный перевод и zero-shot-генерация. Вторая часть набора данных — тексты, написанные людьми — собрана из открытых источников, относящихся к ряду предметных областей. Участникам соревнования предлагается решить две задачи: (i) определить, был ли данный текст написан человеком или сгенерирован моделью (бинарная классификация), или (ii) определить автора текста (мультиклассовая классификация). В рамках соревнования мы предоставляем базовые решения в стандартной постановке задачи классификации на основе счетных признаков (TF-IDF) и модели архитектуры BERT. Кроме того, мы проводим оценку решения первой задачи разметчиками на краудсорсинговой платформе (human baseline). В общей сложности, на соревнование было представлено 38 решений: 30 для первой постановки задачи и 8 — для второй. Большая часть участников преодолела уровень базовых решений. Используемая кодовая база, результаты оценки на краудсорсинговой платформе и другие материалы соревнования доступны в публичном GitHub-репозитории соревнования.
Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.