Исследование ручной и автоматической оценки для передачи стиля текста: случай детоксикации
Авторы проводят оценку большого количества моделей на задаче детоксикации, исследуя отношения между ручными и автоматическими метриками и обнаруживают, что между ними существует лишь слабая корреляция, которая зависит от типа модели, генерирующей текст. Автоматические метрики, как правило, менее надежны для более производительных моделей, но, результаты показывают, что метрики ChrF и BertScore могут быть использованы в качестве косвенного показателя для человеческой оценки детоксикации текста.