Суждения о приемлемости посредством изучения топологии карт внимания
Роль механизма внимания в представлении лингвистических знаний вызвала особый интерес в NLP. Однако способность голов внимания судить о грамматической приемлемости предложения недостаточно изучена. Эта статья приближается к парадигме суждений о приемлемости с помощью топологического анализа данных (TDA), показывая, что геометрические свойства графа внимания могут быть эффективно использованы для двух стандартных практик в лингвистике: бинарных суждений и лингвистических минимальных пар. Топологические особенности улучшают оценки классификатора приемлемости на основе BERT на 8–24 % в CoLA на трех языках (английском, итальянском и шведском). Выявив топологическое несоответствие между картами внимания минимальных пар, мы достигли производительности человеческого уровня в тесте BLiMP, превзойдя девять статистических и базовых показателей Transformer LM. В то же время TDA обеспечивает основу для анализа языковых функций голов внимания и интерпретации соответствия между признаками графа и грамматическими явлениями.