Пробинг-методология позволяет получить представление о явлениях языка, хранящееся во внутренних слоях нейросети, с помощью внешних классификаторов и статистического анализа. Предобученные языковые модели на основе трансформерных архитектур широко используются как для задач понимания естественного языка (NLU), так и для задач генерации текстов на естественном языке (NLG), что делает популярными для множества целевых приложений. Однако, анализ того, в достаточной ли степени предобучены модели и содержат ли они знания, коррелирующие с теоретическими представлениями о языке, до сих пор не получал должного внимания. Мы представляем исследование на основе хронологического пробинга на примере моделей MultiBERT и T5, в котором систематически исследуем выучиваемую информацию о языке в процессе предобучения моделей на корпусе. Результаты показывают, что 1) лингвистическая информация усваивается уже на ранних этапах обучения, 2) обе языковые модели демонстрируют способность фиксировать различные свойства языка на разных уровнях, включая морфологию, синтаксис и дискурс, в то же время они могут не справляться с задачами, которые воспринимаются как простые.
Мы также предоставляем открытый фреймворк для хронологического пробинга, совместимый с языковыми моделями на основе архитектур transformer. https://github.com/EkaterinaVoloshina/chronological_probing
Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.