RuCoLA: Русский корпус лингвистической приемлемости
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости. RuCoLA включает в себя предложения, написанные экспертами в области лингвистики и сгенерированные языковыми моделями.
Ошибки, которые представлены в предложениях, покрывают широкий ряд языковых феноменов: от синтаксиса и семантики до галлюцинаций генеративных моделей. Корпус RuCoLA создан для улучшения методов обнаружения ошибок в естественном языке. Кроме того, мы организуем открытое соревнование, которое позволит следить за прогрессом в развитии этих методов.