SMM4H 2022: Классификация предпосылок в твитах, связанных с COVID-19, на основе трансформеров.
Автоматизация оценки данных социальных сетей является одной из классических проблем обработки естественного языка. Во время пандемии COVID-19 майнинг мнений людей из общедоступных источников стали решающими для понимания отношения к теме здоровья. В этой статье авторы предлагают предиктивную модель, основанную на архитектуре трансформер, для классификации наличия предпосылок в текстах из Twitter. Эта работа завершена в рамках воркшопа «Social Media Mining for Health» (SMM4H) 2022. Мы изучили современные классификаторы на основе трансформеров, чтобы построить систпму, эффективно фиксирующую семантику твитов. Наши эксперименты с датасетом из Twitter-сообщений показали, что RoBERTa-large превосходит другие модели-трансформеры для задачи прогнозирования предпосылок. Модель показала конкурентоспособные характеристики относительно значения ROC AUC 0,807 и 0,7648 для оценки F1.