WikiOmnia: генеративный вопросно-ответный корпус на всей русской Википедии
В области общетематических вопросно-ответных систем разрабатывалась методология, основанная на датасете ответов на вопросы Стэнфордского университета (SQuAD) в качестве важного эталона. Однако составление таких датасетов требует осуществления ручной разметки данных, что требует много времени и сил и, в силу этого, ограничивает потенциальный размер датасета. Мы представляем набор данных WikiOmnia, новый общедоступный корпус вопросно-ответных пар и соответствующих разделов статей русской Википедии, составленный с помощью полностью автоматизированного генеративного пайплайна. Набор данных включает в себя все доступные статьи из Википедии для русского языка. Пайплайн WikiOmnia доступен с открытым исходным кодом, а также протестирован для создания вопросно-ответных пар в формате SQuAD на основе других источников, таких как тексты новостей, художественная литература и социальные сети. Полученный набор данных включает в себя две части: сырые данные по всей русскоязычной Википедии (7 930 873 вопросно-ответных пар с абзацами для ruGPT-3 XL и 7 991 040 вопросно-ответных пар с абзацами для ruT5-large), а также очищенные данные со строгой автоматической проверкой (более 160 000 вопросно-ответных пар с абзацами для ruGPT-3 XL и более 3 400 000 вопросно-ответных пар с абзацами для ruT5-large).