Применение аугментации данных в задачах классификации текстов на русском языке

Применение аугментации данных в задачах классификации текстов на русском языке

Махныткина О.В., Байтемиров И.К.

Университет ИТМО, Санкт-Петербург, Россия

makhnytkina@itmo.ru

 

Представляется сравнительный анализ методов аугментации текстовых данных в задачах классификации текстов. Комплекс методов аугментации включает: случайные вставки, случайная замена, случайное удаление и использование парафраз. В качестве классификаторов рассматриваются методы машинного обучения, в том числе рекуррентных нейронных сетей.

Ключевые слова: аугментация, машинное обучение, классификация.

Работа выполняется при финансовой поддержке Министерства науки и высшего образования Российской̆ Федерации, Соглашение 14.575.21.0178 (Уникальный идентификатор проекта: RFMEFI57518X0178)

При решении задач классификации текстов одним из основных факторов влияющих на точность получаемых моделей является объем обучающей выборки. В настоящее время для решения некоторых задач существуют большие доступные датасеты, например, организаторы конкурса «Jigsaw Unintended Bias in Toxicity Classification» (https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/leaderboard) предоставляют датасет с токсичными комментариями, содержащий более миллиона записей; для решения задачи оценки тональности текстов на русском языке можно использовать русскоязычный корпус коротких текстов, содержащий более 300 тысяч размеченных записей [1]. Для таких задач на основе методов машинного обучения, глубоких нейронных сетей получается обучать модели с высокой точностью классификации, однако, достаточно часто возникает необходимость обучить классификатор при наличии только небольшого датасета. Возможным решением проблемы недостаточности данных может быть аугментация данных, т. е. увеличение данных на основе существующих.

Датасет. В работе использовался набор пользовательских диалогов (тематика — телекоммуникации), содержащий 4017 сообщений, каждое из которых размечено по следующим классам «Финансы», «Требуется оператор», «Общая информация».

Методы аугментации. Рассматриваются два метода аугментации: 1) изменение текста сообщения с использованием парафраз. Замена осуществляется с помощью ParaPhraser API (http://paraphraser.ru/); 2) модификация текста с использованием алгоритма EDA [2], включающего случайные вставки слов-синонимов, случайные перестановки слов, случайные удаления слов.

Методы классификации. В работе были использованы следующие алгоритмы классификации: наивный байесовский классификатор (NB), случайный лес (RFC), логистическая регрессия (LR), метод опорных векторов (SVM), мажоритарное голосование (MV), рекуррентная нейронная сеть (долгая кратковременная память (LSTM)

Результаты. Проведено сравнение точности методов классификации сообщений без использования и с использованием методов аугментации. В качестве метрики качества моделей использовалась точность (accuracy), результаты представлены в таблице 1.

Таблица 1. Результаты экспериментов

Метод классификации
Метод аугментации NB RFC LR SVM MV LSTM
Без аугментации 0,53 0,77 0,34 0,47 0,62 0,1
Paraphrase 0,56 0,91 0,35 0,44 0,68 0,22
EDA 0,53 0,89 0,37 0,45 0,64 0,22
Paraphrase+EDA 0,55 0,88 0,51 0,44 0,73 0,14

 

Таким образом, аугментация текстовых данных существенно повышает точность классификации. Наилучшие результаты показали метод с использованием парафраз и увеличение исходного датасета сообщениями, полученными и с использованием парафраз и алгоритма EDA. Среди методов классификации классические методы машинного обучения показали лучшие результаты, чем глубокая нейронная сеть, что объясняется небольшим размером исходного датасета.

Список используемой литературы

  1. Рубцова Ю. В. Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора //Инженерия знаний и технологии семантического веба. 2012. Т. 1. С. 109-116.
  2. Wei, J., & Zou, K. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks //arXiv:1901.11196v2

DATA AUGMENTATION TECHNIQUES FOR TEXTS CLASSIFICATION  IN RUSSIAN

Makhnytkina O.V., Baitemirov I.K.

ITMO University, Saint Petersburg, Russia

makhnytkina@itmo.ru

 

The comparative analysis of text data augmentation methods in the problems of text classification is presented. The complex of augmentation methods includes: accidental insertions, accidental exchange, accidental deletion and replacement of sentences with a paraphrase. Machine learning methods, including recurrent neural networks, are considered as classifiers.

Keywords: augmentation, machine learning, classification.

Back to Top