• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка автоматизированного классификатора коротких текстов

 

В настоящее время сфера обработки естественного языка переживает бурный рост благодаря развитию технологий машинного обучения. Среди прочих категорий задач в Natural Language Processing (NLP), классификация текстов является одной из наиболее часто встречающихся. 

Проект нацелен на исследование подходов к классификации коротких научных текстов, содержащих заголовок, краткую аннотацию и ключевые слова по теме статьи. 

Заказчиком проекта выступает Всероссийский институт научной и технической информации РАН. Отсюда и нетривиальность стандартной задачи классификации текстов, которая объясняется сложной иерархической структурой рубрикаторов, большим числом классов, неравномерностью их распределения, а также возможностью причисления текста сразу к нескольким категориям.

Рис.1 Снимок экрана с исходными данными

Автоматизация классификации таких текстов позволяет решить проблему ручной категоризации, которая требует больших временных затрат и существования сразу нескольких отделов, специализирующихся на конкретных темах.     

Целью проекта является модификация существующего программного обеспечения, которое позволяет классифицировать научные тексты ВИНИТИ РАН и глубокий анализ современного стека технологий, использующихся в анализе данных и машинном обучении. Предполагается, что исследование новых подходов к предобработке текста, векторизации и их применения в совокупности с усовершенствованными моделями классификаторов позволит добиться расширения функционала системы тестирования классификации.

В рамках исследований будут проверены алгоритмы стемминга и лемматизации для уменьшения словоформ и словаря токенов. Опробована Byte Pair Encoding токенизация и векторизация при помощи алгоритмов Bag of Words, Fasttext, Word2Vec, TF-IDF. 

 

Рис.2 Схема алгоритма векторизации Word2Vec

Для классификации будут использоваться как классические линейные модели (многоклассовая линейная регрессия), так и более сложные нейросетевые модели с полносвязными, рекуррентными и трансформер архитектурами.

Рис.3 Схема устройства полносвязной нейросети

В результате ресерча будет составлена сводная таблица рассчитанных метрик, которые будут отражать качество классификации при различных комбинациях классификатор-метод обработки текста-эмбеддинг. На основании анализа данной таблицы будут выбраны подходы, дающие наилучшие результаты, которые впоследствии необходимо будет встроить в существующее программное обеспечение.

Рис. 4 Схема ячейки сети LSTM

В настоящее время полностью завершена предобработка текста. Данные очищены от спецсимволов, цифр, пунктуации. Созданы датасеты для обучения моделей-трансформеров и датасеты для обучения моделей, с недостаточным количеством степеней свободы для работы с большим числом словоформ. Созданы модели векторизации слов, по алгоритмам TF-IDF, Word2Vec, Fasttext. 

Рис.5 Фрагмент алфавита ВИНИТИ, спецсимволы

Изучены материалы по созданию рекуррентных и трансформер архитектур с использованием attention-механизма. Написаны и протестированы baselines для логистической регрессии и полносвязной нейросети. Проведены эксперименты по бинарной классификации с целью поиска оптимальной архитектуры и параметров моделей. Часть процедурных пайплайнов переписаны в классы для будущей библиотеки скриптов проекта.

Рис.6 Схема трансформер-сети BERT

Ведется работа по тестированию уже написанных моделей на синтетически созданном датасете, при помощи oversampling’а, ввиду проблемы дисбаланса научных текстов по классам-темам. Данный шаг очень важен, ведь именно качество и сбалансированность данных влияет на стабильность обучения линейных и нейросетевых моделей.

Рис. 7 Доли классов в обучающей выборке

В ближайшее время будут реализованы baseline для рекуррентных и трансформер классификаторов, после чего будет осуществлен поиск оптимальных гиперпараметров обучения для всех моделей с целью достижения наилучших метрик качества классификации.

Рис.8 Реализованный класс полносвязной нейросети

 

Команда проекта

Алмакаев Александр - разработчик

 

Фото Алмакаева Александра (автор: Кусакин Илья Константинович)

 

Кусакин Илья - аналитик, лидер проекта

Фото Кусакина Ильи (автор: Исаченко Дарья Сергеевна)

 

Цурупа Александр - разработчик

https://sun9-4.userapi.com/ARVLNiDh7aDxNRm0VFwNeRD7RP64RI4ei9B7HA/3nMaM6kXip4.jpg

Фото Цурупа Александра (автор: Алмакаев Александр Витальевич)


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.