Информационные технологии интеллектуальной поддержки принятия решений, Информационные технологии интеллектуальной поддержки принятия решений 2020

Размер шрифта: 
Методы интеллектуального анализа в задаче классификации текстов на естественном языке
М. М. Гаянова, А. М. Вульфин, Д. В. Курамшин

Изменена: 2020-10-09

Аннотация


Выполнен сравнительный анализ алгоритмов классификации текстов на русском языке на основе применения методов машинного обучения. Рассмотрены основные этапы предварительной обработки текстовых данных и построение векторного представления документов корпуса текстов. Предложена структура классификатора текстов на естественно языке. Сравнительный анализ алгоритмов классификации текстов на русском языке на основе применения методов машинного обучения показал, что наилучшая точность – у метода классификации на основе Байесовского классификатора, самый высокий показатель полноты – у классификатора на основе машины опорных векторов и случайного леса.

Ключевые слова


машинное обучение; естественный язык; интеллектуальный анализ; обработка текстов

Литература


1.            Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка / Бенгфорт Б., Билбро Р., Охеда Т. — СПб.: Издательский дом «Питер», 2019. – 368 с.

2.            Методы и модели анализа данных: OLAP и Data Mining / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод.  — СПб.: БХВ-Петербург, 2004. – 336 с.

3.            Шагаев А. Г., Фальк В. Н. Линейные классификаторы в задаче классификации текстов // Вестник МЭИ. 2013.  №4. Стр. 204-209.

4.            Ramos J. et al. Using tf-idf to determine word relevance in document queries //Proceedings of the first instructional conference on machine learning. – 2003.  Т. 242.  P. 133-142.

5.            Wallach H. M. Topic modelling: beyond bag-of-words //Proceedings of the 23rd international conference on Machine learning, USA, Pittsburgh, 2006.  P. 977-984.

6.            Fan R. E. et al. LIBLINEAR: A library for large linear classification //Journal of machine learning research. – 2008.  Vol. 9.  № Aug. P. 1871-1874.

7.            Sourial N. et al. Correspondence analysis is a useful tool to uncover the relationships among categorical variables //Journal of clinical epidemiology, 2010.  Vol. 63. № 6. P. 638-646.

8.            Tan S. Neighbor-weighted k-nearest neighbor for unbalanced text corpus //Expert Systems with Applications.  2005. Vol. 28.  №. 4. P. 667-671.

9.            Xu B. et al. An Improved Random Forest Classifier for Text Categorization //JCP, 2012. Vol. 7.  №. 12. P. 2913-2920.

10.          Kibriya A. M. et al. Multinomial naive bayes for text categorization revisited //Australasian Joint Conference on Artificial Intelligence.  Springer, Berlin, Heidelberg, 2004. P. 488-499.

11.          Kim S. B. et al. Some effective techniques for naive bayes text classification //IEEE transactions on knowledge and data engineering, 2006. Vol. 18.  № 11.  P. 1457-1466.

12.          Анализируй это. Lenta.ru (часть 1) / Хабр. URL  https://habr.com/ru/post/343838/ (дата обращения: 03.04.2020).


Полный текст: PDF