Алгоритмы автоматизированного обучения диалоговых систем
https://doi.org/10.21869/2223-1560-2019-23-3-86-99
Аннотация
Цель исследования. Представленное в данной статье исследование проведено в рамках проекта Salebot.pro (на ресурсе https://salebot.pro) и было нацелено на разработку простой и эффективной реализации диалоговой системы.
Методы. План исследования предусматривал анализ различных методов обработки естественных язы-ков и машинного обучения. Реализации методов были взяты из популярных библиотек с открытым исход-ным кодом. Построена модель диалоговой системы в двух вариантах: на основе фреймворка Spacy и метрического алгоритма оценки, на основе расстояния Левенштейна. Сравнивались простота реализа-ции и затраты на обучение системы и персонала.
Результаты. Описанные в статье алгоритмы сопоставляют наиболее похожие слова из двух текстов и подсчитывают средний процент совпадений. Такой подход обеспечивает возможность приемлемой работы на языках со свободным порядком слов, к которым относится и русский язык. Выполненное исследование позволило разработать алгоритм автоматизированного обучения диалоговых систем в режиме реального времени без потери контекста. На той же основе разработан алгоритм обучения диалоговой системы по истории диалога. Предлагается использовать данные алгоритмы совместно. При создании диалоговой системы первоначально необходимо ее обучить на истории диалогов, а затем перманентно обучать в режиме реального времени.
Заключение. Достоинством разработанного алгоритма является легкость в реализации и дешевизна построения инфраструктуры, необходимой для обучения модели, и ее обслуживания, а также простота в эксплуатации. Применяется подход, который отличается от обучения с учителем, что позволяет ускорить процесс обучения и ввода в систему новых данных. Особенностью разработанных алгоритмов является игнорирование семантики текста, что делает обучение автоматизированным, а не автома-тическим.
Об авторах
Д. В. СпиринРоссия
Дмитрий Владимирович Спирин, аспирант кафедры вычислительной техники
О. С. Брежнев
Россия
Олег Сергеевич Брежнев, инженер-программист кафедры математического обеспечения и применения ЭВМ
Список литературы
1. Провотар А.И., Клочко К. А. Особенности и проблемы виртуального общения с помощью чат-ботов // Информационные технологии и компьютерная техника. Научные работы ВНТУ. 2013. № 3. С. 1-6.
2. Training spaCy’s Statistical Models. URL: https://spacy.io/usage/training (дата обращения: 07.05.2019).
3. Apache OpenNLP DeveloperDocumentation. URL: https://opennlp.apache.org/ docs/1.9.0/manual/ opennlp.html (дата обращения: 07.05.2019).
4. Задача о редакционном расстоянии, алгоритм Вагнера-Фишера. URL: https:// neerc.ifmo.ru/wiki/index.php?title= Задача_о_редакционном_расстоянии,_ алгоритм_ Вагнера-Фишера (дата обращения: 07.05.2019).
5. Ramsay A. Discourse. In Mitkov, R. (Ed.). The Oxford Handbook of Computational Linguistics. Oxford University Press, USA, 2003. 717 p.
6. Traum D., Larsson S. The information state approach to dialogue management // In J. van Kuppevelt & R. Smith (Eds.), Current and new directions in discourse and dialogue. Springer, 2003. P. 325–354.
7. Computing Power Throughout History. URL: https://www.alternatewars.com/ BBOW/ Computing/Computing_Power.htm (дата обращения: 07.05.2019).
8. Автоматизированное обучение. URL: https://salebot.pro/articles/9 (дата обращения: 07.05.2019).
9. Спирин Д.В., Брежнев О.С., Баринов А.Д. Алгоритм автоматизированного обучения // Сборник статей II Международной научно-практической конференции. Пенза: МЦНС «Наука и Просвещение», 2018. С. 49-53.
10. A multi-task approach for named entity recognition in social media data / G. Aguilar, S. Maharjan, A. Pastor Lopez-Monroy, T. Solorio // In Proceedings of the 3rd Workshop on Noisy User-generated Text, 2017. P. 148–153.
11. Daniken P., Cieliebak M. Transfer learning and sentence level features for named entity recognition on tweets // In Proceedings of the 3rd Workshop on Noisy User-generated Text, 2017. P. 166–171.
12. Neural Architectures for Named Entity Recognition / G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, C. Dyer // In Proceedings of NAACL-HLT 2016, San Diego, California, June 12-17, 2016. P. 260–270.
13. Strakova J. Neural Network Based Named Entity Recognition. – Institute of Formal and Applied Linguistics, Prague. 2017. 120 p.
14. Akkaya E.K. Deep neural networks for named entity recognition on social media. Computer Engineering Dept., Hacettepe University. Beytepe-Ankara, Turkey, 2018. 126 p.
Рецензия
Для цитирования:
Спирин Д.В., Брежнев О.С. Алгоритмы автоматизированного обучения диалоговых систем. Известия Юго-Западного государственного университета. 2019;23(3):86-99. https://doi.org/10.21869/2223-1560-2019-23-3-86-99
For citation:
Spirin D.V., Brezhnev O.S. Automated Training Algorithms of Dialog Systems. Proceedings of the Southwest State University. 2019;23(3):86-99. (In Russ.) https://doi.org/10.21869/2223-1560-2019-23-3-86-99