Preview

Известия Юго-Западного государственного университета

Расширенный поиск

Эффективность ETL-процесса для предиктивной аналитики

https://doi.org/10.21869/2223-1560-2024-28-4-67-85

Аннотация

   Цель исследования. В настоящей работе исследуется эффективность различных методов обработки пропущенных значений в датафреймах применительно к задачам предобработки данных в рамках предиктивной аналитики. В качестве тестовых данных используются три открытых датасета, которые содержат информацию о характеристиках зданий, метеорологических условиях и энергопотреблении.

   Цель исследования состоит в выявлении наиболее эффективного метода для предобработки данных в процессе ETL для решения задач предиктивной аналитики.

   Методы. В работе происходит объединение датафреймов из каждого датасета и анализ стандартных методов модуля Pandas, высокоуровневой библиотеки языка Python, таких как прямое присваивание, использование индексаторов, а также метод fillna со словарем. Кроме того, разработан модуль на языке Cython, С-подобном языке программирования, для оптимизации процесса заполнения пропущенных значений, произведена оценка производительности каждого метода.

   Результаты. Результаты демонстрируют, что прямое присваивание является наиболее эффективным методом с точки зрения производительности в Pandas. Применение Cython, хотя теоретически и способно ускорить вычисления, в данном случае показало значительное снижение производительности из-за накладных расходов на преобразование данных и взаимодействие между Python и Cython. Профилирование кода подтвердило, что местом с недостаточной производительностью являются операции Pandas, а не выполнение Cython кода.

   Выводы. Таким образом, для большинства задач ETL рекомендуется использовать оптимизированные методы Pandas, а Cython следует применять только в случаях критической необходимости повышения производительности и при тщательной оптимизации кода для минимизации накладных расходов, так как написание кода, аналогичного Pandas, потребует значительных ресурсов, в том числе и для его оптимизации, что в большинстве случаев является избыточным.

Об авторах

А. В. Олейникова
Астраханский государственный технический университет
Россия

Алла Владимировна Олейникова, аспирант

кафедра "Прикладная информатика"

414056; ул. Татищева, д.16; Астрахань


Конфликт интересов:

Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи



И. О. Бондарева
Астраханский государственный технический университет
Россия

Ирина Олеговна Бондарева, кандидат технических наук, доцент,
завкафедрой

кафедра "Прикладная информатика"

414056; ул. Татищева, д.16; Астрахань


Конфликт интересов:

Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи



А. А. Олейников
Астраханский государственный технический университет
Россия

Александр Александрович Олейников, кандидат технических наук, доцент

кафедра "Прикладная информатика"

414056; ул. Татищева, д.16; Астрахань


Конфликт интересов:

Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи



Список литературы

1. Гончар А. А. Использование предиктивной аналитики для повышения эффективности бизнеса // Актуальные исследования. 2023. № 50-4(180). С. 22-46.

2. Громов Н. Д., Платошин А. И. Сравнительный анализ средств и платформ для автоматизации ETL-процессов в современных хранилищах данных // Международный журнал гуманитарных и естественных наук. 2023. № 11-4(86). С. 46-48. DOI: 10.24412/2500-1000-2023-11-4-46-48.

3. Дрянкова Д. А. Визуализация данных с помощью библиотек Pandas и Matplotlib для языка программирования Python // Дневник науки. 2023. № 6(78). DOI: 10.51691/2541-8327_2023_6_10.

4. Дьяконов Н. А., Логунова О. С. Системы управления технологическим процессом на основе предиктивной аналитики: проектирование // Электротехнические системы и комплексы. 2021. № 1(50). С. 58-64. DOI: 10.18503/2311-8318-2021-1(50)-58-64.

5. Ильичев В. Ю., Юрик Е. А. Анализ массивов данных с использованием библиотеки Pandas для Python // Научное обозрение. Технические науки. 2020. № 4. С. 41-45.

6. Лескова В. Ю., Соловьев В. А. Анализ методов ETL // Наука и образование: актуальные исследования и разработки : сборник статей III Всероссийской научно-практической конференции, Чита, 29–30 апреля 2020 года. Чита: Забайкальский государственный университет, 2020. С. 36-40.

7. Носырева А. А., Абрамов В. И. Предиктивная аналитика - основа для цифровой трансформации компаний // Актуальные проблемы экономики, учета, аудита и анализа в современных условиях : сборник научных статей Международной научно-практической конференции. Курск, 28–29 апреля 2021 года. Курск: Курский государственный университет, 2021. С. 179-182.

8. Соломонов А. А. Оптимизация ETL-процессов для больших данных // Вестник науки. 2024. Т. 3, № 9(78). С. 390-396.

9. Кисляков А. Н. Отбор признаков для использования в моделях предиктивной аналитики внешнеэкономической деятельности регионов // Прикладная математика и вопросы управления. 2022. № 1. С. 176-195. DOI: 10.15593/2499-9873/2022.1.09.

10. Судариков Г. В., Ашмаров И. А. Использование библиотеки Pandas для анализа данных // Мир образования - образование в мире. 2023. № 1(89). С. 184-188. DOI: 10.51944/20738536_2023_1_184.

11. Терешина В. В. Применение систем предиктивной аналитики и предикативного моделирования // Инновационное развитие экономики. 2022. № 5(71). С. 243-246. DOI: 10.51832/2223798420225243.

12. Терентьева В. С., Логинова И. М., Эшелиоглу Р. И. Работа с датами в pandas // Научные исследования молодых ученых : материалы I Международной научно-практической конференции, посвященной памяти д. э. н., профессора Л.М. Рабиновича. Казань, 25–26 февраля 2022 года. Казань: Казанский государственный аграрный университет, 2022. Т. 2. С. 285-291.

13. Using SAP Predictive Analytics to Analyze Individual Student Profiles in LMS Moodle / A. N. Ambrajei, N. M. Golovin, A. V. Valyukhova, N. A. Rybakova // Communications in Computer and Information Science. 2022. Vol. 1539. P. 66-77. DOI: 10.1007/978-3-030-95494-9_6.

14. Bushuev S. Application of AI for monitoring and optimizing IT infrastructure: economic prospects for implementing predictive analytics in enterprise operations // International Journal of Humanities and Natural Sciences. 2024. No. 8-3(95). P. 125-129. DOI: 10.24412/2500-1000-2024-8-3-125-129.

15. Comparative Analysis of ETL Tools in Big Data Analytics / A. Qaiser, M. U. Farooq, S. M. Nabeel Mustafa, N. Abrar // Pakistan Journal of Engineering and Technology. 2023. Vol. 6, no. 1. P. 7-12. DOI: 10.51846/vol6iss1pp7-12.

16. Singh, M. M. Extraction Transformation and Loading (ETL) of Data Using ETL Tools // International Journal for Research in Applied Science and Engineering Technology. 2022. Vol. 10, no. 6. P. 4415-4420. DOI: 10.22214/ijraset.2022.44939.

17. Prepare and analyze taxation data using the Python Pandas library / M. Vagizov, A. Potapov, K. Konzhgoladze, et al. // IOP Conference Series: Earth and Environmental Science: 6, Politics, Industry, Science, Education. St. Petersburg; 2021. P. 1-8. DOI: 10.1088/1755-1315/876/1/012078.

18. Godé C., Brion S. The affordance-actualization process of predictive analytics: Towards a configurational framework of a predictive policing system // Technological Forecasting and Social Change. 2024. Vol. 204. 123452 P. DOI: 10.1016/j.techfore.2024.123452.

19. Identification of Critical States of Technological Processes Based on Predictive Analytics Methods / S. M. Kovalev, I. A. Olgeizer, A. V. Sukhanov, K. I. Kornienko // Automation and Remote Control. 2023. Vol. 84, no. 4. С. 424-433. DOI: 10.1134/S0005117923040100.

20. Software Solution for the Implementation of a Predictive Analytics System for Investment Instruments / Н. А. Мамедова, О. В. Староверова, А. М. Епифанов [et al.] // WSEAS Transactions on Systems and Control. 2023. Vol. 18. P. 18-25. DOI: 10.37394/23203.2022.18.2.


Рецензия

Для цитирования:


Олейникова А.В., Бондарева И.О., Олейников А.А. Эффективность ETL-процесса для предиктивной аналитики. Известия Юго-Западного государственного университета. 2024;28(4):67-85. https://doi.org/10.21869/2223-1560-2024-28-4-67-85

For citation:


Oleynikova A.V., Bondareva I.O., Oleynikov A.A. ETL Process Efficiency for Predictive Analytics. Proceedings of the Southwest State University. 2024;28(4):67-85. (In Russ.) https://doi.org/10.21869/2223-1560-2024-28-4-67-85

Просмотров: 125


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1560 (Print)
ISSN 2686-6757 (Online)