Preview

Известия Юго-Западного государственного университета

Расширенный поиск

Метод отслеживания процессов взаимодействия пользователей с объектами на видеопоследовательностях

https://doi.org/10.21869/2223-1560-2021-25-4-177-200

Аннотация

Цель исследования. При разработке киберфизических систем и интеллектуальных пространств, предназначенных для анализа пользовательской активности, актуальной является задача отслеживания взаимодействий пользователей с объектами.

Методы. В данной работе для решения задачи детектирования и отслеживания взаимодействий пользователей с объектами на видеопоследовательностях был разработан соответствующий метод, основанный на комбинированном использовании нейросетевых моделей детектирования объектов и сегментации пользователей, а также построения карт глубины по кадрам видеоряда. В исследовании представлены соответствующие алгоритмы и алгоритмические модели. Апробация и оценка качества функционирования разработанного метода производилась на основе тестового набора данных, включающего в себя 1000 видеопоследовательностей длительностью до 20 секунд.

Результаты. В ходе экспериментальных исследований были определены показатели точности (accuracy, recall, precision) детектирования взаимодействий для видеопоследовательностей с уровнем освещенности 100% и 50%, которые составили {0.82, 0.78, 0.76} и {0.70, 0.59, 0.70} соответственно, при этом усредненные доли корректно отслеженных взаимодействий для данных наборов видеопоследовательностей имели значения 81% и 71%. Согласно результатам проведенного тестирования, разработанный метод предоставляет возможность осуществлять детектирование и отслеживание взаимодействий пользователей с объектами в режиме реального времени, в том числе в условиях неполной освещенности сцены.

Заключение. По результатам апробации предложенного метода отслеживания взаимодействий пользователей с объектами на тестовом наборе из 1000 видеопоследовательностей, предложенное решение пока-зало довольно высокое качество детектирования и отслеживания взаимодействий для видеопоследовательностей с уровнями освещенности 100% и 50%. Таким образом, разработанный метод в определенной мере является устойчивым к изменению уровня освещенности сцены и обеспечивает успешное решение задачи детектирования и отслеживания взаимодействия пользователей с различными классами объектов по видеопоследовательности, не требуя при этом применения специализированного оборудования.

Об авторе

Р. Н. Яковлев
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук; Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Россия

 Яковлев Роман Никитич, младший научный сотрудник лаборатории технологий больших данных социокиберфизических систем 

14-я линия В.О., д. 39, г. Санкт-Петербург 199178 



Список литературы

1. Masking salient object detection, a mask region-based convolutional neural network analysis for segmentation of salient objects / B.A. Krinski, D.V. Ruiz, G.Z. Machado, E. Todt // 2019 Latin American Robotics Symposium (LARS), 2019 Brazilian Symposium on Robotics(SBR) and 2019 Workshop on Robotics in Education (WRE). IEEE, 2019. P. 55-60.

2. He K., Girshick R., Dollár P. Rethinking imagenet pre-training // Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. P. 4918-4927.

3. Coco common objects in context [Электронный ресурс] // Detection Leaderboard [сайт]. URL: https://cocodataset.org/#detection-leaderboard.

4. Lin T. Y. et al. Microsoft coco: Common objects in context //European conference on computer vision. 2014. С. 740-755.

5. SpineNet: Learning scale-permuted backbone for recognition and localization / X. Du, T.Y. Lin, P. Jin, G. Ghiasi, M. Tan, Y Cui., X. Song // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. P. 11592-11601.

6. Detecting and recognizing human-object interactions / G. Gkioxari, R. Girshick, P. Dollár, K. He // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. P. 8359-8367.

7. Scaling human-object interaction recognition through zero-shot learning / L. Shen, S. Yeung, J. Hoffman, G. Mori, L. Fei-Fei // 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018. P. 1568-1576.

8. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields / Z. Cao, G. Hidalgo, T. Simon, S. E. Wei, Y. Sheikh // IEEE transactions on pattern analysis and machine intelligence. 2019. Vol. 43. №. 1. P. 172-186.

9. 3d hand pose detection in egocentric rgb-d images / G. Rogez, M. Khademi, III Supancic, J., J.M.M. Montiel, D. Ramanan // European Conference on Computer Vision. Springer, Cham, 2014. P. 356-371.

10. Hand pose estimation and hand shape classification using multi-layered randomized decision forests / C. Keskin, F. Kıraç, Y.E. Kara, L. Akarun // European Conference on Computer Vision. Springer, Berlin, Heidelberg. 2012. P. 852-863.

11. Oberweger M., Wohlhart P., Lepetit V. Hands deep in deep learning for hand pose estimation // Proceedings of 20th Computer Vision Winter Workshop (CVWW). 2015. P. 21-30. arXiv preprint arXiv:1502.06807.

12. First-person hand action benchmark with rgb-d videos and 3d hand pose annotations / G. Garcia-Hernando, S. Yuan, S. Baek, T. K. Kim // Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. P. 409-419.

13. Moon G., Chang J.Y., Lee K.M. V2v-posenet: Voxel-to-voxel prediction network for accurate 3d hand and human pose estimation from a single depth map // Proceedings of the IEEE conference on computer vision and pattern Recognition. 2018. P. 5079-5088.

14. Redmon J., Farhadi A. Yolov3: An incremental improvement //arXiv preprint arXiv:1804.02767. 2018.

15. Murawski K., Murawska M., Pustelny T. Optimizing the light source design for a sensor to measure the stroke volume of the artificial heart // 13th Conference on Integrated Optics: Sensors, Sensing Structures, and Methods. International Society for Optics and Photonics, 2018. Vol. 10830. P. 1083006.

16. Karsch K., Liu C., Kang S. B. Depth extraction from video using non-parametric sampling // European conference on computer vision. Springer, Berlin, Heidelberg, 2012. P. 775-788.

17. Eigen D., Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture // Proceedings of the IEEE international conference on computer vision. 2015. P. 2650-2658.

18. Deeper depth prediction with fully convolutional residual networks / I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, N. Navab // 2016 Fourth international conference on 3D vision (3DV). IEEE, 2016. P. 239-248.

19. Deep residual learning for image recognition / K. He, X. Zhang, S. Ren, J. Sun // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 770-778.

20. Cheong Y. Z., Chew W. J. The Application of Image Processing to Solve Occlusion Issue in Object Tracking // MATEC Web of Conferences. EDP Sciences, 2018. Vol. 152. P. 03001.

21. Spatially supervised recur-rent convolutional neural networks for visual object tracking / G. Ning, Z. Zhang, C. Huang, X. Ren, H. Wang, C. Cai, Z. He // 2017 IEEE International Symposium on Circuits and Systems (IS-CAS). IEEE, 2017. P. 1-4.

22. Real-time visual object tracking with natural language description / Q. Feng, V. Ablavsky, Q. Bai, G. Li, S. Sclaroff // Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2020. P. 700-709.

23. Deep reinforcement learning for visual object tracking in videos / D. Zhang, H. Maei, X. Wang, Y.F. Wang // arXiv preprint arXiv:1701.08936. 2017.

24. You only look once: Unified, real-time object detection / J. Redmon, S. Divvala, R. Girshick, A. Farhadi // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 779-788.


Рецензия

Для цитирования:


Яковлев Р.Н. Метод отслеживания процессов взаимодействия пользователей с объектами на видеопоследовательностях. Известия Юго-Западного государственного университета. 2021;25(4):177-200. https://doi.org/10.21869/2223-1560-2021-25-4-177-200

For citation:


Iakovlev R.N. A Method for Tracking the Processes of User Interaction with Objects in Video Sequences. Proceedings of the Southwest State University. 2021;25(4):177-200. (In Russ.) https://doi.org/10.21869/2223-1560-2021-25-4-177-200

Просмотров: 147


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1560 (Print)
ISSN 2686-6757 (Online)