Preview

Известия Юго-Западного государственного университета

Расширенный поиск

Применение глубоких нейронных сетей в задаче получения карты глубины из двумерного изображения

https://doi.org/10.21869/2223-1560-2019-23-3-113-134

Аннотация

Цель исследования. исследование подходов к генерации карт глубины для проверки и обучения глубоких нейронных сетей. Рассматривается проблема получения информации о расстоянии от камеры до объекта сцены по 2D-изображению при помощи глубоких нейронных сетей без использования стереокамеры.

Методы. Генерация 3D-сцен для обучения и оценки нейронной сети осуществлялась при помощи приложения 3D-компьютерной графики Blender. Для оценки точности обучения было использовано среднеквадратическое отклонение (СКО). Машинное обучение было реализовано при помощи библиотеки Keras, а оптимизация – с использованием подхода AdaGrad.

Результаты. Представлена архитектура глубокой нейронной сети, которая на вход получает три последовательности 2D-изображений из видеопотока 3D-сцены и выдает на выходе предсказанную карту глубины для рассматриваемой 3D-сцены. Описан способ создания обучающих наборов данных, содержащих информацию о глубине карты с использованием программного обеспечения Blender. Рассматривается проблема переобучения, заключающаяся в следующем: созданные модели работают на специально сгенерированных наборах данных, но все еще не могут предсказать правильную карту глубины для случайных изображений. Представлены результаты тестирования актуальных способов создания карт глубины с использованием глубоких нейронных сетей.

Заключение. Основной проблемой предложенного метода является переобучение, которое может быть выражено в прогнозировании некого среднего значения для разных изображений или предсказании одного и того же выхода для разных входов. Для решения данной проблемы могут быть использованы уже обученные сети или обучающие и вариационные выборки, содержащие 2D-изображения различных сцен.

Об авторах

Д. И. Михальченко
Санкт-Петербургский институт информатики и автоматизации РАН
Россия
Михальченко Даниил Игоревич, аспирант лаборатории автономных робототехнических систем


А. Г. Ивин
Санкт-Петербургский институт информатики и автоматизации РАН
Россия
Ивин Арсений Григорьевич, аспирант лаборатории автономных робототехнических систем


О. Ю. Сивченко
Санкт-Петербургский институт информатики и автоматизации РАН
Россия
Сивченко Олег Юрьевич, программист лаборатории автономных робототехнических систем


Е. А. Аксаментов
Санкт-Петербургский институт информатики и автоматизации РАН
Россия
Аксаментов Егор Алексеевич, младший научный сотрудник лаборатории технологий больших данных социокиберфизических систем


Список литературы

1. Levonevskiy D., Vatamaniuk I., Saveliev A. Integration of corporate electronic services into a smart space using temporal logic of actions // International Conference on Interactive Collaborative Robotics. Springer, Cham. 2017. 10459. Р. 134143. DOI: 10.1007/9783319664712_15.

2. Conceptual model of cyberphysical environment based on collaborative work of distributed means and mobile robots / A. Ronzhin, A. Saveliev, O. Basov, S. Solyonyj // International Conference on Interactive Collaborative Robotics. Springer, Cham. 2016. Vol. 9812. P. 3239. DOI: 10.1007/9783319439556_5.

3. Scenarios of multimodal information navigation services for users in cyberphysical environment / I. Vatamaniuk, D. Levonevskiy, A. Saveliev, A. Denisov // International Conference on Speech and Computer. Springer, Cham. 2016. Vol. 9811. P. 588595. DOI: 10.1007/9783319439587_71.

4. Richards H.W. Method and apparatus for user interaction for virtual measurement using a depth camera system // U.S. Patent Application No 20170302908. 2017. Т. 15/132. С. 822.

5. An efficient holefilling method based on depth map in 3D view generation / H. Liang, X. Su, Y. Liu, H. Xu, Y. Wang, X. Chen // 2017 International Conference on Optical Instruments and Technology: Optoelectronic Imaging/Spectroscopy and Signal Processing Technology. 2018. Vol. 10620, DOI: 10.1117/12.2293301.

6. Girshick R. Efficient regression of generalactivity human poses from depth images //2011 International Conference on Computer Vision. IEEE, 2011. P. 415422.

7. Sun Y. Developing a multifilter convolutional neural network for semantic segmentation using highresolution aerial imagery and LiDAR data //ISPRS journal of photogrammetry and remote sensing. 2018. Vol. 143. P. 314.

8. Watts K.W. , Konolige K. Ground plane detection to verify depth sensor status for robot navigation // US Patent No. 9886035. 2018.

9. Tee Kit Tsun M., Lau B.T., Jo H. Siswoyo An improved indoor robot humanfollowing navigation model using depth camera // Active IR marker and proximity sensors fusion, Robotics. 2018. Vol. 7. № 1. P. 4. DOI: 0.3390/robotics7010004.

10. Горобцов А.С. Особенности решения уравнений метода обратной задачи для синтеза устойчивого управляемого движения шагающих роботов // Труды СПИИРАН. 2019. Т. 18, №1. С. 85122. DOI: 10.15622/sp.18.1.85122.

11. Алтухов В.Г. Вычисление расстояния до объекта на основе карты глубин полученной методом зеркального разделения изображений //Автоматика и программная инженерия. 2017. Т. 1. С. 6569.

12. Ерофеев М.В. Многослойное решение проблемы полупрозрачных границ при построении стереоскопических изображений //International Journal of Open Information Technologies. 2016. Т. 4. № 8.

13. Lin K.Y., Hang H.M. Depth Map Enhancement on RGBD Video Captured by Kinect V2 //2018 AsiaPacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). IEEE, 2018. С. 15301535.

14. Ульянов С.В. Разработка системы стереозрения для мобильного робота //Программные продукты и системы. 2017. Т. 30. № 3.

15. Koch T. Evaluation of CNNbased singleimage depth estimation methods //Proceedings of the European Conference on Computer Vision (ECCV). 2018. С. 00.

16. Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multiscale deep network // Advances in Neural Information Processing Systems. 2014. С. 23662374. arXiv: 1406.2283v1.

17. Liu F., Shen C., Lin G. Deep convolutional neural fields for depth estimation from a single image // The IEEE Conference on Computer Vision and Pattern Recognition. 2015. С. 51625170. DOI: 10.1109/ CVPR.2015.7299152.

18. Laina I., Rupprecht C., Belagiannis V., Tombari F., Navab N. Deeper depth prediction with fully convolutional residual networks. CoRR, abs/1606.00373. 2016. DOI: 10.1109/3dv.2016.32. arXiv: 1606.00373.

19. Li J., Klein R., Yao A. A twostreamed network for estimating finescaled depth maps from single rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. p. 3372–3380.

20. Применение нечётких нейронных сетей для определения типа кристаллических решёток, наблюдаемых на нано-масштабных изображениях / О.П. Солдатова, И.А. Лёзин, И.В. Лёзина, А.В. Куприянов, Д.В. Кирш // Компьютерная оптика. 2015. Т. 39, № 5. С. 787795. DOI: 10.18287/013424522015395787794.

21. On the application of reservoir computing networks for noisy image recognition / A. Jalalvand, K. Demuynck, W.D. Neve, J.P. Martensa // Neurocomputing. 2018. Т. 277. С. 237248. DOI: 10.1016/j.neucom.2016.11.100.

22. Dutta S. Classification of diabetic retinopathy images by using deep learning models / S. Dutta, B. CS Manideep, S.M. Basha, R.D. Caytiles, N.Ch.S.N. Iyengar // International Journal of Grid and Distributed Computing. 2018. Т. 11. № 1. С. 89106. DOI: 10.14257/ijgdc.2018.11.1.09.

23. Сирота А.А., Дрюченко М.А. Обобщённые алгоритмы сжатия изображений на фрагментах произвольной формы и их реализация с использованием искусственных нейронных сетей // Компьютерная оптика. 2015. Т. 39, № 5. С. 751761. DOI: 10.18287/013424522015395751761.

24. Реконструкция изображений в дифракционнооптических системах на основе сверточных нейронных сетей и обратной свертки / А.В. Никоноров, М.В. Петров, С.А. Бибиков, В.В. Кутикова, А.А. Морозов, Н.Л. Казанский // Компьютерная оптика. 2017. Т. 41, № 6. С. 875887. DOI: 10.18287/241261792017416875887.

25. Олейник А.Л. Алгоритмы взаимной реконструкции изображений лиц на основе методов проекции в собственные подпространства // Труды СПИИРАН. 2018. Т. 2, №57. С. 4574. DOI: 10.15622/sp.57.3

26. Silberman N., Fergus R. Indoor scene segmentation using a structured light sensor // ICCV Workshop on 3D Representation and Recognition. 2011. P. 601608.

27. Hu J. et al. Revisiting single image depth estimation: toward higher resolution maps with accurate object boundaries //2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019. P. 10431051.

28. Zhu J. Ma R. (2016), Realtime depth estimation from 2D images. Available at: http://cs231n.stanford.edu/reports/ 2016/pdfs/407_Report.pdf (accessed May 1, 2018).

29. Simonyan K., Zisserman A. Very deep convolutional networks for largescale image recognition // 3rd International Conference on Learning Representations (ICLR). 2015. P. 114. arXiv: 1409.1556.

30. He L., Wang G., Hu Z. Learning depth from single images with deep neural network embedding focal length // IEEE Transactions on Image Processing. 2018. Vol. 27. № 9. P. 46764689.

31. Liu M., Salzmann M., He X. Discretecontinuous depth estimation from a single image // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2014. С. 716723. DOI: 10.1109 / CVPR.2014.97.

32. Luo W., Schwing A.G., Urtasun R. Efficient deep learning for stereo matching // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 56955703. DOI: 10.1109/CVPR.2016.614.

33. Eigen D., Fergus R. Predicting depth, surface normals and semantic labels with a common multiscale convolutional architecture // The IEEE International Conference on Computer Vision (ICCV). 2015. P. 26502658. DOI: 10.1109 / ICCV.2015.304.

34. Vision meets robotics: the KITTI dataset / A. Geiger, A. Lenz, C. Stiller, R. Urtasun // The International Journal of Robotics Research. 2013. Vol. 32. № 11. P. 12311237. DOI: 10.1177/0278364913491297.

35. Saxena A., Sun M., Ng A.Y. Make3d: learning 3D scene structure from a single still image // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009. Vol. 31. № 5. P. 824840. DOI: 10.1109 / TPAMI.2008.132.

36. Bogart R., Kainz F., Hess D. OpenEXR image file format / // ACM SIGGRAPH. 2003. Sketches & Applications.

37. Kent B.R. 3D Scientific Visualization with Blender®, Morgan & Claypool, San Rafael, 2015.

38. Valenza E. Blender 2.6 Cycles: Materials and Textures Cookbook – Third Edition. Packt Publishing Ltd. Birmingham. Mumbai. 2013. 280 с.

39. Saxena A. Learning depth from single monocular images / A. Saxena, S.H. Chung, Y. Ng. Andrew // Neural Information Processing Systems (NIPS). 2005. P. 11611168. DOI: 10.1109/TPAMI.2015.2505283.

40. Saxena A., Chung S.H., Andrew Y. Ng. 3D depth reconstruction from a single still image // International Journal of Computer Vision. 2008. Vol. 76. № 1. P. 5369. DOI: 10.1109 / TPAMI.2008.132.

41. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010. Vol. 9. P. 249256.

42. Heaton J. Artificial Intelligence For Humans: Deep Learning and Neural Networks / J. Heaton Heaton Research. Inc., St Louis, MO, 2015. Vol. 3. 375 p.

43. Delving deep into rectifiers: surpassing humanlevel performance on imagenet classification / K. He, X. Zhang, S. Ren, J. Sun // Proceedings of the IEEE international conference on computer vision. 2015. P. 10261034. DOI: 10.1109 / ICCV.2015.123

44. Keras: The Python Deep Learning library. Available at: https://keras.io/ (acceessed 31.08.2018)

45. Backends – TensorFlow or Theano. Available at: https://www.tensorflow.org/ (acceessed 31.08.2018)

46. TensorFlow: a system for largescale machine learning / M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur, J. Levenberg, R. Monga, S. Moore, D.G. Murray, B. Steiner, P. Tucker, V. Vasudevan, P. Warden, M. Wicke, Y. Yu, X. Zheng, G. Brain // the 12th USENIX Symposium on Operating Systems Designand Implementation (OSDI ’16). Nov. 24. 2016. P. 265283.

47. Tensorflow: largescale machine learning on heterogeneous distributed systems / M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G.S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V.Vasudevan, F. Viegas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, X. Zheng // (2016b). Available at: https://arxiv.org/pdf/1603.04467.pdf (accessed May 1, 2018).

48. Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization // Journal of Machine Learning Research. July. 2011. Vol. 12. P. 21212159.

49. Reduction of overfitting in diabetes prediction using deep learning neural network / A. Ashiquzzaman, A.K. Tushar, Md. R. Islam, D. Shon, K. Im, J.H. Park, D.S. Lim, J. Kim // 2017 IT Convergence and Security. Springer, Singapore. 2018. Vol. 449. P. 3543. DOI: 10.1007/9789811064517_5.


Рецензия

Для цитирования:


Михальченко Д.И., Ивин А.Г., Сивченко О.Ю., Аксаментов Е.А. Применение глубоких нейронных сетей в задаче получения карты глубины из двумерного изображения. Известия Юго-Западного государственного университета. 2019;23(3):113-134. https://doi.org/10.21869/2223-1560-2019-23-3-113-134

For citation:


Mihalchenko D.I., Ivin A.G., Sivchenko O.Yu., Aksamentov E.A. Application of Deep Neural Networks in the Problem of Obtaining Depth Maps from Two-Dimensional Images. Proceedings of the Southwest State University. 2019;23(3):113-134. (In Russ.) https://doi.org/10.21869/2223-1560-2019-23-3-113-134

Просмотров: 1889


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1560 (Print)
ISSN 2686-6757 (Online)