Mask R-CNN
การแบ่งส่วนภาพ (Image Segmentation) เป็นการแบ่งภาพออกตามองค์ประกอบหรือวัตถุที่ปรากฏในภาพ เพื่อช่วยในการวิเคราะห์หาส่วนต่าง ๆ ที่มีความสำคัญในภาพ
Mask R-CNN (Mask Region-based Convolutional Neural Network) [1] คือ แบบจำลองที่พัฒนามาจาก R-CNN [2], Fast R-CNN [3] และ Faster R-CNN [4] ตามลำดับ
Mask R-CNN ประกอบด้วย
Backbone network มีพื้นฐานของคอนโวลูชันนอลนิวรอลเน็ตเวิร์ค (Convolutional Neural Network: CNN) เป็นการนำเอา residual มาต่อกัน โดยใช้ stochastic descent gradient มาเทรน ในการทำ Pre-tain โดยเลือกจาก dataset เช่น COCO [5]
Region proposal network (RPN) เป็นการทำงานของการนำเสนอพื้นที่รอบบริเวณวัตถุที่สนใจ (anchor box) ในการนำวัตถุออกจาก feature map และนำส่วนที่เป็นวัตถุเข้า CNN เพื่อหา feature ที่สามารถแยกวัตถุหลังจากการทำ selective search
RoI (Region of Interest) Pooling/ RoI Align เป็นการนำตำแหน่ง feature map ที่มีขนาดต่างกัน เพื่อหา feature vector ที่มีขนาดคงที่เข้าไปยัง fully connected layer และ softmax เข้าสู่กระบวนการจำแนก (classification) ได้ค่าของหมวดหมู่ของวัตถุ
ตัวอย่างภาพ
References
[1] K. He, G. Gkioxari, P. Dolla ́r, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 2961–2969, Venice, Italy, October 2017.
[2] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic seg- mentation,” in Proceedings of the IEEE Conference on Com- puter Vision and Pattern Recognition, pp. 580–587, Columbus, OH, USA, June 2014.
[3] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE Inter- national Conference on Computer Vision, pp. 1440–1448, Santiago, Chile, December 2015.
[4] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: towards real-time object detection with region proposal networks,” in Proceedings of the Advances in Neural Information Processing Systems, pp. 91–99, Montreal, Canada, December 2015.
[5] T.-Y. Lin, M. Maire, S. Belongie et al., “Microsoft coco: common objects in context,” in Computer Vision — ECCV 2014, pp. 740–755, Springer, Cham, Switzerland, 2014.