Mask R-CNN
การแบ่งส่วนภาพ (Image Segmentation) เป็นการแบ่งภาพออกตามองค์ประกอบหรือวัตถุที่ปรากฏในภาพ เพื่อช่วยในการวิเคราะห์หาส่วนต่าง ๆ ที่มีความสำคัญในภาพ
Mask R-CNN (Mask Region-based Convolutional Neural Network) [1] คือ แบบจำลองที่พัฒนามาจาก R-CNN [2], Fast R-CNN [3] และ Faster R-CNN [4] ตามลำดับ
Mask R-CNN ประกอบด้วย
Backbone network มีพื้นฐานของคอนโวลูชันนอลนิวรอลเน็ตเวิร์ค (Convolutional Neural Network: CNN) เป็นการนำเอา residual มาต่อกัน โดยใช้ stochastic descent gradient มาเทรน ในการทำ Pre-tain โดยเลือกจาก dataset เช่น COCO [5]
Region proposal network (RPN) เป็นการทำงานของการนำเสนอพื้นที่รอบบริเวณวัตถุที่สนใจ (anchor box) ในการนำวัตถุออกจาก feature map และนำส่วนที่เป็นวัตถุเข้า CNN เพื่อหา feature ที่สามารถแยกวัตถุหลังจากการทำ selective search
RoI (Region of Interest) Pooling/ RoI Align เป็นการนำตำแหน่ง feature map ที่มีขนาดต่างกัน เพื่อหา feature vector ที่มีขนาดคงที่เข้าไปยัง fully connected layer และ softmax เข้าสู่กระบวนการจำแนก (classification) ได้ค่าของหมวดหมู่ของวัตถุ
