画像の分類系はだいぶ楽しめたので,そろそろ他のテーマ(ジャンル)も並行してやってみたい.いまのところ挑戦してみたいのは,
- DCGAN
- 画像ラベルアノテーション
の2つ.
DCGANはDeep Convolutional Generative Adversarial Networkの略で,画像を入力に与えて訓練させて,そこから新たな画像を生成させるやつ.
ラベルアノテーションは,1枚の画像が与えられたときに,その画像のどの位置に何が写っているかを示すやつ.これまで定食の分類実験でやってきた画像認識は,

のように,1枚の画像に対して,もっともらしいラベルを1個返せばよかった.これからやりたいことは,

のように,画像の中から複数のオブジェクトを検知して,座標や大きさとともにラベルを付けるという作業.人の顔であれば,予めOpenCVなどで顔領域を検出できるので実現方法が想像できるが,一般的なオブジェクトに対してこれをやるための良いアイデアが思い付かない.そういえば,Cloud Vison APIでも写真中での位置までは返してくれないのでやっぱり難しいのかな.

Cloud Vision API でラベル付けを試している例