Cloud Vision APIのOCRにより範囲を定めて写真を切り取るツール

コンセプト

OCR (Optical Character Recognition) によって写真の切り取り撮影範囲 (Range) を指定するアイデア (Orange 🍊 )です．トリミング指定範囲の左上と右下に短形のコーナーを表すマグネットシートを置いた状態で写真を撮影します．マグネットシートには左上と右下を示すための「左上」，「右下」のキーワード文字が入っています．これらの文字を認識した座標位置と傾きに基づいて画像がトリミングされます．キーワード文字の認識には Google Cloud Vision API の TEXT_DETECTION 機能を用います．

用意するもの

マグネットシート（ホワイト）
コクヨマグネットシート 300×200mm 白マク-301W
- 出版社/メーカー: コクヨ
- メディア: オフィス用品
- 購入: 10人クリック: 17回
- この商品を含むブログ (1件) を見る

撮影の流れ

スマートフォンなどの任意端末で写真を撮影
撮影時に範囲指定用のキーワード入り「くの字」マグネットシートを作って使う（撮影結果のサンプルを参照）
マグネットなのでホワイトボードの範囲指定もできる
真上から撮影しないとほぼ失敗する
専用のウェブアプリから写真をアップロード
- サーバーで Cloud Vision API の TEXT_DETECTION を呼び出し
- キーワード「左上」「右下」（格好悪いので今後さらに検討）を検出して位置を確定
- 見つかったものを採用（片方指定でも良い）
- デフォルトは(0, 0), (W, H)
- どちらも検出できなければ切り取らない（完全デフォルト）
切り取り済みの画像が返却される
Gyazo にアップロード可能

写真切り取りウェブアプリの様子

https://i.gyazo.com/4c82067573ce984e9f97b2a21e8b16e2.gif

撮影結果のサンプル

オレンジの模型を真上から撮影
書籍裏表紙を真上から撮影
クーポンを選択して撮影

ソースコード

本ツールをローカル環境で実行する場合は，Google Cloud Vision API Key と Gyazo API Client ID をご用意ください．

daiz713/Orange · GitHub

今後の展望

スマホアプリ化
「くの字」マグシートの傾きにあわせたトリミング
- Cloud Vision API の文字認識を使うと単語位置の4隅座標が得られるため，水平傾きを算出できる．
- 正しい角度を求めるために，文字の大きさ等を検討する．（キーワードの手書きはまずいだろう）
- OCRが効く範囲で対応する
回転したいときとそうでないときがあるので，角度を提案するに留めて，クライアント側で回転角度を自由に調節できるようにしたい
マイタックラベルのサイズ (直径8mm) を利用して，切り取られた画像のサイズを算出して管理