GoogleのCloud Vision APIを使って画像分析をしてみよう! | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

GoogleのCloud Vision APIを使って画像分析をしてみよう!

こんにちは、プロダクト開発チームの牧です。

今回は、Googleが提供しているCloud Vision APIをご紹介します。
Cloud Vision APIとは、機械学習モデルを利用した画像分析を行うことが出来るサービスです。
APIとしても提供されており、JavaやPythonなど様々な言語のライブラリが用意されています。

Cloud Vision APIで何が出来るのか?

Cloud Vision APIでは、よくある画像認識での物体検知や顔検知だけでなく、
ロゴ/ランドマーク検知やOCR、Google SafeSearchを利用した有害コンテンツ検出まで行えます。
また、顔認識では単純に顔のパーツ認識だけではなく感情分析まで行うことが出来ます。
Cloud Vision APIのページでは簡単にデモも出来ますので、一度試しに使ってみると面白いかと思います。

画像を分析してみた

それではCloud Vision APIをつかっていろいろな画像を分析してみましょう。

まずはこちら、東京タワー。
Vision_API_東京タワー
しっかりとランドマーク検知で「Tokyo Tower」と検出されています。
選んだ画像が悪かったのか、スコア(画像と対象のマッチ率)は57%ほどと少し低めです。
また、ランドマーク検知の場合はその建物がある場所の緯度経度も取得することが出来ます。

次によく使われるコーディング中の画像。
Vision_API_-_機械学習による画像認識__OCR_ _ _Google_Cloud_Platform
画像はボカシが入っている部分が含まれているのですが、
多少のボカシがあるくらいだとしっかりと文字として検出することが出来ました。
機械学習である程度ぼかした文字も学習させているのでしょうか。

最後に女性の写真。
Vision_API_女性画像
顔検知によって、どの範囲に顔があるのかがx,y座標として取得できます。
また、例えば左目などの顔パーツがどの位置にあるのかという情報を3次元座標(x,y,z)として取得できます。
3次元軸のデータが取れるため、顔が正面を向いているのか斜めを向いているのかという判別をつけることが出来ます。
ちなみに、凄いことに目の位置だけではなく瞳孔の位置まで取得できてしまいます。

感情分析を見てみると、喜びの可能性が非常に高いという結果になっています。
他にも悲しみ、怒り、驚きの感情分析や帽子をかぶっているかどうかまで判定することが出来ます。
今は画像分析にとどまっていますが、近いうちに映像分析サービスもでてきそうです。

まとめ

今回はGoogleのCloud Vision APIをご紹介しましたが、
画像認識、分析という分野は機械学習との相性がよく、
MicrosoftのComputer Vision APIやIBMのWatsonなどの大手が
とても高性能な画像認識サービスを提供しています。

今後はサービスごとの分析力比較などもやってみたいと思いますので、
ぜひ楽しみにお待ち下さい!