映画『シン・ゴジラ』のツイートをYahoo!テキスト解析WebAPIで分析してみよう! | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

映画『シン・ゴジラ』のツイートをYahoo!テキスト解析WebAPIで分析してみよう!

はじめに

こんにちは、プロダクト開発チームの明石です。

先日、ヤフージャパンからこのようなレポートが発表されました。

TOKIOとミスチル、矢沢永吉と郷ひろみの意外な類似性 ~16万曲の歌詞を分析・可視化してみた~ Yahoo! JAPANビッグデータレポート
http://docs.yahoo.co.jp/info/bigdata/special/2016/05/

レポートの詳細はリンク先をご覧いただくとして、大量のJPOP歌詞を分析して、どの単語がよく使われるか、アーティスト別のキーワード傾向などがひと目でよく分かる素晴らしいレポート+可視化です。

Yahoo!は7、8年くらい前から、自然言語処理の知識がなくてもこのような分析ができるツールをエンジニア向けに公開しています。

『テキスト解析Web API』
http://developer.yahoo.co.jp/webapi/jlp/

がそれです。

テキスト解析は、すでに技術として歴史があるため、すでに様々な場所で活用されていますし(一番日常的に触れるのは、検索エンジンでしょう。単語ではなく、文章で入力しても、適切な結果が返ってきます)、今回使用するYahoo!のAPIを始め手軽に利用するための環境も整っています。

マーケティング分野でも、例えば、自由記述のアンケート結果の分析などの「テキストマイニング」には必須の技術です。

今回は『テキスト解析Web API』のうち、日本語の文のなかで特徴的な単語を抽出する「キーフレーズ抽出」を使ってみます。

まず最初は基本的な使い方をしてみた後に、現在今年の興行収入第一位の映画『シン・ゴジラ』に関するTwitter上の反応を分析してみます。

 
目次
簡単に使える!Yahoo!テキスト解析Web API―登録の方法
簡単に使える!Yahoo!テキスト解析Web API―実際に使ってみる。
『シン・ゴジラ』の感想でいま一番多いのは『君の名は。』?
ツイートのキーワード分析から見る『シン・ゴジラ』のファン像
 
 
 

簡単に使える!Yahoo!テキスト解析Web API―登録の方法

Yahoo!のAPIを使うためには

http://developer.yahoo.co.jp/start/ にもある通り、

1.Yahoo! JAPAN ID登録
2.アプリケーション登録

二種類の登録が必要となります。この内 1.Yahoo! JAPAN ID登録はすでに登録している前提で、2.アプリケーション登録の手順を説明します。

といっても簡単で、
https://e.developer.yahoo.co.jp/register にアクセス(Yahoo! JAPAN IDでのログインが要求されます)して必要情報を入力するだけです。

Webアプリを作って公開する予定がない場合は 「アプリケーションの種類」は「クライアントサイド」、「サイトURL」は「http://www.example.com」でOKです。

登録すると、次のような画面になります。

スクリーンショット

『テキスト解析Web API』を使うには、表示されている「アプリケーションID」 が必要となりますので、いつでもコピペなどができるようにしましょう。

さて、準備が整いました。

簡単に使える!Yahoo!テキスト解析Web API―実際に使ってみる。

ためしに、前の節で、登録方法を説明している部分をキーワード分析してみましょう。

http://developer.yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html

に使い方が載っていますので、参照しながらすすめます。

リクエストURLは現在のところ

http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=<あなたのアプリケーションID>&sentence=<対象のテキスト>

とのことなのでこれをテキストエディタで編集して、そのままブラウザのURL欄に貼り付けて決定します。

<あなたのアプリケーションID>の箇所には先程、登録画面で確認した「アプリケーションID」を貼り付けてください。
<対象のテキスト> には分析したいテキストを貼り付けてください。改行は削除しておいたほうがうまくいきます。


http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=hrD2wFLu6QjdaS8v3NJ3vv25cgVwxf2yQa8XHrEj&sentence= 二種類の登録が必要となります。この内 1.Yahoo! JAPAN ID登録はすでに登録している前提で、2.アプリケーション登録の手順を説明します。といっても簡単で、https://e.developer.yahoo.co.jp/register にアクセス(Yahoo! JAPAN IDでのログインが要求されます)して必要情報を入力するだけです。Webアプリを作って公開する予定がない場合は 「アプリケーションの種類」は「クライアントサイド」、「サイトURL」は「http://www.example.com」でOKです。

こんな感じですね。ちなみにURL例の「アプリケーションID」はダミーなので動きません。必ず前の手順で発行されたご自分のものを貼ってください。

ブラウザのURL欄に貼り付けて実行すると、こんな感じに分析結果が表示されると思います

<ResultSet xmlns="urn:yahoo:jp:jlp:KeyphraseService" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="urn:yahoo:jp:jlp:KeyphraseService http://jlp.yahooapis.jp/KeyphraseService/V1/extract.xsd">
<script/>
<Result>
<Keyphrase>JAPAN ID</Keyphrase>
<Score>100</Score>
</Result>
<Result>
<Keyphrase>アプリケーション</Keyphrase>
<Score>83</Score>
</Result>
<Result>
<Keyphrase>JAPAN ID登録</Keyphrase>
<Score>54</Score>
</Result>
<Result>
<Keyphrase>クライアントサイド</Keyphrase>
<Score>41</Score>
</Result>
<Result>
<Keyphrase>アプリケーション登録</Keyphrase>
<Score>38</Score>
</Result>
<Result>
<Keyphrase>ログイン</Keyphrase>
<Score>31</Score>
</Result>
<Result>
<Keyphrase>アクセス</Keyphrase>
<Score>26</Score>
</Result>
・・・以下略

Keyphraseはそのままこの文章のキーフレーズ、すなわち、他の文章とくらべて多く使われている言葉です。Scoreはその言葉がどれだけ特徴的かの度合です。

分析結果一番目はおそらくYahoo! JAPAN IDのことですね。日本語の解析なので、英語のように間にスペースがあるとうまくいかないようですが、おおよその結果がつかめました。

解析した元の文章は、Yahoo! 「JAPAN ID」を使って「アプリケーション」を作ればいいですよ。という内容なので、結構きちんと分析されていることがわかります。

『シン・ゴジラ』の感想でいま一番多いのは『君の名は。』?―ツイート分析の実践。

さて、このAPIを使って、今年一番のヒット映画「シン・ゴジラ」へのTwitter上での反応を分析してみましょう。

公開して1ヶ月以上経つため、反応の移り変わりなどをみたいところですが、実は、Twitterは APIの仕様変更により、1週間以上過去のツイートを自動取得することが難しくなっているため、あまり過去には遡れません。

ですのでここは妥協して、公開5週目、9月4日(日)のツイートを分析してみます。

ツイート取得用検索キーワード:シンゴジラ

取得実行日:2016年9月4日

分析対象ツイート: 取得したもののうち、リツイート及び文中にリンクを含むと思われるツイートを除く、合計20621件

キーワードの出現回数を集計した上位40位

キーワード 出現回数 順位
シン・ゴジラ 11771 1
シンゴジラ 5058 2
2652 3
1681 4
映画 1087 5
685 6
600 7
569 8
映画館 472 9
467 10
w 427 11
ゴジラ 374 12
感想 364 13
エヴァ 334 14
シン 308 15
IMAX 295 16
285 17
作品 282 18
日本 277 19
自分 266 20
ところ 260 21
シン・ゴジラ観 253 22
感じ 232 23
2回目 229 24
225 25
石原さとみ 220 26
210 27
庵野 190 28
一回 188 29
時間 188 30
ゴーストバスターズ 172 31
4DX 170 32
蒲田くん 161 33
シン・ゴジラ2回目 158 34
自衛隊 157 35
東京 151 36
最後 150 37
意味 150 38
144 39
話題 139 40

 

Scoreの合計ではなく、単純な出現回数としたのは、Scoreはあくまでひとつの文章の中でのその言葉の重要性をしめすものであり、文章により合計値が異なるため、定量的な集計を行っての分析が難しいためです。

それでは、見ていきましょう。上位1,2位の「シン・ゴジラ」「シンゴジラ」は除くとして、まず、目を引くのは、「名」「君」です。他のキーワードとくらべてダントツに多いです。単純計算で全ツイートのほぼ1割に達しています。

これは、2016年8月26日公開の新海誠監督のアニメーション映画『君の名は。』のことを指しています。映画作品名としてではなく一般的な言葉として解釈されたのですね。

『シン・ゴジラ』の反応を調べたはずなのに『君の名は。』が実質トップのキーワードになっています。つまり、公開5週目くらいになると『シン・ゴジラ』作品内容自体の関心は、公開2週目の『君の名は。』に移り始めている。この2つの内容を比較したり、どちらを見に行くか検討したりといったツイートが増えていることがわかります。

そして、『シン・ゴジラ』に興味がある人が、他に興味がある映画は『君の名は。』であり、『HiGH&ROW』 ではないという、セグメントを意識している人には、当然といえば当然の感覚についても、こういった形で裏付けがとれます。

最初に取り上げたレポートを始め、もっと高度なデータ分析、可視化の方法はすでにたくさん実践されていますし、ご覧になったことも多いと思います。

しかし、単純なキーワード集計だけでも、いろいろなことが読み取れますし、何より気軽です。

キーワード分析から見る『シン・ゴジラ』のファン像―ツイート分析の実践2。

ちなみに、Scoreの合計によるランキングは、先ほど述べたとおり、各キーワードの全体に対する割合がわかりづらくなるため、分析の対象としては用いませんでした。

ただ、Scoreの合計でランキングしたほうがその単語の特徴性すなわち、「語り手が伝えたいこと」に近いものになります。定量的に何%の〜とは言いづらくはなりますが、ツイート全体の定性的な傾向が単純な出現回数の合計よりわかりやすくなります。

キーワード Scoreの合計値 順位
シン・ゴジラ 907376 1
シンゴジラ 457052 2
77743 3
45923 4
映画 39705 5
ゴジラ 34001 6
映画館 31883 7
エヴァ 25402 8
IMAX 22401 9
シン・ゴジラ観 21526 10
シン 21353 11
石原さとみ 19880 12
庵野 16935 13
感想 15368 14
ゴーストバスターズ 15078 15
シン・ゴジラ2回目 12183 16
シンゴジラ観 11668 17
蒲田くん 11167 18
シン ゴジラ 10992 19
自衛隊 10811 20
10790 21
作品 10350 22
10201 23
レイトショー 9754 24
サントラ 9723 25
パンフ 8671 26
ガルパン 8393 27
8253 28
日本 8158 29
ところ 8049 30
庵野監督 8038 31
7820 32
MX4D 7251 33
7160 34
パンフレット 7113 35
劇場 6431 36
エンドロール 6117 37
自分 6078 38
尾頭 6021 39
無人在来線爆弾 5869 40

 

これを見ながら「シン・ゴジラ」に関するツイートをする人のイメージを組み立てると、

  • 「IMAX」や「MX4D」「レイトショー」で観る。
  • 「2回目」を観る。
  • 「サントラ」と「パンフ(レット)」を買う。
  • 「庵野(監督)」作品であることを意識する。
  • 「ゴジラ」「石原さとみ」「蒲田くん」「自衛隊」「日本」「尾頭」「無人在来線爆弾」に注目している。
  • 「エンドロール」を観る。
  • 「作品」の「人」「気」を気にしている。
  • 「君」の「名」は。「エヴァ」「ゴーストバスターズ」「ガルパン」といった作品に興味・関心がある

となるでしょうか。

単純な集計でもこれだけのことがわかるテキスト解析の威力はほんとにすごいと思います。
まだまだ、色々な使い方ができるので、研究していきます!

今すぐお気軽に
ご相談ください。

0120-315-465

(平日 10:00~19:00)

今すぐお気軽に
ご相談ください。

0120-315-465

(平日 10:00~19:00)

グラッドキューブは
「ISMS認証」を取得しています。

認証範囲:
インターネットマーケティング支援事業、インターネットASPサービスの提供、コンテンツメディア事業

「ISMS認証」とは、財団法人・日本情報処理開発協会が定めた企業の情報情報セキュリティマネジメントシステムの評価制度です。

いますぐ無料で
お試しください。

SiTest の革新的な機能を
お試しいただけます。
利用規約

お名前【必須】
メールアドレス【必須】
電話番号【必須】