映画『シン・ゴジラ』のツイートをYahoo!テキスト解析WebAPIで分析してみよう!
はじめに
こんにちは、プロダクト開発チームの明石です。
先日、ヤフージャパンからこのようなレポートが発表されました。
TOKIOとミスチル、矢沢永吉と郷ひろみの意外な類似性 ~16万曲の歌詞を分析・可視化してみた~ Yahoo! JAPANビッグデータレポート
http://docs.yahoo.co.jp/info/bigdata/special/2016/05/
レポートの詳細はリンク先をご覧いただくとして、大量のJPOP歌詞を分析して、どの単語がよく使われるか、アーティスト別のキーワード傾向などがひと目でよく分かる素晴らしいレポート+可視化です。
Yahoo!は7、8年くらい前から、自然言語処理の知識がなくてもこのような分析ができるツールをエンジニア向けに公開しています。
『テキスト解析Web API』
http://developer.yahoo.co.jp/webapi/jlp/
がそれです。
テキスト解析は、すでに技術として歴史があるため、すでに様々な場所で活用されていますし(一番日常的に触れるのは、検索エンジンでしょう。単語ではなく、文章で入力しても、適切な結果が返ってきます)、今回使用するYahoo!のAPIを始め手軽に利用するための環境も整っています。
マーケティング分野でも、例えば、自由記述のアンケート結果の分析などの「テキストマイニング」には必須の技術です。
今回は『テキスト解析Web API』のうち、日本語の文のなかで特徴的な単語を抽出する「キーフレーズ抽出」を使ってみます。
まず最初は基本的な使い方をしてみた後に、現在今年の興行収入第一位の映画『シン・ゴジラ』に関するTwitter上の反応を分析してみます。
目次
簡単に使える!Yahoo!テキスト解析Web API―登録の方法
簡単に使える!Yahoo!テキスト解析Web API―実際に使ってみる。
『シン・ゴジラ』の感想でいま一番多いのは『君の名は。』?
ツイートのキーワード分析から見る『シン・ゴジラ』のファン像
簡単に使える!Yahoo!テキスト解析Web API―登録の方法
Yahoo!のAPIを使うためには
http://developer.yahoo.co.jp/start/ にもある通り、
1.Yahoo! JAPAN ID登録
2.アプリケーション登録
二種類の登録が必要となります。この内 1.Yahoo! JAPAN ID登録はすでに登録している前提で、2.アプリケーション登録の手順を説明します。
といっても簡単で、
https://e.developer.yahoo.co.jp/register にアクセス(Yahoo! JAPAN IDでのログインが要求されます)して必要情報を入力するだけです。
Webアプリを作って公開する予定がない場合は 「アプリケーションの種類」は「クライアントサイド」、「サイトURL」は「http://www.example.com」でOKです。
登録すると、次のような画面になります。
『テキスト解析Web API』を使うには、表示されている「アプリケーションID」 が必要となりますので、いつでもコピペなどができるようにしましょう。
さて、準備が整いました。
簡単に使える!Yahoo!テキスト解析Web API―実際に使ってみる。
ためしに、前の節で、登録方法を説明している部分をキーワード分析してみましょう。
http://developer.yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html
に使い方が載っていますので、参照しながらすすめます。
リクエストURLは現在のところ
http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=<あなたのアプリケーションID>&sentence=<対象のテキスト>
とのことなのでこれをテキストエディタで編集して、そのままブラウザのURL欄に貼り付けて決定します。
<あなたのアプリケーションID>の箇所には先程、登録画面で確認した「アプリケーションID」を貼り付けてください。
<対象のテキスト> には分析したいテキストを貼り付けてください。改行は削除しておいたほうがうまくいきます。
http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=hrD2wFLu6QjdaS8v3NJ3vv25cgVwxf2yQa8XHrEj&sentence= 二種類の登録が必要となります。この内 1.Yahoo! JAPAN ID登録はすでに登録している前提で、2.アプリケーション登録の手順を説明します。といっても簡単で、https://e.developer.yahoo.co.jp/register にアクセス(Yahoo! JAPAN IDでのログインが要求されます)して必要情報を入力するだけです。Webアプリを作って公開する予定がない場合は 「アプリケーションの種類」は「クライアントサイド」、「サイトURL」は「http://www.example.com」でOKです。
こんな感じですね。ちなみにURL例の「アプリケーションID」はダミーなので動きません。必ず前の手順で発行されたご自分のものを貼ってください。
ブラウザのURL欄に貼り付けて実行すると、こんな感じに分析結果が表示されると思います
<ResultSet xmlns="urn:yahoo:jp:jlp:KeyphraseService" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="urn:yahoo:jp:jlp:KeyphraseService http://jlp.yahooapis.jp/KeyphraseService/V1/extract.xsd">
<script/>
<Result>
<Keyphrase>JAPAN ID</Keyphrase>
<Score>100</Score>
</Result>
<Result>
<Keyphrase>アプリケーション</Keyphrase>
<Score>83</Score>
</Result>
<Result>
<Keyphrase>JAPAN ID登録</Keyphrase>
<Score>54</Score>
</Result>
<Result>
<Keyphrase>クライアントサイド</Keyphrase>
<Score>41</Score>
</Result>
<Result>
<Keyphrase>アプリケーション登録</Keyphrase>
<Score>38</Score>
</Result>
<Result>
<Keyphrase>ログイン</Keyphrase>
<Score>31</Score>
</Result>
<Result>
<Keyphrase>アクセス</Keyphrase>
<Score>26</Score>
</Result>
・・・以下略
Keyphraseはそのままこの文章のキーフレーズ、すなわち、他の文章とくらべて多く使われている言葉です。Scoreはその言葉がどれだけ特徴的かの度合です。
分析結果一番目はおそらくYahoo! JAPAN IDのことですね。日本語の解析なので、英語のように間にスペースがあるとうまくいかないようですが、おおよその結果がつかめました。
解析した元の文章は、Yahoo! 「JAPAN ID」を使って「アプリケーション」を作ればいいですよ。という内容なので、結構きちんと分析されていることがわかります。
『シン・ゴジラ』の感想でいま一番多いのは『君の名は。』?―ツイート分析の実践。
さて、このAPIを使って、今年一番のヒット映画「シン・ゴジラ」へのTwitter上での反応を分析してみましょう。
公開して1ヶ月以上経つため、反応の移り変わりなどをみたいところですが、実は、Twitterは APIの仕様変更により、1週間以上過去のツイートを自動取得することが難しくなっているため、あまり過去には遡れません。
ですのでここは妥協して、公開5週目、9月4日(日)のツイートを分析してみます。
ツイート取得用検索キーワード:シンゴジラ
取得実行日:2016年9月4日
分析対象ツイート: 取得したもののうち、リツイート及び文中にリンクを含むと思われるツイートを除く、合計20621件
キーワードの出現回数を集計した上位40位
キーワード | 出現回数 | 順位 |
シン・ゴジラ | 11771 | 1 |
シンゴジラ | 5058 | 2 |
名 | 2652 | 3 |
君 | 1681 | 4 |
映画 | 1087 | 5 |
人 | 685 | 6 |
気 | 600 | 7 |
私 | 569 | 8 |
映画館 | 472 | 9 |
笑 | 467 | 10 |
w | 427 | 11 |
ゴジラ | 374 | 12 |
感想 | 364 | 13 |
エヴァ | 334 | 14 |
シン | 308 | 15 |
IMAX | 295 | 16 |
観 | 285 | 17 |
作品 | 282 | 18 |
日本 | 277 | 19 |
自分 | 266 | 20 |
ところ | 260 | 21 |
シン・ゴジラ観 | 253 | 22 |
感じ | 232 | 23 |
2回目 | 229 | 24 |
話 | 225 | 25 |
石原さとみ | 220 | 26 |
俺 | 210 | 27 |
庵野 | 190 | 28 |
一回 | 188 | 29 |
時間 | 188 | 30 |
ゴーストバスターズ | 172 | 31 |
4DX | 170 | 32 |
蒲田くん | 161 | 33 |
シン・ゴジラ2回目 | 158 | 34 |
自衛隊 | 157 | 35 |
東京 | 151 | 36 |
最後 | 150 | 37 |
意味 | 150 | 38 |
次 | 144 | 39 |
話題 | 139 | 40 |
Scoreの合計ではなく、単純な出現回数としたのは、Scoreはあくまでひとつの文章の中でのその言葉の重要性をしめすものであり、文章により合計値が異なるため、定量的な集計を行っての分析が難しいためです。
それでは、見ていきましょう。上位1,2位の「シン・ゴジラ」「シンゴジラ」は除くとして、まず、目を引くのは、「名」「君」です。他のキーワードとくらべてダントツに多いです。単純計算で全ツイートのほぼ1割に達しています。
これは、2016年8月26日公開の新海誠監督のアニメーション映画『君の名は。』のことを指しています。映画作品名としてではなく一般的な言葉として解釈されたのですね。
『シン・ゴジラ』の反応を調べたはずなのに『君の名は。』が実質トップのキーワードになっています。つまり、公開5週目くらいになると『シン・ゴジラ』作品内容自体の関心は、公開2週目の『君の名は。』に移り始めている。この2つの内容を比較したり、どちらを見に行くか検討したりといったツイートが増えていることがわかります。
そして、『シン・ゴジラ』に興味がある人が、他に興味がある映画は『君の名は。』であり、『HiGH&ROW』 ではないという、セグメントを意識している人には、当然といえば当然の感覚についても、こういった形で裏付けがとれます。
最初に取り上げたレポートを始め、もっと高度なデータ分析、可視化の方法はすでにたくさん実践されていますし、ご覧になったことも多いと思います。
しかし、単純なキーワード集計だけでも、いろいろなことが読み取れますし、何より気軽です。
キーワード分析から見る『シン・ゴジラ』のファン像―ツイート分析の実践2。
ちなみに、Scoreの合計によるランキングは、先ほど述べたとおり、各キーワードの全体に対する割合がわかりづらくなるため、分析の対象としては用いませんでした。
ただ、Scoreの合計でランキングしたほうがその単語の特徴性すなわち、「語り手が伝えたいこと」に近いものになります。定量的に何%の〜とは言いづらくはなりますが、ツイート全体の定性的な傾向が単純な出現回数の合計よりわかりやすくなります。
キーワード | Scoreの合計値 | 順位 |
シン・ゴジラ | 907376 | 1 |
シンゴジラ | 457052 | 2 |
名 | 77743 | 3 |
君 | 45923 | 4 |
映画 | 39705 | 5 |
ゴジラ | 34001 | 6 |
映画館 | 31883 | 7 |
エヴァ | 25402 | 8 |
IMAX | 22401 | 9 |
シン・ゴジラ観 | 21526 | 10 |
シン | 21353 | 11 |
石原さとみ | 19880 | 12 |
庵野 | 16935 | 13 |
感想 | 15368 | 14 |
ゴーストバスターズ | 15078 | 15 |
シン・ゴジラ2回目 | 12183 | 16 |
シンゴジラ観 | 11668 | 17 |
蒲田くん | 11167 | 18 |
シン ゴジラ | 10992 | 19 |
自衛隊 | 10811 | 20 |
気 | 10790 | 21 |
作品 | 10350 | 22 |
人 | 10201 | 23 |
レイトショー | 9754 | 24 |
サントラ | 9723 | 25 |
パンフ | 8671 | 26 |
ガルパン | 8393 | 27 |
観 | 8253 | 28 |
日本 | 8158 | 29 |
ところ | 8049 | 30 |
庵野監督 | 8038 | 31 |
私 | 7820 | 32 |
MX4D | 7251 | 33 |
笑 | 7160 | 34 |
パンフレット | 7113 | 35 |
劇場 | 6431 | 36 |
エンドロール | 6117 | 37 |
自分 | 6078 | 38 |
尾頭 | 6021 | 39 |
無人在来線爆弾 | 5869 | 40 |
これを見ながら「シン・ゴジラ」に関するツイートをする人のイメージを組み立てると、
- 「IMAX」や「MX4D」「レイトショー」で観る。
- 「2回目」を観る。
- 「サントラ」と「パンフ(レット)」を買う。
- 「庵野(監督)」作品であることを意識する。
- 「ゴジラ」「石原さとみ」「蒲田くん」「自衛隊」「日本」「尾頭」「無人在来線爆弾」に注目している。
- 「エンドロール」を観る。
- 「作品」の「人」「気」を気にしている。
- 「君」の「名」は。「エヴァ」「ゴーストバスターズ」「ガルパン」といった作品に興味・関心がある
となるでしょうか。
単純な集計でもこれだけのことがわかるテキスト解析の威力はほんとにすごいと思います。
まだまだ、色々な使い方ができるので、研究していきます!
-
お問い合わせ
SiTest の導入検討や
他社ツールとの違い・比較について
弊社のプロフェッショナルが
喜んでサポートいたします。 -
コンサルティング
ヒートマップの活用、ABテストの実施や
フォームの改善でお困りの方は、
弊社のプロフェッショナルが
コンサルティングいたします。
今すぐお気軽にご相談ください。
今すぐお気軽に
ご相談ください。
(平日 10:00~19:00)
今すぐお気軽に
ご相談ください。
0120-315-465
(平日 10:00~19:00)
グラッドキューブは
「ISMS認証」を取得しています。
認証範囲:
インターネットマーケティング支援事業、インターネットASPサービスの提供、コンテンツメディア事業
「ISMS認証」とは、財団法人・日本情報処理開発協会が定めた企業の情報情報セキュリティマネジメントシステムの評価制度です。