クラシファイア・システムとは何か?代表的な分類器についてまとめてみた。 | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

クラシファイア・システムとは何か?代表的な分類器についてまとめてみた。

クラシファイア・システムという名前を聞いたことはありませんか?
日本語では一般的に「分類器」と呼ばれることが多いのですが、文字通り様々なデータを、分類していくシステムのことです。

複数ある文書をコンピュータが識別し分類する。
複数ある画像をコンピュータが識別し分類する。

今となっては、それほど特別なことでもなく、迷惑メールの自動振り分けなどでも使われている機能ですが、実際にはどのような仕組みで成り立っているのでしょうか?

スポンサーリンク

分類するということ

goo辞書によると、分類とは

事物をその種類・性質・系統などに従って分けること。同類のものをまとめ、いくつかの集まりに区分すること。類別。

とあります。

komondor_mop
画像出典:Karen Zack(@teenybiscuit)on Twitter
上記の画像であれば、眼、鼻、口があるか、棒がついているか、などのルールに従ってコモンドール犬とモップを分ける事ができそうです。
komondor_mop2

分類器いろいろ

単純ベイズ分類器

単純ベイス分類器は、分類手法としては古い部類に入るものです。
分類問題を「ベイズの定理」を使って解決しようというのものです。

「ベイズの定理」については、当ブログでも取り上げて解説していますのでご参照ください。

ナイーブベイズ分類器とも言い、「ベイズの定理」を用いた単純(ナイーブ)な確率的分類器です。
事前に訓練した結果(教師あり学習)にもとづき、「どのカテゴリに分類されるか」を推定します。

決定木

決定木とは、分類ルールを木構造で表したものです。
例えば、下記のような木構造の条件分岐で分類(予測=回帰)を行うことができます。
Chart
Id3_result
画像出典:ID3(wikipedia)

SVM(サポートベクターマシン)

サポートベクターマシンは、画像や音声などの情報データからパターンを認識し、データを2つのグループに分類することに優れている手法です。
パターン認識とは、画像であれば「顔が写っているかどうか」といった分類のための認識や、「書かれている文字は何か」といった文字認識に使われます。
SVM
上図の例では、リンゴのデータの周りの領域とミカンの周りの領域とが距離が最大化されるように明確な基準を設けることで、それぞれのクラスの汎化能力が低くならないようにする手法です.

ランダムフォレスト

ランダムフォレストとは集団学習により高精度の分類・予測を実現する機械学習のアルゴリズムです。
決定木モデルの集団学習を行うので「森(Forest)」と言うことになります。
集団学習とは、ことのあるサンプルや重みの学習モデルを生成し、それぞれの結果を組み合わせることにより精度・汎用性を向上させます。
分類をする場合は「多数決」が使われます。

ディープラーニング

ディープラーニング
については当ブログでも幾度と取り上げていますが、人間が手動で行っていた特徴選択を自動で行うというのが最大の特徴です。

データのうちどの特徴量が重要でありどのようにそれらが関係しているかなどといった点について、人間が改善の手を加える必要がないので文字通りの「知能」を持っているかのように感じられます。

最後に

主だった分類器の手法について、代表的なものを古いものから順に紹介してみました。
時代とともに精度が高まり、より賢くなっていると言えますが、最新のものを常に活用するのが正解と言うわけでもありません。
使用目的によっては、よりシンプルな手法が適している、ということも十分ありえるからです。
現在は分類器もさまざまなライブラリが提供されており、データさえ揃っていればすぐ活用できる環境が整えられています。
手軽に使えるライブラリを活用して、機械学習の技術を習得していきましょう!


03-6441-3336