「初探機器學習使用Python」まとめ#10 第九章　分群

「初探機器學習使用Python」（↓の中国語版）

Thoughtful Machine Learning with Python: A Test-Driven Approach

作者: Matthew Kirk
出版社/メーカー: O'Reilly Media
発売日: 2017/01/27
メディア: ペーパーバック
この商品を含むブログを見る

#10では第九章について扱う。

非明顯偏向的學習資料
用戶群
測試群集映射
K-Means分群法
EM分群法
不可能定理
本章總結

非明顯偏向的學習資料

本章ではK-Means分群法と最大期望（expectation maximizationーEM）分群法について説明される。二つとも非監督式學習である点が特徴である。

非監督式學習試圖找出將資料歸納到一定程度的函數。因此並非試圖將資料配適到某個紗類或數值、而只是配適函數來描述資料。（p162）

単語

試圖：試みる，やってみる
歸納：帰納する，要約する
因此：それだから，それによって

意訳

「教師なし学習はデータをある程度要約する関数を見つけようとする。したがって，データを特定の糸または数値に合わせることは意図されておらず，データを記述するために適した関数だけが意図されている。」

用戶群

省略。

測試群集映射

省略。

K-Means分群法

以基本的案例開始說明K-Means演算法。在資料集中選擇K個隨機點，將這些點定義為群集中心點。並將每個資料點指派到與其最接近之各別群集中心點所屬的群集編號。此時有一個以原始隨機群集中心點為基礎的分群。這並非最終所要的確切結果，因而使用資料的平均值更新群集中心點所在。於此，重複作業，直到群集中心點不再變動為止。（p166）

単語

指派：割り当てる
編號：通し番号
直到：〜まで

意訳

「K-Meansアルゴリズムを説明するための基本的な場合から始める。

データセット内のK個のランダムな点を選択し、それらの点をクラスターの中心点として定義する。
各データ点を最も近いクラスタ中心点が属するクラスタ番号に割り当てる。
この時点で、元のランダムなクラスター中心点に基づくクラスターが作成される。
これは最終的に望ましい正確な結果ではないため、クラスターの平均を使用してクラスターの中心点を更新する。
ここで、クラスタの中心点が変化しなくなるまで1~4を繰り返す。」

f:id:ryosuke_okubo:20190605134422p:plain

EM分群法

EM分群法並非聚焦於找出某個群集中心點以及與其相關的資料點，而是用於解決不同的問題。假設要將資料點劃分到群集1或群集2。其中希望順利猜測資料是否歸入群集中而不在意是否存在某個模糊性質。並不是精確的分配，實際要的是資料點在每個群集中的機率。（p163）

単語

順利：うまく進む
猜測：推測する

意訳

「EM法は，クラスタ中心点およびそれに関連するデータ点を見つけることでなく、むしろ異なる問題を解決するために焦点を合わせる。データ点をクラスター1またはクラスター2に分割するとする。その中で、データがクラスタに含まれているかどうかを推測したい，ただしファジーな性質があるかどうかは気にしない。実際に必要なのは、各クラスタ内のデータ点の確率である。」

K-Meansにおいてはどのグループに属するかで割り振りを行った。対してEMでは，そのグループに属する確率で割り振りを行う。

不可能定理

不可能定理（The Impossibility Theorem）とはJon Kleinbergによって提示された，クラスタリングの限界を示した定理である。

本文→https://www.cs.cornell.edu/home/kleinber/nips15.pdf

参考→https://qiita.com/snuffkin/items/a81162d1713877defa52

定理概要：以下の1~3全てを満たすクラスタリング関数は存在しない。

豐富性（Richness）：任意の分割ができる
尺度不變性（Scale invariance）：距離のスケールが変わってもクラスタリング結果は変わらない
一致性（Consistency）：クラスタの距離を変えても，結果は変わらない

本章總結

分群是有用的機器學習方式，然而屬於非監督式的學習。另外，分群法不可能同時具有一致性，豐富性與尺度不變性，而且可能在許多情境下毫無用處。但是不要為此感到失望 - 分群法可以用於分析資料集並將資料劃分成任意的群集。如果不在乎資料是如何被劃分，只是想讓資料分離，那麼就使用分群法吧，只是要知道有時候會出現怪異的情況。（p180）

意訳

「分類は有用な機械学習方法だが，それは教師なし学習である。さらに分類は，一致性，豊富性，尺度不変性を同時に満たすことはできず，多くの状況で役に立たない場合がある。ただしがっかりすることはない，分類を使用してデータセットを分析し，データを任意のクラスタに分割することができる。データがどのように分割されていても構わない場合，データを分割してから分類を使用せよ。奇妙な状況が発生することがあるので注意が必要である。」

次回↓

作成中

十の並列した脳

何でも勉強する，毎週月木曜に投稿予定