十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

「初探機器學習使用Python」まとめ#4 第三章 K-最近鄰法

「初探機器學習使用Python」(↓の中国語版 )

Thoughtful Machine Learning with Python: A Test-Driven Approach

Thoughtful Machine Learning with Python: A Test-Driven Approach

 

 前回↓

 

ryosuke-okubo.hatenablog.com

 

#4からは機械学習の各論。#4は第三章について扱う。

 

 

如何決定購屋與否呢?

本章では住宅の価格推定を例に話が進む。

例:Zestimate......Zillowの個々の住宅についての推定価格。

 

房屋多有價值呢?

例えば,住宅価格は以下の関数で表される。

住宅価格= f(広さ,階数,部屋数,...)

 

簡単な具体例として,価格を「広さ」と「階数」から2グループに分ける問題を考える。

f:id:ryosuke_okubo:20190406201106p:plain

 

特徵迴歸

特徵迴歸採用與一般迴歸不同的做法克服這個問題。並非專注在將某條曲線配適給一群屬性,而是著重在房屋的構成要素。(p23)

単語

  • 特徵迴歸:hedonic regression,ヘドニック回帰
  • 不同:異なる
  • 並非 X 而是 Y:XではなくYである

意訳

「hedonic regressionはこの問題を克服するために,一般回帰とは異なるアプローチを用いる。曲線を属性のグループに適応させることではなく、家の構成要素に焦点を当てる。」

 

何謂鄰里?

房屋的價值通常其鄰里所決定。(p23)

単語

  • :〜によって

意訳

「家の価値は、通常その隣人によって決定される。」

 

例えば,経済の中心地に近い方が遠いよりも価格が高い。

 

K-最近鄰

這就是效果相當不錯的K-最近鄰法(KNN)解決方案,其中採用種形式:迴歸(需要的價值所在)或分類。用KNN解決房屋價值問題,就是找出最接近的K個鄰居。(p24)

単語

  • 這就:これは,すぐ
  • 不錯:よい,正しい
  • :2

意訳

「これは非常に優れたK最近傍法(KNN)であり,回帰(値が必要な場合)と分類の2つの形式がある。住宅価値問題の解決にKNNを使用するためには、最も近いK人の近隣を探す。

f:id:ryosuke_okubo:20190406201125p:plain


 

 

K先生的最近鄰里

省略。

 

距離

上の意訳の「最も近い」の基準である,距離に関わる幾何学法則についてまとめる。

  • 畢氏定理(Pythagorean theorem):

    直角三角形の斜辺をc,その他の辺をa,bとすると,c = \sqrt{a^2+b^2}

  • 三角不等式(triangle inequality):

    ||x+y|| \le ||x|| + ||y||  

  • 歐氏距離(Euclidean distance):

    {\displaystyle d(x,y) = \sqrt{\sum_{i=0}^n (x_i - y_i)^2}}

  • 閔氏距離(Minkowski distance):

    {\displaystyle d_p(x,y) = (\sum_{i=0}^n |x_i - y_i|^p)^{\frac{1}{p}}}

  • 餘弦相似度(cosine similarity):

    {\displaystyle d(x,y) = \frac{x \cdot y}{||x|| \ ||y||}}

  • 曼哈頓距離(Manhattan Distance),計程車距離(Taxi Distance)

    {\displaystyle \sum_{i=0}^n |x_i - y_i|} 

  • Levenshitein距離

  • 馬氏距離(Mahalanobis distance):

    {\displaystyle d(x,y) = \sqrt{\sum_{i=1}^n \frac{(x_i - y_i)^2}{s_i^2}}}

  • Jaccard距離:

    {\displaystyle J(x,y) = \frac{|x \cap y|}{|x \cup y|}} 

 

維度詛咒

維度詛咒......高維空間建模的情況,距離的近似值變得不太 可靠。實際上,重要的認知是:找出資料集的特徵對於製作彈性模型至關重要。(p31,一部改変)

単語

  • 維度詛咒:curse of dimensionality,次元の呪い
  • 在 X 下:Xにおいて,Xによって
  • 不太:あまり〜でない
  • 可靠:信頼できる,確実である
  • 對於:〜のために
  • 至關重要:きわめて重要である

意訳

「次元の呪い......

高次元空間モデリングにおいて、距離近似は信頼性が低くなる。実際、重要な認識は、データセットの特性を見つけることが弾性モデルを作成するためにきわめて重要であるということである。」

 

参考:https://www.techcrowd.jp/machinelearning/dimensions/ 

 

如何選擇K?

省略。

 

本章總結

K-最近鄰法是一個簡單的演算法,可以產生很好的結果。如讀者所見,對於距離相關的問題,可以利用KNN獲得很棒的效果。(中略)總之,這是一個很棒的演算法,絕對經得起時間的考驗。(p42)

単語

  • :しかし,意外にも
  • 很棒:素晴らしい
  • 總之:要するに
  • 經得起:〜に耐えられる

意訳

「K最近傍法は簡単なアルゴリズムでありながら,とても良い結果を出すことができる。ご覧のとおり、距離に関する問題において、KNNを使用することで素晴らしい結果を得ることができる。(中略)要するに、これは間違いなく時の試練に耐える素晴らしいアルゴリズムである。」

 

次回↓

 

ryosuke-okubo.hatenablog.com