「初探機器學習使用Python」まとめ#2 第二章 機器學習速覽
「初探機器學習使用Python」(↓の中国語版 )
Thoughtful Machine Learning with Python: A Test-Driven Approach
- 作者: Matthew Kirk
- 出版社/メーカー: O'Reilly Media
- 発売日: 2017/01/27
- メディア: ペーパーバック
- この商品を含むブログを見る
前回↓
#2では第二章について扱う。
何謂機器學習?
まず,機械学習とは何かについての説明から。
機器學習是一種人工智慧,其中藉由某個演算法 或方法從資料中萃取出樣式。(p15)
単語
意訳
「機械学習はAIの一種であり,データからパターンを抽出するアルゴリズムおよびメソッドである。」
機械学習は,訓練(Training)と預測(Predict)の2ステップにより構成される。
オリジナルの具体例として,犬と猫の画像を識別する問題を考えてみる(参考:Kaggle「dogs vs. cats」)。
訓練では与えられた画像から,例えば猫ならこんな輪郭,犬ならこんな輪郭,といった感じで特徴を抽出して,関数(のようなもの)を作る。預測では,新しく与えられた画像を関数に代入して,その出力により犬か猫かを予測する。
機械学習は,大きく3つに分類される。
-
監督式學習(Supervised learning)
-
非監督式學習(Unsupervised learning)
-
增強式學習(Reinforcement learning)
本書では主に監督式學習と非監督式學習について説明される。
監督式學習
先ほどの「犬猫問題」は,いわゆる分類問題に該当する。他に監督式學習の代表例としては,線形回帰がある。
非監督式學習
「犬猫問題」をもとに説明する。
監督式學習との違いは,与えられたデータが犬か猫かがわからない点である。ではどうやって訓練するか?例えば,輪郭の似ているものどうしを2つにグループ分けして,それを関数とする。預測では,新しく与えられた画像を関数に代入して,その出力によりどちらのグループにいるかを予測する。
機器學習的用途為何?
機器學習之所以獨特是因為具有妥善找出特定事物的能力,然而 每個機器學習演算法都含有怪誕且折衷的現象,運算的結果各有千秋。(p17)
単語
- 之所以 X 是因為 Y:YのためにXである
- 找出:見つけ出す,識別する
- 然而:しかし
- 每個:それぞれの
- 各有千秋:それぞれに取り柄がある,さまざまである
意訳
「機械学習は特定のものを正しく識別することができるという点でユニークだが、各機械学習アルゴリズムにはグロテスクかつ折衷的な現象が含まれており、計算結果はさまざまである。」
というわけで,機械学習の各手法について紹介する。その一覧を以下に示す。
- K-最近鄰法
- 單純貝氏分類
- 決策樹與隨機森林
- 隱馬可夫模型
- 支持向量機
- 類神經網路
- 分群
- 特徵選取
- 特徵𨍭換
- 自助聚合
それぞれの詳しいことは#4以降で説明する。
本章總結
本章的描述內容並非機器學習的詳盡介紹,但 無傷大雅。面對這個複雜的主題,終究會學到許多內容,而針對本書的其餘章節,這一章的簡介應該足以協助處理相關問題。(p19)
単語
- 並非:決して〜ではない
- 介紹:紹介
- 但:ただし
- 無傷大雅:風雅さを損なうことがない,問題ない
- 這個:これ,この
- 而:そして
- 應該:〜なはずである,〜すべきである
意訳
「この章の説明は機械学習の詳細な紹介ではないが、問題ない。この複雑なテーマに直面することで、結局多くを学ぶこととなる、そして本の残りの部分に向けて、この章の紹介は関連する問題への対処に十分であるはずである。」
次回↓