線性迴歸到底是在迴歸什麼?原來聚類跟分類不一樣!(機器學習入門)

更新 發佈閱讀 10 分鐘
vocus|新世代的創作平台


今天要來整理的是關於機器學習裡的問題類型。

剛開始看到這段的時候,我心想——
我就是對資料跟數字超級不行才念語文的,
而且這個看起來是資料處理,跟使用AI沒有太大關係吧?

算了不想搞懂,應該不用懂這個吧?😅

但是後來發現,考試超常考這個的!
唉~還是只好認命的想辦法把它搞懂。


認命的多讀了一下之後,
發現如果把這些資料相關的問題再稍微整理一下,
其實就是在回答:機器學習到底在解什麼問題。
也是很多人在學 AI 時,最容易搞混的地方。

大概可以分成下列幾種常見的問題類型:

➡️迴歸問題
➡️分類問題
➡️聚類問題
➡️時間序列
➡️降維

嗯,每一個字拆開來看都看得懂,
可是組在一起到底是什麼意思?


好吧,先問一下AI,這是什麼玩意。

vocus|新世代的創作平台


問完之後,我試著把它整理成一張圖:

機器學習三種常見問題整理(迴歸、分類、聚類)

  • 迴歸:預測數值
  • 分類:選已知類別
  • 聚類:自己分群(沒有答案)

看起來很像,但其實完全不一樣。



迴歸問題(Regression)

我第一次看到「迴歸」這個名詞,
是在說明「線性迴歸」(Linear Regression)的資料中看到的。

我記得我一開始看到「線性迴歸」這個玩意的時候,
腦中一直覺得很疑惑,

「啊不是就是『線性』的嗎?
那它到底是在迴歸什麼東西?
而且為什麼是『迴歸』,不是『回歸』?」

所以蕾依奈爾就直接(不耐煩)的問了AI:
「 所以線性迴歸到底是在迴歸什麼鬼?」

AI回答我說:
「線性迴歸,是一種用資料找關係、預測數值的方法」。

嗯?那它根本就沒有「迴歸」嘛!😑(莫名的有點怒)

繼續追問下去,原來是以前有個統計學家,
觀察到人的身高會「往平均值靠近」的現象,
也就是說高個子的父母,小孩雖然也高,
但通常不會比父母更高,而是會「矮一點點」;
反之,矮個子的父母,小孩會比父母「高一點點」。
統計學家把這個現象稱為「迴歸到平均」,
才有了 regression(迴歸)這個說法。

😑

我只能說,如果是依照蕾依奈爾的語言腦,
我會用「趨近」平均值的概念來命名,不會用regresssion。
不過因為我不是厲害的統計學家,
所以我能說什麼呢😅
至於為什麼翻成「迴歸」、而不是「回歸」,
這就更無解了。

而且現在看到好多高父母,生出來的小孩都比父母高很多。
然後我也沒有比我爸媽高……
決定放棄追問。

所以總之,「迴歸」原本指的是,
數據會「向平均值靠近」的現象,
像線性迴歸這種方法。
(至於「邏輯迴歸」其實是用來做分類,等一下解釋。總之這名字真的很會誤導人😓)

這套方法被廣泛應用在資料處理上,
變成了「找尋變數間關係」的意思。
由於可以找出資料之間的大致趨勢跟關係,
因此最後可以用來進行預測。

現在機器學習裡的「迴歸」,
已經不是在講「回到平均」這件事了。
所以「迴歸問題」其實就是:

「根據已經有的資料,找出一個趨勢,然後用來預測數值。」

比方說,丟給機器或程式一堆資料:
好比房子的坪數、地段、屋齡……等資料,
它就會試著畫出一條「最合理的線」,
然後告訴你,
這間房子,大概值多少錢。

可惜蕾依奈爾不是統計學家也還不會寫程式,
不然如果做一個台股大盤迴歸預測,
說不定可以實現財務自由😏

至於「迴歸」的演算法,
最常見的就是線性迴歸(用一條線去描述關係),
其他像是多項式迴歸或決策樹迴歸,
其實都是在用不同方式做同一件事:

「猜一個數字」。



分類問題(Classification)

嗯~好,所以迴歸是指「找尋變數間關係」,
而且這個名詞最早是指「向平均值靠近」,
現在多半用來指一種「用來預測數值」的方法。

所以,

——「邏輯迴歸」——

應該是符合某種邏輯、或是運用某些邏輯,
來進行迴歸的一種方式囉?

😑

統計學家的腦袋構造果然跟我的語言腦長的不一樣。

AI了一下之後,發現邏輯迴歸的定義是:
——邏輯迴歸(Logistic Regression) 是一種用來解決「分類問題」的統計工具。——

那它哪裡有在做迴歸??邏輯在哪裡??


原來所謂的「邏輯」,
其實不是什麼「很有邏輯的推理」,
而是指一個叫做 logistic function 的數學函數。

「迴歸」的部分,
則是因為它在計算的過程中,
先算出一個數值,
再把這個數值轉換成一個介於 0 到 1 之間的機率。

這個機率值,
不是拿來當最終答案,
而是被拿來判斷是「哪一類」的機率。

比如說,

  • 0或1
  • 是或否
  • A或B

所以可以導出「是」或「不是」的分類結果。

邏輯迴歸是分類問題當中最常見的演算法之一。
因為分類問題通常就是在問是「A」、還是「B」?
(當然,有時候也可以分成不只兩類,但最常見的是這種二選一的情況。)


好吧~跨領域通常都是一個
「打破現有藩籬、包容未知(儘管我覺得有點不合理)的東西」的過程。

就像不懂日文的人,第一次看到,

——「家族が住宅で一家心中」——

大概會以為是什麼大家族在家裡,
一家和樂融融互通彼此心裡的想法,
之類的意思。

😑

……漢字拆開來每個字都能理解。
但猜起來意思完全不對。

其實家族指的是一家人,不是整個大家族。
心中指的是一起自S。
所以整句話意思是

「一家人在家裡集體自S」。

——照這樣來說,我也不應該用我自以為的字面意思去解釋。


好,所以這個邏輯迴歸的定義,我買單。


結論就是,
分類問題是一個「把資料分到不同標籤裡」的過程。

比方說:
這封信是正常信件,還是垃圾信件?
這個保戶是高風險,還是低風險?

而邏輯迴歸,是分類問題中最常見的演算法之一。
其他還包括:

  • 決策樹(Decision Tree)
    ➡️ 像問問題一路分下去,很像 ADV 攻略路徑圖,最後會有 GE 跟 BE 的決策。
  • 支持向量機(Support Vector Machine)
    ➡️ 在中間畫一條線把兩類分開,名字看起來很像**A夢的道具,但其實不是什麼機器。
  • K-近鄰演算法(K-Nearest Neighbors)
    ➡️ 看你附近的人是誰,是分類不是聚類。



聚類問題(Clustering)

雖然說,
不應該用字面意思來自己腦補,
但是大腦是用語言來思考的,
看到陌生名詞的第一瞬間,
還是會用語言的意思去嘗試理解。

分類,
把一堆東西分成不同類別。

聚類,
把一堆東西分類之後放在一起……?

蛤??不一樣喔??
啊聚類,不就是一堆東西分類之後,
類似的東西分在一起嗎?

😑

統計學家的腦果然不是我想像的那個樣子。
嗯?還是說應該是翻譯前輩們的問題?
為什麼要翻成這麼令人混淆的詞彙😑


原來事實是:

「分類」(Classification)是:

你已經知道有哪些類別, 然後再把資料分進去。
答案是在這之前就已經存在的。

在訓練的方法上也不一樣,
分類是監督式學習 (Supervised Learning)
也就是說電腦在學習時,你已經告訴過它答案了(有標籤)。

就像你拿到一堆餐盒要發放,
上面已經寫好:

  • 便當
  • 甜點

你只要做一件事:把餐盒放到對的分類裡
然後把便當發給要吃便當的人,
把甜點發給要吃甜點的人。


不過,「聚類」(Clustering)就不是這麼運作的。

聚類,是一個根據資料之間的相似程度,
機器自己把東西分成一群一群的過程。

機器一開始就沒有標準答案,
也不知道「要分成幾類」,
沒有人告訴它答案是什麼,
它得自己依照現有資訊把資料分成關係相近的類別。

比如說,有一堆餐盒,
上面什麼標示都沒有寫。
你只能自己看:

  • 這些看起來像主食
  • 那些看起來像甜的

然後自己把餐盒分到「主食」、跟「甜點」的類別去。

在訓練的方法上,聚類是非監督式學習 (Unsupervised Learning)
機器事先不知道答案,需要自己找規律(無標籤)。

而在聚類問題當中,最常出現演算法是:

  • K-平均演算法 (K-means)
    簡單來說,
    就是把一堆東西分成幾堆, 讓「看起來像的放在一起」。


如果把分類跟聚類放在一起看,差別大概是下面這樣。

vocus|新世代的創作平台



嗯~不禁覺得我一開始決定用英文來記相關的專有名詞,
是正確的決定。
如果看到 Classification vs. Clustering,
應該就比較不會覺得這兩個很像了。

如果你的目的是通過iPAS考試,
因為考題上面的專有名詞都會同時標示中英文,
應該也不會只記英文不知道中文考題在問什麼。
所以用英文記絕對不吃虧的。


一句話記住這三種問題的差別

最後如果用一句話來說:

➡️迴歸是「要你猜一個數值」(預測數值),
➡️分類是「答案已經給你了,你只要選一個」(有答案的分組),
➡️聚類是「連答案都沒有,你要自己分出來」(沒有答案的分組)。


至於一開始提到的「時間序列」跟「降維」,
它們的性質其實跟迴歸、分類、聚類不太一樣。

上述這幾種問題比較像是在回答:
「這個問題在問什麼?」

而時間序列跟降維,
更偏向是在處理「資料本身的特性」。

所以這兩個,就留到下次有機會再來整理好了😊

留言
avatar-img
ReiY的沙龍
2會員
6內容數
什麼都寫一點。 有時候是學習,有時候只是生活, 也可能只是某一天突然想明白了一件事。
ReiY的沙龍的其他內容
2026/04/16
玩視覺小說遊戲的時候,你會不看攻略亂選, 還是直接查好結局一路精準過關? 或者,在一次次Bad End之後,慢慢學會怎麼選才不會出事? 在自學機器學習時,我發現這些遊戲中的進行方式, 其實正對應到三種不同的學習模式。 原來我們早就在用機器學習了,只是從來沒有這樣叫它而已。
Thumbnail
2026/04/16
玩視覺小說遊戲的時候,你會不看攻略亂選, 還是直接查好結局一路精準過關? 或者,在一次次Bad End之後,慢慢學會怎麼選才不會出事? 在自學機器學習時,我發現這些遊戲中的進行方式, 其實正對應到三種不同的學習模式。 原來我們早就在用機器學習了,只是從來沒有這樣叫它而已。
Thumbnail
2026/04/15
從 機器學習)的限制出發,介紹深度學習如何透過多層神經網路,讓機器能夠自行從資料中學習特徵,而不再依賴人工定義;介紹深度學習的運作概念、AI「黑箱模型」的特性、 CNN、RNN、Transformer 等常見模型與應用。——AI,其實早已存在於我們的生活之中。
Thumbnail
2026/04/15
從 機器學習)的限制出發,介紹深度學習如何透過多層神經網路,讓機器能夠自行從資料中學習特徵,而不再依賴人工定義;介紹深度學習的運作概念、AI「黑箱模型」的特性、 CNN、RNN、Transformer 等常見模型與應用。——AI,其實早已存在於我們的生活之中。
Thumbnail
2026/04/09
重新整理自己對人工智慧的理解。從圖靈測驗的定義出發,釐清 AI 的兩種發展路線:Symbolic AI 與 Data Driven AI還有Machine Learning、概念與學習方式,包含監督學習、非監督學習與強化學習,。
Thumbnail
2026/04/09
重新整理自己對人工智慧的理解。從圖靈測驗的定義出發,釐清 AI 的兩種發展路線:Symbolic AI 與 Data Driven AI還有Machine Learning、概念與學習方式,包含監督學習、非監督學習與強化學習,。
Thumbnail
看更多
你可能也想看
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
Thumbnail
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
Thumbnail
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
Thumbnail
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
在機器學習和數據分析中,在分類任務中標籤不平衡是普遍存在的問題。本文探討了標籤不平衡對模型訓練和預測性能的影響,並提供解決方案,例如過採樣、欠採樣、調整類別權重和使用適合的不平衡數據評估指標。透過這些方法,能夠提高模型在類別上的預測準確性,從而促進更優化的機器學習應用。
Thumbnail
在機器學習和數據分析中,在分類任務中標籤不平衡是普遍存在的問題。本文探討了標籤不平衡對模型訓練和預測性能的影響,並提供解決方案,例如過採樣、欠採樣、調整類別權重和使用適合的不平衡數據評估指標。透過這些方法,能夠提高模型在類別上的預測準確性,從而促進更優化的機器學習應用。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
機器學習(Machine Learning, ML)是 AI 的核心技術,透過大量歷史資料訓練模型,讓電腦自動找出規律並進行預測與分類。不同於傳統寫死規則,ML 強調「用資料學習」,廣泛應用於垃圾郵件過濾、推薦系統與信用評分。掌握機器學習,就是理解現代 AI 如何運作的關鍵第一步。
Thumbnail
機器學習(Machine Learning, ML)是 AI 的核心技術,透過大量歷史資料訓練模型,讓電腦自動找出規律並進行預測與分類。不同於傳統寫死規則,ML 強調「用資料學習」,廣泛應用於垃圾郵件過濾、推薦系統與信用評分。掌握機器學習,就是理解現代 AI 如何運作的關鍵第一步。
Thumbnail
多重共線性是指迴歸模型中,自變數(特徵)之間存在高度線性相關的現象,這會導致模型對各變數獨立影響估計的困難,並降低其解釋性和預測能力。本文將探討多重共線性的定義、成因、影響以及如何識別和解決這一問題,從而提升模型的穩定性和準確性。
Thumbnail
多重共線性是指迴歸模型中,自變數(特徵)之間存在高度線性相關的現象,這會導致模型對各變數獨立影響估計的困難,並降低其解釋性和預測能力。本文將探討多重共線性的定義、成因、影響以及如何識別和解決這一問題,從而提升模型的穩定性和準確性。
Thumbnail
在評估預測模型的準確率時,選用合適的評估方法至關重要。本文探討了不同的回歸和分類指標,如均方誤差(MSE)、平均絕對誤差(MAE)及準確率等。透過這些評估指標,更全面地理解模型性能,避免因不當評估而錯失優良模型。本文章還列舉了多種常見誤區和情境,以幫助讀者選擇最合適的評估方法,從而提升模型性能。 
Thumbnail
在評估預測模型的準確率時,選用合適的評估方法至關重要。本文探討了不同的回歸和分類指標,如均方誤差(MSE)、平均絕對誤差(MAE)及準確率等。透過這些評估指標,更全面地理解模型性能,避免因不當評估而錯失優良模型。本文章還列舉了多種常見誤區和情境,以幫助讀者選擇最合適的評估方法,從而提升模型性能。 
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News