線性回歸幼幼班

更新 發佈閱讀 3 分鐘

本篇內容和圖片來自這個超棒的影片,簡單易懂,還會唱歌給你聽。感謝 StatQuest with Josh Starmer。



線性回歸 (linear regression) 的目的是要找到一條最吻合所有資料點的,過程中使用最小平方法 (least squares) 來找這條線。


好,看不懂。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)

假設這裡是一個富有的國度,我們想知道在什麼年紀 (x) 會擁有幾千萬 (y)。今天我們找了 9 個人訪問他們的年齡和擁有的千萬數,繪製出這張圖。

現在,想找出一條線,推算出公式,讓我們可以從年齡就知道這個人有多少財富。




線 (原圖再製)

線 (原圖再製)

但要怎麼知道是黑線、紅線、綠線還是藍線比較好呢?

首先用眼睛看就感覺藍線超爛,先拿他開刀。藍線的 y 值是 3.5,給它一個代號 b,b 就是截距 (intercept)。現在藍線有正式的名字了:y=b




殘差 (原圖)

殘差 (原圖)

每一個點跟 y=b 的最短距離叫做殘差 (residual),y=b 跟 (x₁, y₁) 這個點的距離為 b-y₁;y=b 跟 (x₂, y₂) 的距離為 b-y₂,以此類推。

然後會發現有些差值是負的,因為 y 值高於 b。這時把所有差值做平方,結果就會全都是正數。



寫成數學式:

  • 式1、(b-y₁)² + (b-y₂)² + (b-y₃)² + (b-y₄)² + (b-y₅)² + (b-y₆)² + (b-y₇)² + (b-y₈)² + (b-y₉)² = 24.62

先假設是這個數字,24.62 就是殘差平方和 (sum of squared residuals)


但是,單看這條線產生的殘差平方和是看不出什麼的,所以要用很多條線產生出很多個殘差平方和,到那時才有本錢看要選哪一條。

vocus|新世代的創作平台


現在把線旋轉一點點,發現算出來的殘差平方和 (18.72) 變小了!代表這條線比剛才的水平線還吻合這些資料點。



vocus|新世代的創作平台


再旋轉一點點,殘差平方和 (14.05) 又更小,線又更吻合資料點。



vocus|新世代的創作平台


旋轉到一定程度後發現殘差平方和 (31.71) 開始變大了。




有鑑於此,可以知道有一條最好的線藏在這堆線當中。為了知道這條線,首先需要引入一般線性方程式 (generic line equation) 的概念:y = ax + b


a 是斜率 (slope)、b 是截距 (intercept)。剛才的水平線 y = b 因為沒有斜率,所以沒有 ax,但我們已知最好的線不會是水平線,是斜線,所以就會需要 ax。


現在數學式變成這樣:

  • 式2、((ax₁ + b)-y₁)²+((ax₂ + b)-y₂)²+((ax₃ + b)-y₃)²+...

看起來很複雜,但其實只是把式1的 y₁、y₂ ... 代換成 ax + b 而已。概念不變,都是計算出每個點與線之間的距離,平方後相加,試圖找出最終值最小的線,這就是最小平方法 (least squares)。


接著就要來找最好的線啦!


殘差平方和 (原圖)

殘差平方和 (原圖)


這張圖每個點的 y 值都是一個殘差平方和,x 軸對應的是每一條線。

現在先不理 x 軸看到的線,以導數 (derivative) 來得知哪一條線是最好的。





導數推算斜率 (原圖再製)

導數推算斜率 (原圖再製)

這些殘差平方和連起來像一個 U 形,每個點會有一個切線。

水平線的導數為 0,也就是殘差平方和最小的地方。

我們就是要在眾多的點形成的 U 形中算出切線導數為 0 的點,對應到 x 軸的線,至此就找到最好的那條線了。(別擔心,通常沒有人手算,這件事就交給電腦)



以這 9 個點來說,最好的線是:y = 0.77x + 0.66。


年齡-財富 (原圖再製)

年齡-財富 (原圖再製)


回到一開始的設定,現在可以套公式知道這個富裕國度 10 歲的人擁有 8.36 千萬、20 歲的人擁有 16.06 千萬,以此類推。







真希望我也這麼富裕,但目前只能努力往知識富裕邁進。

留言
avatar-img
後面有懶人沙發
20會員
36內容數
語言學.旅遊.夢.一些突發奇想的東西
你可能也想看
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中中學主題練習—求垂直平分線
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
高中數學主題練習—線與圓之關係
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—最適直線計算
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
高中數學主題練習—過圓上一點之切線
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
高中數學主題練習—三角形中線長計算
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—三點共線
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
高中數學主題練習—兩點斜率
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News