《AI-900》機器學習4:分群 Cluster

更新於 發佈於 閱讀時間約 3 分鐘
raw-image

本文章Microsoft 對應網頁:中文英文

簡介

  • 分群(微軟教材翻譯為叢集)監督式學習(unsupervised machine learning),不需要使用標籤好的資料進行訓練,模型觀察數值或特徵的相似性來分組。
  • 在分群模型中,標籤(label)是觀測值所被分配到的群集,而這個分配是完全根據它的特徵(features)。
  • 考題重點:辨別何時使用分群(區別於迴歸、分類)。
    如題目有提到利用相似度自動分類、把相似的XX分組,而沒有預先設定好的類別,就是選分群/叢集。

訓練分群模型

舉例:觀察花朵樣本,紀錄花的葉子數量和花瓣數量,資料集(dataset)中,只有兩個特徵(features)x1, x2 ,無已知標籤(ex.花的種類),模型的目標不是辨別花種,而是依相似度分群。

常用的演算法:K-means clustering

  • 將特徵向量化(vectorized),定義n個維度的座標(n=特徵數,以此例,n=2),向量化的數據點[x1,x2]
  • 決定k值:決定要分成幾組。例如要將花朵分成三組,k=3。
  • 在n維度的座標中,隨機繪製k點,以這些k點作為分群的重心(centroids)。
    每個資料點(蒐集到每朵花的資料),分配到最近的k點,計算k點和資料點的平均距離。
  • 根據平均距離,調整分群的中心,移動k點。現在每個資料點可能會更接近不同的k點,故根據新的k點,再次分群資料。
  • 重複步驟,直到分群穩定(stable),或達到預定的迭代次數(iterations)。
raw-image

評估分群模型

因為資料集沒有標籤(標準答案),所以評估分群模型良莠的方式主要是看不同分群之間是否分隔的夠清楚。

  • 群內平均距離 Average distance to cluster center
    群集中每個點到該群集中心(重心)的平均距離,表示該群內部的集中程度。
  • 群外平均距離Average distance to other center
    群集中每個點到其他群集中心的平均距離,表示與其他群的分離程度。
  • 群內最大距離Maximum distance to cluster center
    該群集中最遠的點與其中心點之間的距離,反映群內最鬆散的程度。
  • 輪廓係數Silhouette
    一個介於 -1 到 1 之間的數值,總結同群內點之間的距離與與其他群點之間距離的比例。數值越接近 1,表示群與群之間的分隔越明確,分群效果越好。

AI-900系列文章目錄:
《AI-900》證照考試準備心得與筆記分享 - 系列文章

留言
avatar-img
留言分享你的想法!
avatar-img
快半拍成長日誌
36會員
101內容數
快半拍是小小的進步,每天前進一點點,發現微小進步中的光芒。
快半拍成長日誌的其他內容
2025/09/10
AI900學習筆記 X 考題重點 X 英文名詞對照 分類模型和迴歸模型一樣,都是監督式機器學習(Supervised ML),不同的是,迴歸模型預測的是數值,而分類模型是判斷某個資料點屬於哪一類。 了解分類模型,以及如何評估分類模型的優劣。
Thumbnail
2025/09/10
AI900學習筆記 X 考題重點 X 英文名詞對照 分類模型和迴歸模型一樣,都是監督式機器學習(Supervised ML),不同的是,迴歸模型預測的是數值,而分類模型是判斷某個資料點屬於哪一類。 了解分類模型,以及如何評估分類模型的優劣。
Thumbnail
2025/09/07
AI-900 X 學習筆記 X 英文專有名詞對照 迴歸模型就是用來預測數值的工具,它會依據訓練資料中已知的特徵與已知的標籤(答案)來學習。 本文包含:迴歸模型原理、如何評估模型好壞?
Thumbnail
2025/09/07
AI-900 X 學習筆記 X 英文專有名詞對照 迴歸模型就是用來預測數值的工具,它會依據訓練資料中已知的特徵與已知的標籤(答案)來學習。 本文包含:迴歸模型原理、如何評估模型好壞?
Thumbnail
2025/09/06
AI-900系列 X 筆記整理 X 心智圖 機器學習(Machine Learning),基本概念就是用過去觀察的資料,預測未知的結果或值。例如:冰淇淋店結合歷史銷售數據+天氣紀錄,根據天氣預測,推測未來銷售額。 什麼是監督式學習與非監督式學習?分類和分群怎麼辨別?
Thumbnail
2025/09/06
AI-900系列 X 筆記整理 X 心智圖 機器學習(Machine Learning),基本概念就是用過去觀察的資料,預測未知的結果或值。例如:冰淇淋店結合歷史銷售數據+天氣紀錄,根據天氣預測,推測未來銷售額。 什麼是監督式學習與非監督式學習?分類和分群怎麼辨別?
Thumbnail
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News