
簡介
- 分群(微軟教材翻譯為叢集)為非監督式學習(unsupervised machine learning),不需要使用標籤好的資料進行訓練,模型觀察數值或特徵的相似性來分組。
- 在分群模型中,標籤(label)是觀測值所被分配到的群集,而這個分配是完全根據它的特徵(features)。
- 考題重點:辨別何時使用分群(區別於迴歸、分類)。
如題目有提到利用相似度自動分類、把相似的XX分組,而沒有預先設定好的類別,就是選分群/叢集。
訓練分群模型
舉例:觀察花朵樣本,紀錄花的葉子數量和花瓣數量,資料集(dataset)中,只有兩個特徵(features)x1, x2 ,無已知標籤(ex.花的種類),模型的目標不是辨別花種,而是依相似度分群。
常用的演算法:K-means clustering- 將特徵向量化(vectorized),定義n個維度的座標(n=特徵數,以此例,n=2),向量化的數據點[x1,x2]
- 決定k值:決定要分成幾組。例如要將花朵分成三組,k=3。
- 在n維度的座標中,隨機繪製k點,以這些k點作為分群的重心(centroids)。
每個資料點(蒐集到每朵花的資料),分配到最近的k點,計算k點和資料點的平均距離。 - 根據平均距離,調整分群的中心,移動k點。現在每個資料點可能會更接近不同的k點,故根據新的k點,再次分群資料。
- 重複步驟,直到分群穩定(stable),或達到預定的迭代次數(iterations)。

評估分群模型
因為資料集沒有標籤(標準答案),所以評估分群模型良莠的方式主要是看不同分群之間是否分隔的夠清楚。
- 群內平均距離 Average distance to cluster center
群集中每個點到該群集中心(重心)的平均距離,表示該群內部的集中程度。 - 群外平均距離Average distance to other center
群集中每個點到其他群集中心的平均距離,表示與其他群的分離程度。 - 群內最大距離Maximum distance to cluster center
該群集中最遠的點與其中心點之間的距離,反映群內最鬆散的程度。 - 輪廓係數Silhouette
一個介於 -1 到 1 之間的數值,總結同群內點之間的距離與與其他群點之間距離的比例。數值越接近 1,表示群與群之間的分隔越明確,分群效果越好。
AI-900系列文章目錄:
《AI-900》證照考試準備心得與筆記分享 - 系列文章