【💊 Python的解憂錦囊】亂數按比例分配資料集

2024/12/12 更新2023/12/12 發佈

假設我們今天想要訓練一個AI模型，那麼我們會有一批大型資料集，通常會根據比例來切分三個模型訓練所需的訓練集(train)、驗證集(dev)、測試集(test)，而我們本次會示範一下Python如何對一個List清單進行切分，基本上大同小異，我們只要掌握作法即可概念相通。

任務提示

我們有10個依序的號碼球，每個桶子按照比例大小裝載這些球，比例如下：

A桶 = 10 * 0.8 = 容納8個球
B桶 = 10 * 0.1 = 容納1個球
C桶 = 10 * 0.1 = 容納1個球

並且每個球會被分到哪邊是隨機亂數的，請依照這些條件完成隨機分配的任務。

拆解問題並釐清作法

從任務的描述之中我們可以觀察到幾個重點，「隨機」與「按照比例分類」。

首先我們來談談「隨機」，這方式最直白的就像是我們在玩撲克牌的洗牌一樣，將排組盡量模糊掉順序，避免每次的結果都一樣。

那「按照比例分類」呢？其實就想像成蛋糕切成幾等份一樣，一定有些人食量較大，有些人食量較小，那我們便按照大小的比例來切成幾等份。

那上述的情境我們可能會有以下幾個思路：

分成三桶後，依序拿球隨機丟桶。
分成三桶後，隨機抽球依序丟桶。
對球洗牌，依序分到小桶子。

首先我們來分析一下這三種作法吧！

思路1: 分成三桶後，依序拿球隨機丟桶

優點：簡單且容易理解，程式碼簡潔。
缺點：隨機性較差，可能會導致某些桶子球數量不均勻。

import random

# 初始號碼球列表
balls = list(range(1, 11))

# 各桶比例
props = [0.8, 0.1, 0.1]

buckets = {
    'A': [],
    'B': [],
    'C': []
}

# 依序抽球
for ball in balls:
    # 隨機抽桶
    bucket = random.choices(list(buckets.keys()), weights=props)[0]
    buckets[bucket].append(ball)

# 印出各桶子裝載的內容
for bucket, content in buckets.items():
    print(f'桶子 {bucket}: {content}')

思路2: 分成三桶後，隨機抽球依序丟桶

優點：使用隨機抽球的方式，可以確保較好的隨機性和分布。
缺點：可能需要較多的迴圈運算，如果球數量很大，效率可能較低。

import random

# 10個號碼球
balls = list(range(1, 11))

# 按比例分配球到不同桶子
bucket_a = int(10 * 0.8)
bucket_b = int(10 * 0.1)
bucket_c = int(10 * 0.1)

buckets = {'A': [], 'B': [], 'C': []}

for _ in range(bucket_a):
    ball = random.choice(balls)
    buckets['A'].append(ball)
    balls.remove(ball)

for _ in range(bucket_b):
    ball = random.choice(balls)
    buckets['B'].append(ball)
    balls.remove(ball)

for _ in range(bucket_c):
    ball = random.choice(balls)
    buckets['C'].append(ball)
    balls.remove(ball)

# 印出各桶子裝載的內容
print("A桶:", buckets['A'])
print("B桶:", buckets['B'])
print("C桶:", buckets['C'])

思路3: 對球洗牌，依序分到小桶子

import random

# 10個號碼球
total = 10
balls = list(range(0, total))

# 隨機洗牌
random.shuffle(balls)

# 分成三桶後依序放入桶子
# 0 ~ A的區段
a_size = int(total * 0.8)
start = 0
end = a_size
bucket_a = balls[start:end]

# A ~ B的區段
b_size = int(total * 0.1)
start = a_size
end = a_size + b_size
bucket_b = balls[start:end]

# B ~ C的區段
c_size = int(total * 0.1)
start = a_size + b_size
end = a_size + b_size + c_size
bucket_c = balls[start:end]

print("Bucket A:", bucket_a)
print("Bucket B:", bucket_b)
print("Bucket C:", bucket_c)