[筆記] 大規模的機器學習

It’s not who has the best algorithm that wins. It’s who has the most data.

資料預處理，將資料打亂
循環運算資料 1 到 m，每筆資料做一次迭代
- Repeat ( 整個循環可能循環計算 1 ~ 10 次，取決於資料量大小 )
  - for i = 1 to m
    - $\theta_j$ = $\theta_j - \alpha(h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)}$ ( for j = 0, 1, …, n )

檢查收斂
- $cost(\theta, (x^{(i)}, y^{(i)}))$ = $\dfrac{1}{2}(h_{\theta}(x^{(i)} - y^{(i)}))^2$
- 在更新 θ 前，先計算 $cost(\theta, (x^{(i)}, y^{(i)}))$
  - 因為如果使用更新後的 θ，使其在訓練資料上做預測，會比實際效果更好
- 每 1000 次迭代 ( 也能是其他數字 ) 計算 $cost(\theta, (x^{(i)}, y^{(i)}))$ 的平均值並畫出來
- 觀察畫出來的圖，檢查隨機梯度下降是否在收斂
可能出現的圖 :
- 藍線 : 代表學習算法已經收斂了
- 紅線 : 試試更小的學習速率 α，或許可以收斂到更好的點
- 紅線 : 將每 1000 次迭代計算平均改為 5000，可能得到更平滑的曲線
- 藍線 : 為 1000 次迭代計算平均，過於陡峭看不出是否收斂
- 紅線 : 改成 5000 後，可以看出其實是有在收斂的
- 紫線 : 若是改成 5000 後，發現並沒有收斂，也許需要改變學習速率 α、特徵、算法…
- 表示算法正在發散，試著降低學習速率 α
選擇學習速率 α
- 隨機梯度下降並不會真正的收斂，而是一直在最小值附近徘徊
- 若想使隨機梯度下降確實收斂到全局最小值，可以隨時間變化減少學習速率 α
  - α = $\dfrac{常數 1}{迭代次數 + 常數 2}$
- 雖然可以確實收斂到全局最小值，但並不是很常用，因為多了要選擇 常數 1 與 常數 2 的工作量，而且收斂到最小值附近其實已經很不錯了

有時會比隨機梯度下降快上一些
算完每 b 筆資料做一次迭代 ( b 通常會是 2 ~ 100 )
算法 : ( 假設 b 為 10，m 為 1000 )
- Repeat
  - for i = 1, 11, 21, 31, …, 991
    - $\theta_j$ = $\theta_j - \alpha\dfrac{1}{10}\sum^{i + 9}_{k = i}(h_{\theta}(x^{(k)}) - y^{(k)})x_j^{(k)}$ ( for j = 0, 1, …, n )