... 分別是:訓練集(training)、驗證集(validation)和測試集(test)。 ... 留出法是按照 固定比例 將資料集劃分爲訓練集、驗證集、測試集,屬於 ... ... <看更多>
「train validation test比例」的推薦目錄:
- 關於train validation test比例 在 [問題] Validation set 到底在做什麼? - 看板DataScience 的評價
- 關於train validation test比例 在 訓練集、驗證集、測試集的定義與劃分 - 辛西亞的技能樹 的評價
- 關於train validation test比例 在 Train/Validation/Test datasets · Issue #6 · junxnone/ml - GitHub 的評價
- 關於train validation test比例 在 [問題] 為什麼現在新模型都很少割出test data? - DataScience 的評價
- 關於train validation test比例 在 Train, Test, & Validation Sets explained - YouTube 的評價
train validation test比例 在 Train/Validation/Test datasets · Issue #6 · junxnone/ml - GitHub 的推薦與評價
在传统的机器学习中,这三者一般的比例为training/validation/test = 50/25/25, 但是有些时候如果模型不需要很多调整只要拟合就可时,或者training ... ... <看更多>
train validation test比例 在 [問題] 為什麼現在新模型都很少割出test data? - DataScience 的推薦與評價
反而都直接以validation dataset包含test dataset. 比例也從以往常用train:val:test = 8:1:1 (7:2:1) 變成train:val = 8:2 很多學校裡的指導教授還是 ... ... <看更多>
train validation test比例 在 [問題] Validation set 到底在做什麼? - 看板DataScience 的推薦與評價
請問一下各位高手 關於Validation set 跟 Training set的差別
特別是validation set 的功用是什麼?
(這裡的validation set 不是 test data的意思 雖然文獻上這兩個詞也滿常交互使用)
要訓練一個Neural net model, 需要兩組數據, Training set 跟 Validation set.
兩組數據都是*已知數據*, 模組就從這裡學. 我的問題是 為什麼特別區分成兩組呢?
還有印象中黃金比例是 2:1 (train:val)
我自己模模糊糊的理解是 training set 教會大部分的parameter,
再用validation set來微調.
這樣的理解是對的嗎?
如果對的的話 那些parameter是只有在validation 才能調 training set調不了的呢?
這是合理的問題嗎?
(小弟我只懂的大方向 跟怎麼用 很多基本的原理還是學的不扎實...慢慢補強...)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.230.60.98
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521691079.A.014.html
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 11:59:20
我回去查了文獻 (我做的是機器翻譯) 有這段話
(https://arxiv.org/abs/1709.07809 page 18)
"A common stopping criteria is to check progress of the model on a validation
set (that is not part of the training data) and halt when the error on the
validation set does not improve. Training longer would not lead to any
further improvements and may even degrade performance due to overfitting.
"
這跟siscon大說的相符 (一開始手殘i打成u)
我用的軟體是OpenNMT 這個軟體要求 val set 又自動停在 epoch 13
這樣說的話 是不是OpenNMT搞錯了 validation set 功用呢?
(OpenNMT 有個論壇 我可以去抱怨一下)
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 13:18:20
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 13:34:13
但問一問基本的問題也不錯吧 讓有興趣的但還在學的人也來討論討論
像是教學的blog的性質 這樣的datascience版 也不錯吧
正如你說的 嚴格來說 OpenNMT沒有拿 val set 來調參數
而是拿來評估 overfitting 和 convergence
但這又讓我覺得奇怪了 這樣的話 epoch的數量 應該是自動設定的
converged後 自動停止才對
但OpenNMT的epoch 又是手動設定的 hyperparameter (預設值是13)
另外 結果這個問題 真的有人在論壇上問過:
https://forum.opennmt.net/t/validation-data/128
那些OpenNMT的developers 也真的自己出來回答 滿有意思的
Guillaume Klein說實際上來說 val set 可以來讓做為挑選那個epoch的標準
就挑 validation perplexity 最低的那個
※ 編輯: lucien0410 (68.230.60.98), 03/23/2018 01:32:23
... <看更多>