當前位置: 華文星空 > 知識

從入門深度學習到能發頂會,你用了多久?

2022-02-10知識

用多久本身沒有意義 你的思路從根上就錯了

我記得超級電腦界大佬David Keyes跟我說過 研究有兩類 一類是把本來無法解決的問題解決了 另一類是把已經解決的問題解得更快更好 只有第一類是真正地significant

「不知道怎麽改網路結構」 「想不到一些能夠提升網路效能的idea」 說明你沒有做第一類研究 就算你把accuracy或者別的效能提升1-5% 也只是把本來就能辨識影像的模型變得更能辨識影像

做研究之前 先假設你就算真的做出來了 又有什麽意義 這樣才能明白什麽是核心問題

舉個例子 normalization layer出來之前 人們無法訓練很深的網路 train loss都降不下去 更別提test loss了 這個工作解決了一個重要的問題 我們有了真•深度學習

再舉個例子 在何凱明大神的ResNet出現之前 盡管深層網路能學的動了 但是degradation問題出現了:深層的網路可能會比淺層的generalization更差 這個工作讓我們疊加層數可以提升效能 可以得到有效的深度學習

具體來說 你先得了解深度學習這個 系統:網路結構(forward)導數傳播(backward)最佳化器 最佳化問題 特征工程等等

每一個模組都有很多關鍵問題 比如adversarial robustness屬於最佳化問題 用minimax問題去學(就是adversarial training)就能學到穩健的網路 不用就非常脆弱;再比如differential privacy屬於最佳化器和backward問題 用privateSGD就能保護私密 不用就不能

你能不能找出一個問題 現有的方法不行 而你的方法能解決?只要找到一個問題 不一定需要改網路結構也不用追求很好的效能 因為已有的方法效能是0% 你只要解決了 效能再差也比0%強 (比如私密領域 至今CIFAR10準確率沒過70% 不妨礙開坑文爆紅)

Novelty is all you need