這個例子,可以說明GPT-4確實是各行各業的好幫手。
ChatGPT,以及各種大模型,其實在很多領域是能取代人類的,但醫學領域,取代人類的可能性很小,除了因為它不能承擔責任之外,更重要的是你不知道它的推理過程。它是有可能給出錯誤的答案的。
雖然OpenAI宣稱,GPT-4進步很大,在產生基於事實的回應( factual responses )方面提高了40%,但也有一定概率產生錯誤的回應
「We spent 6 months making GPT-4 safer and more aligned. GPT-4 is 82% less likely to respond to requests for disallowed content and 40% more likely to produce factual responses than GPT-3.5 on our internal evaluations.」 –OpenAI在個案上,它可以給出挺不錯的回答,甚至解決方案。但是 這不代表我們可以認為AI就能在某些專業領域取代人類,尤其醫學領域。
Gary Marcus在前幾年提出了「AI鴻溝」的「三大坑」,我在之前的回答裏多次提到過,例如
這三大坑是:
第一是「輕信坑」,這是由於人類前進演化的現實過程還沒有發展出清晰辨別人類與機器之間區別的能力,導致我們往往用基於人類的認知模式去看待機器的能力,從而容易輕信機器擁有人類般的智慧。第二是「虛幻進步坑」,每當AI技術的進展攻克了一類新的問題時,我們往往錯誤地假設AI技術就能解決以此推及的、現實世界中的類似任務。但是AI學術上的問題往往是定義在狹義而簡化的假設下,而現實世界的具體任務都有很大的復雜性和不確定性。
第三是「魯棒坑 」,受限於當前深度學習演算法和訓練數據,對容錯性很低特別是使命關鍵的套用領域比如無人駕駛等,今天的AI還沒能達到實際「落地」的能力。馬庫斯 告誡我們必須關註「AI鴻溝」,因為踩坑的代價是非常高的。
我認為在GPT-4時代,我們更要警惕這三大坑。我們要把AI為己所用,但依然不能輕信AI的所有決策,我們更需要保持頭腦清晰,自己做好自己決策的最後一道防線。