本文來自格隆匯專欄:中金研究,作者:於鍾海 魏鸛霏 等
OpenAI在北京時間2023年3月15日發佈了多模態預訓練大模型GPT-4,性能更加出色並支持多模態輸入,OpenAI也隨之發佈技術報吿並開源AI模型性能評估框架OpenAI Evals,繼續推動模型進步。目前,GPT-4已可在ChatGPT Plus和API調用中使用。
摘要
GPT-4開啟多模態時代,接受包含文本和圖片的輸入,理解能力強大。GPT-4可以根據文本和圖片的混合輸入生成文本輸出(包括自然語言和代碼)。在含有文本和照片的文檔、圖表或屏幕截圖等領域中,GPT-4的表現都非常出色,能夠理解“梗圖”、做計算題以及總結論文。它也可以通過測試時技術(Test-Time Techniques)如few-shot和chain-of-thought prompting進一步擴展能力,圖片功能目前仍處研究階段,暫不對外開放。
高難度閾值與GPT-3.5的對比及基於傳統的機器學習基準,GPT-4均效果更佳。相比前代GPT-3.5,GPT-4在處理複雜任務時表現更為出色,在各大面向人類的考試中,GPT-4展示出了更高的準確性、可靠性、創造力和理解能力,比如在Uniform Bar Exam中,ChatGPT的成績排名在後10%,而GPT-4的百分位在前10%。在傳統機器學習的基準測試上,GPT-4比包括SOTA在內的其他大型語言模型表現更優異,MMLU的基準上高出11.2%。在測試的26種語言的24種中,GPT-4優於其他大語言模型的英語性能。GPT-4也已被應用在了在OpenAI內部,例如內容生成、銷售和編程,並在模型訓練的第二階段負責輸出評估、對齊工作。此外,OpenAI開源了用於評價大語言模型的開源框架OpenAI Evals。這個框架可以幫助研究人員和開發者評估他們的模型,並提供更好的指導。
GPT-4進一步重視安全性,生成回覆的正確性得到了重點優化。OpenAI強調對模型進行評估和監控的重要性,以避免潛在的安全隱患。在OpenAI內部的對抗性真實性評估中,GPT-4的得分比GPT-3.5模型高出40%、對不允許內容的請求響應傾向降低了82%、對敏感請求(如醫療建議和自我傷害)的響應相符合政策的程度提高了29%。不足之處在於,GPT-4仍缺乏對其數據截止日期(2021年9月)之後事件的瞭解,也難以從經驗中學習,經過後訓練的GPT-4的校準率低於基礎預訓練模型。
綜合來看,GPT-4是大模型進軍多模態的重要突破,有望打開應用天花板。我們認為,本次GPT-4發佈是“文-圖-視頻”多模態趨勢的向前一步,短期有望催化AI發展生態,長期關注應用端更多可能性。
風險
技術進展不及預期,行業競爭加劇,商業化落地節奏不及預期。
開啟多模態時代,理解能力顯著增強
相較於GPT-3.5,GPT-4增加多模態能力,更有創造性與協作性。此次發佈的GPT-4增加了多模態能力,可以在創意和技術寫作任務中與用户一同生成、編輯和迭代,例如創作歌曲、編寫劇本或者學習用户的寫作風格。除此之外,GPT-4生成的回答準確性更高、理解能力更強、安全性更加可靠、生成內容更加豐富。
圖表1:ChatGPT回答GPT-4較GPT-3.5在準確性、推理能力、知識庫覆蓋等方面顯著提升
資料來源:ChatGPT,B站測評,中金公司研究部
相較於只能輸入純文本的GPT-3.5,GPT-4支持通過輸入文本和圖片組合輸出文本,包括帶有文本和圖像的文檔、圖表以及截圖。GPT-4能夠通過為語言模型開發的測試時間技術得到增強,例如少樣本和思維鏈,理解能力更加強大。在OpenAI提供的例子中,GPT-4能夠理解“梗圖”的幽默、計算物理題、總結論文甚至報税。
圖表2:GPT-4按步驟計算一對夫妻的應納税額
資料來源:OpenAI Live Demo,中金公司研究部
圖表3:GPT-4理解“梗圖”:VGA線給智能手機充電
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
圖表4:GPT-4使用思維鏈提示解決物理題
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
GPT-4性能優化提升,準確性再上一層樓
GPT-4在處理複雜、細微任務中表現更加出色,準確性進一步提高。在傳統機器學習的基準測試上,GPT-4比包括SOTA在內的其他大型語言模型表現更優異,MMLU的基準上高出11.2%。此外,GPT-4在大多數學術和專業考試中的表現與與人類水平相當,在Uniform Bar Exam中,GPT-4以應試者前10%的分數通過,而GPT-3.5 的得分在倒數10%。同時,GPT-4大幅優化對於跨語種支持的性能,例如GPT-4中文的準確性可以達到80.1%,而GPT-3.5英文的準確性僅為70.1%,對於絕大多數測試語言,GPT-4優於現有語言模型的英語表現。
圖表5:GPT-4在傳統機器學習標準表現出色
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
圖表6:GPT-4在人類考試中遠超GPT-3.5
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
圖表7:在測試的26種語言的24種中,GPT-4優於其他大語言模型的英語語言性能
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
安全性成為GPT-4優化的重點,風險更加可控
GPT-4的安全性、一致性得到加強,回答更符合人類主流價值觀。GPT-4與其他語言模型類似,都會生成有害的建議、有錯誤的代碼或不準確的信息,OpenAI在訓練過程中強調對模型進行評估和監控的重要性,以避免潛在的安全隱患。在OpenAI內部的對抗性真實性評估中,GPT-4的得分比GPT-3.5模型高出40%、對不允許內容的請求響應傾向降低了82%、對敏感請求(如醫療建議和自我傷害)的響應相符合政策的程度提高了29%。
圖表8:GPT-4對不允許和敏感內容的錯誤行為率更低
資料來源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部
GPT-4有望打開應用端天花板
GPT-4已經開始在應用端展開合作,涵蓋語言、視覺等多領域。OpenAI正在使用GPT-4與一些組織合作開發創新產品,例如Duolingo使用GPT-4進行AI角色扮演與解釋答案,Be My Eyes藉助GPT-4的視覺輸入功能開發虛擬志願者以生成和人類志願者相同水平的理解能力,Stripe利用GPT-4精簡用户體驗並打擊欺詐,Morgan Stanley利用GPT-4組織其龐大的知識庫。我們認為,GPT-4是大模型進軍多模態的重要突破,有望打開多領域應用天花板。
圖表9:Duolingo的AI角色扮演
資料來源:OpenAI官網,中金公司研究部
圖表10:GPT-4驅動的Stripe文檔
資料來源:OpenAI官網,中金公司研究部
本文摘自中金公司2023年3月15日已經發布的《GPT-4到來:性能優化,多模態大幕拉開》,報吿分析師:
於鍾海 分析員 SAC 執證編號:S0080518070011 SFC CE Ref:BOP246
魏鸛霏 聯繫人 SAC 執證編號:S0080121070252 SFC CE Ref:BSX734
王之昊 分析員 SAC 執證編號:S0080522050001 SFC CE Ref:BSS168