GPT-4到來：性能優化，多模態大幕拉開

格隆匯 03-16 13:13

本文來自格隆匯專欄：中金研究，作者：於鍾海魏鸛霏等

OpenAI在北京時間2023年3月15日發佈了多模態預訓練大模型GPT-4，性能更加出色並支持多模態輸入，OpenAI也隨之發佈技術報吿並開源AI模型性能評估框架OpenAI Evals，繼續推動模型進步。目前，GPT-4已可在ChatGPT Plus和API調用中使用。

摘要

GPT-4開啟多模態時代，接受包含文本和圖片的輸入，理解能力強大。GPT-4可以根據文本和圖片的混合輸入生成文本輸出（包括自然語言和代碼）。在含有文本和照片的文檔、圖表或屏幕截圖等領域中，GPT-4的表現都非常出色，能夠理解“梗圖”、做計算題以及總結論文。它也可以通過測試時技術（Test-Time Techniques）如few-shot和chain-of-thought prompting進一步擴展能力，圖片功能目前仍處研究階段，暫不對外開放。

高難度閾值與GPT-3.5的對比及基於傳統的機器學習基準，GPT-4均效果更佳。相比前代GPT-3.5，GPT-4在處理複雜任務時表現更為出色，在各大面向人類的考試中，GPT-4展示出了更高的準確性、可靠性、創造力和理解能力，比如在Uniform Bar Exam中，ChatGPT的成績排名在後10%，而GPT-4的百分位在前10%。在傳統機器學習的基準測試上，GPT-4比包括SOTA在內的其他大型語言模型表現更優異，MMLU的基準上高出11.2%。在測試的26種語言的24種中，GPT-4優於其他大語言模型的英語性能。GPT-4也已被應用在了在OpenAI內部，例如內容生成、銷售和編程，並在模型訓練的第二階段負責輸出評估、對齊工作。此外，OpenAI開源了用於評價大語言模型的開源框架OpenAI Evals。這個框架可以幫助研究人員和開發者評估他們的模型，並提供更好的指導。

GPT-4進一步重視安全性，生成回覆的正確性得到了重點優化。OpenAI強調對模型進行評估和監控的重要性，以避免潛在的安全隱患。在OpenAI內部的對抗性真實性評估中，GPT-4的得分比GPT-3.5模型高出40%、對不允許內容的請求響應傾向降低了82%、對敏感請求（如醫療建議和自我傷害）的響應相符合政策的程度提高了29%。不足之處在於，GPT-4仍缺乏對其數據截止日期（2021年9月）之後事件的瞭解，也難以從經驗中學習，經過後訓練的GPT-4的校準率低於基礎預訓練模型。

綜合來看，GPT-4是大模型進軍多模態的重要突破，有望打開應用天花板。我們認為，本次GPT-4發佈是“文-圖-視頻”多模態趨勢的向前一步，短期有望催化AI發展生態，長期關注應用端更多可能性。

風險

技術進展不及預期，行業競爭加劇，商業化落地節奏不及預期。

開啟多模態時代，理解能力顯著增強

相較於GPT-3.5，GPT-4增加多模態能力，更有創造性與協作性。此次發佈的GPT-4增加了多模態能力，可以在創意和技術寫作任務中與用户一同生成、編輯和迭代，例如創作歌曲、編寫劇本或者學習用户的寫作風格。除此之外，GPT-4生成的回答準確性更高、理解能力更強、安全性更加可靠、生成內容更加豐富。

圖表1：ChatGPT回答GPT-4較GPT-3.5在準確性、推理能力、知識庫覆蓋等方面顯著提升

資料來源：ChatGPT，B站測評，中金公司研究部

相較於只能輸入純文本的GPT-3.5，GPT-4支持通過輸入文本和圖片組合輸出文本，包括帶有文本和圖像的文檔、圖表以及截圖。GPT-4能夠通過為語言模型開發的測試時間技術得到增強，例如少樣本和思維鏈，理解能力更加強大。在OpenAI提供的例子中，GPT-4能夠理解“梗圖”的幽默、計算物理題、總結論文甚至報税。

圖表2：GPT-4按步驟計算一對夫妻的應納税額