GPT-4震撼發佈，圖片/視頻應用、遊戲和虛擬人有望加速融合

uSMART盈立智投 03-17 11:10

GPT-4在理解能力、圖片和文本的綜合理解、定製個性等方面具有顯著提升。對於應用領域而言，我們已經可以看到多模態模型幫助應用同時實現增收、降本增效的可能性。我們此前將現在類比爲移動互聯網爆發前夕，預計GPT-4將加速這一進程。

其中我們認爲“多模態+圖片/視頻應用”是應用發展的基座，“+遊戲”將從改善需求看實現增收，同時爲大型遊戲減少研發費用，爲中小型遊戲減少營銷費用，“+虛擬人”將解決行業發展受限於套皮等“僞需求”問題。

OpenAI在3月15日正式發佈GPT-4。據OpenAI，GPT-4是多模態模型，可以理解文字和圖片，並反饋文字，其理解能力較GPT-3和ChatGPT更強。目前GPT-4的文字輸入和反饋功能已經在ChatGPT更新，並開放了API接口，而圖片輸入功能將會和Be My Eyes合作。據Be My Eyes官網，Virtual Volunteer功能將會結合GPT-4，iOS和安卓應用已開放該功能的預約。

據OpenAI官網，相較ChatGPT和GPT-3，GPT-4主要在一下6個方面有較大改進：

1）GPT-4的理解能力有重大優化，我們預計將顯著改善辦公等生產力場景的用戶體驗。據OpenAI官網，在模擬AP、SAT、GRE和美國法考等大部分考試中，帶視覺能力的GPT-4可以獲得更好的成績。26門模擬考試中，GPT-4在17門獲得了更好的成績，特別是在微積分、化學和物理等理科領域有近40%，甚至更高的排名提升。據The Verge報道，此前ChatGPT在數學推算過程中時常會出現錯誤。而從此次OpenAI展示的結果看，數學邏輯的推理能力已明顯提升。此外排名提升最大的是美國司法考試，GPT-3.5排名僅列後10%，而GPT-4.0可以達到前10%的排名。

2）多模態模型可以綜合理解文本和圖片，從而優化反饋，我們預計更有助提升教育領域的用戶體驗。GPT-4的多模態模型可以提取圖片和文字中的標籤，以統一的數據進行處理，並給予文字反饋。因此在OpenAI的測試中，GPT-4可以理解搞笑圖片中iPhone的數據線不合常理得大的梗。我們認爲圖片和文本的綜合理解能力可以優化交互場景體驗。比如在教育場景中，從此前單純的文字/語言互動，發展成結合視覺和語言的理解，給予更好的反饋，預計豐富教育形式，從而提升教育質量。

3）GPT-4在非英語場景下表現得更好。OpenAI使用Azure Translate將57門學科的14,000道選擇題翻譯成了26種語言，並給予GPT-4測試。結果顯示，GPT-4在其中24種語言的正確率高於GPT-3.5、Chinchilla、谷歌的PaLM等LLM的英文測試表現，包括拉脫維亞語、威爾士語、斯瓦西里語等預料資源稀缺的小語種。從另一層面可見GPT-4對於語言的理解能力也要由於其他LLM。

4）GPT-4的“可操縱性”（Steerability）將賦予AI不同的個性，預計將進一步推動虛擬人成爲“人”的可能。相比ChatGPT固定的語言風格，GPT-4將允許接入API的用戶定製AI的“性格”。我們預計將進一步優化虛擬人的反饋機制，類似於國內AI對話應用Glow可以讓用戶與“鋼鐵俠”Tony Stark等不同背景、場景的虛擬人對話，將相關技術帶入虛擬人場景中，是虛擬人成爲真正的“人”。

因此，我們認爲ChatGPT使虛擬人擺脫動捕僅，獲得AI反饋機制，成爲“人”是第一步，而GPT-4解鎖了虛擬人發展的第二部，使其成爲個性迥異的“人”。這有助於解決虛擬人發展受限於套皮、性格等造成與虛擬人對話、互動是“僞需求”的問題。

5）在體驗方面，GPT-4在安全、道德、法律等方面的防範意識更好。OpenAI的研發人員基於在開放後，用戶不斷提出的有害信息、誘導性問題，對模型進行了優化，因此現在GPT-4在安全、道德、法律等方面的防範意識更強。

6）GPT-4允許用戶輸入更長的內容。相較GPT-3.5和ChatGPT約4,096 tokens/約8,000單詞的限制，GPT-4允許用戶最多輸入32,768 tokens/64,000單詞，是過去的8倍。因此，GPT-4可以更持續性地與用戶進行更多輪的對話，而不會很快“忘記”之前的對話內容。

以獲得Y Combinator支持的生成式AI初創公司爲例，多數應用主要是文本形式的輸入和輸出類應用，包括客服、辦公輔助、科技金融等，其次爲文本生成圖片的變相應用，如生成不同藝術風格的短視頻（無情節的藝術插畫拼接）、遊戲3D模型和素材生成等。

此次多模態的GPT-4發佈，我們認爲一方面，在生產力工具、教育和客服等交互應用，這類目前更容易落地的場景內，我們可以看到GPT-4的輔助能力進一步提升，優化了現有落地場景的用戶體驗；另一方面，我們也看到了多模態模型的可能性，此次升級在輸入端，將文本理解，升級成文本和圖片的綜合理解，而未來我們也可以展望在輸出端，也可以有文本結合圖片、視頻等形式的產出，從而推動圖片/視頻應用、遊戲、虛擬人等應用場景有更豐富的功能落地。

我們認爲“多模態+圖片/視頻應用”是應用領域的基座，提升生產效率、降低成本。目前已有的AIGC技術融合應用的形式還較爲單一，多數仍是文字生成圖片的變相應用。而多模態模型使文本、圖片、視頻等多種內容形式的綜合理解，以及多種內容的結合輸出成爲可能。最終不僅可以在C端的場景中，爲日常生活提供娛樂和生產工具，同時也可以在遊戲、虛擬人等內容的生產中提供輔助工具。因此我們認爲，“多模態+圖片/視頻應用”是應用領域落地的基礎。

“多模態+遊戲”：1）提升行業需求：互動感倍增，解決行業需求放緩的痛點。自疫情初期經歷短暫需求增長後，市場整體出現需求疲軟的情況。據遊戲產業報告，22年中國遊戲市場實際銷售收入2,658.8億元，同比下降10.3%，減少306.3億元。而多模態AIGC模型的應用，預計可提升遊戲的互動體驗。如網易已在《逆水寒》中將AIGC技術應用於NPC，增加玩家互動體驗。未來，我們預計AIGC可以改變遊戲固定的故事模式，提升遊戲的內容量，增強遊戲的互動體驗，最終通過技術改善遊戲需求增長放緩的問題。

2）降低成本：大型遊戲降低研發成本，中小型遊戲降低營銷成本。除增收以外，多模態也可以通過更低的生產成本製作出內容量更大的遊戲，類似於TechCrunch報道的，哥本哈根大學的團隊將AIGC技術應用於《超級馬里奧》遊戲中，生成無限關卡的MarioGPT，對於大型遊戲而言可以降低研發成本。

中小型遊戲的研發成本佔比有限，而將本邏輯類似於廣告營銷公司。基於用戶在微博、抖音等平臺觀看的內容，以及天氣、地理位置等外部信息，生成“千人千面”的廣告內容，最終提升廣告的ROI。因此，多模態模型可以降低廣告素材生產成本，提升廣告效果，從而爲中小型遊戲將本。

“多模態+虛擬人”：成爲真正的“人”，解決行業發展痛點。由於目前虛擬人存在套皮，或是AI生成的虛擬人性格單一等問題，導致虛擬人存在是否爲“僞需求”的質疑。而從此次GPT-4的發佈中可以看到，AI已可以擁有個性，同時多模態可以結合文本/語言、圖片/視覺的理解，更好得讓虛擬人理解人類的真實感受，並給出反饋，提升互動的體驗感，解決行業發展痛點。

我們認爲多模態的GPT-4爲圖片/視頻應用、遊戲和虛擬人在發展中落地 AIGC 技術，提供了更多可能性，有助同時實現增收、降本增效，最終改善行業和個股的估值彈性。

風險提示：

生成式AI技術發展不及預期、各領域技術融合進度不及預期的風險、算力支持程度不及預期、數據質量及數量支持程度不及預期、用戶需求不及預期、技術壟斷風險、原始訓練數據存在偏見風險、算法偏見與歧視風險、算法透明度風險、增加監管難度風險、政策監管風險、商業化能力不及預期、相關法律法規完善不及預期、版權歸屬風險、深度造假風險、人權道德風險、影響互聯網內容生態健康安全風險、企業風險識別與治理能力不足風險、用戶審美取向發生變化的風險。

更多內容

站點服務

關於

協議聲明