您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
GPT-4震撼發佈,圖片/視頻應用、遊戲和虛擬人有望加速融合
uSMART盈立智投 03-17 11:10

GPT-4在理解能力、圖片和文本的綜合理解、定製個性等方面具有顯著提升。對於應用領域而言,我們已經可以看到多模態模型幫助應用同時實現增收、降本增效的可能性。我們此前將現在類比爲移動互聯網爆發前夕,預計GPT-4將加速這一進程。

其中我們認爲“多模態+圖片/視頻應用”是應用發展的基座,“+遊戲”將從改善需求看實現增收,同時爲大型遊戲減少研發費用,爲中小型遊戲減少營銷費用,“+虛擬人”將解決行業發展受限於套皮等“僞需求”問題。

OpenAI在3月15日正式發佈GPT-4。據OpenAI,GPT-4是多模態模型,可以理解文字和圖片,並反饋文字,其理解能力較GPT-3和ChatGPT更強。目前GPT-4的文字輸入和反饋功能已經在ChatGPT更新,並開放了API接口,而圖片輸入功能將會和Be My Eyes合作。據Be My Eyes官網,Virtual Volunteer功能將會結合GPT-4,iOS和安卓應用已開放該功能的預約。

據OpenAI官網,相較ChatGPT和GPT-3,GPT-4主要在一下6個方面有較大改進:

1)GPT-4的理解能力有重大優化,我們預計將顯著改善辦公等生產力場景的用戶體驗。據OpenAI官網,在模擬AP、SAT、GRE和美國法考等大部分考試中,帶視覺能力的GPT-4可以獲得更好的成績。26門模擬考試中,GPT-4在17門獲得了更好的成績,特別是在微積分、化學和物理等理科領域有近40%,甚至更高的排名提升。據The Verge報道,此前ChatGPT在數學推算過程中時常會出現錯誤。而從此次OpenAI展示的結果看,數學邏輯的推理能力已明顯提升。此外排名提升最大的是美國司法考試,GPT-3.5排名僅列後10%,而GPT-4.0可以達到前10%的排名。

2)多模態模型可以綜合理解文本和圖片,從而優化反饋,我們預計更有助提升教育領域的用戶體驗。GPT-4的多模態模型可以提取圖片和文字中的標籤,以統一的數據進行處理,並給予文字反饋。因此在OpenAI的測試中,GPT-4可以理解搞笑圖片中iPhone的數據線不合常理得大的梗。我們認爲圖片和文本的綜合理解能力可以優化交互場景體驗。比如在教育場景中,從此前單純的文字/語言互動,發展成結合視覺和語言的理解,給予更好的反饋,預計豐富教育形式,從而提升教育質量。

3)GPT-4在非英語場景下表現得更好。OpenAI使用Azure Translate將57門學科的14,000道選擇題翻譯成了26種語言,並給予GPT-4測試。結果顯示,GPT-4在其中24種語言的正確率高於GPT-3.5、Chinchilla、谷歌的PaLM等LLM的英文測試表現,包括拉脫維亞語、威爾士語、斯瓦西里語等預料資源稀缺的小語種。從另一層面可見GPT-4對於語言的理解能力也要由於其他LLM。

4)GPT-4的“可操縱性”(Steerability)將賦予AI不同的個性,預計將進一步推動虛擬人成爲“人”的可能。相比ChatGPT固定的語言風格,GPT-4將允許接入API的用戶定製AI的“性格”。我們預計將進一步優化虛擬人的反饋機制,類似於國內AI對話應用Glow可以讓用戶與“鋼鐵俠”Tony Stark等不同背景、場景的虛擬人對話,將相關技術帶入虛擬人場景中,是虛擬人成爲真正的“人”。

因此,我們認爲ChatGPT使虛擬人擺脫動捕僅,獲得AI反饋機制,成爲“人”是第一步,而GPT-4解鎖了虛擬人發展的第二部,使其成爲個性迥異的“人”。這有助於解決虛擬人發展受限於套皮、性格等造成與虛擬人對話、互動是“僞需求”的問題。

5)在體驗方面,GPT-4在安全、道德、法律等方面的防範意識更好。OpenAI的研發人員基於在開放後,用戶不斷提出的有害信息、誘導性問題,對模型進行了優化,因此現在GPT-4在安全、道德、法律等方面的防範意識更強。

6)GPT-4允許用戶輸入更長的內容。相較GPT-3.5和ChatGPT約4,096 tokens/約8,000單詞的限制,GPT-4允許用戶最多輸入32,768 tokens/64,000單詞,是過去的8倍。因此,GPT-4可以更持續性地與用戶進行更多輪的對話,而不會很快“忘記”之前的對話內容。

以獲得Y Combinator支持的生成式AI初創公司爲例,多數應用主要是文本形式的輸入和輸出類應用,包括客服、辦公輔助、科技金融等,其次爲文本生成圖片的變相應用,如生成不同藝術風格的短視頻(無情節的藝術插畫拼接)、遊戲3D模型和素材生成等。

此次多模態的GPT-4發佈,我們認爲一方面,在生產力工具、教育和客服等交互應用,這類目前更容易落地的場景內,我們可以看到GPT-4的輔助能力進一步提升,優化了現有落地場景的用戶體驗;另一方面,我們也看到了多模態模型的可能性,此次升級在輸入端,將文本理解,升級成文本和圖片的綜合理解,而未來我們也可以展望在輸出端,也可以有文本結合圖片、視頻等形式的產出,從而推動圖片/視頻應用、遊戲、虛擬人等應用場景有更豐富的功能落地。

我們認爲“多模態+圖片/視頻應用”是應用領域的基座,提升生產效率、降低成本。目前已有的AIGC技術融合應用的形式還較爲單一,多數仍是文字生成圖片的變相應用。而多模態模型使文本、圖片、視頻等多種內容形式的綜合理解,以及多種內容的結合輸出成爲可能。最終不僅可以在C端的場景中,爲日常生活提供娛樂和生產工具,同時也可以在遊戲、虛擬人等內容的生產中提供輔助工具。因此我們認爲,“多模態+圖片/視頻應用”是應用領域落地的基礎。

“多模態+遊戲”:1)提升行業需求:互動感倍增,解決行業需求放緩的痛點。自疫情初期經歷短暫需求增長後,市場整體出現需求疲軟的情況。據遊戲產業報告,22年中國遊戲市場實際銷售收入2,658.8億元,同比下降10.3%,減少306.3億元。而多模態AIGC模型的應用,預計可提升遊戲的互動體驗。如網易已在《逆水寒》中將AIGC技術應用於NPC,增加玩家互動體驗。未來,我們預計AIGC可以改變遊戲固定的故事模式,提升遊戲的內容量,增強遊戲的互動體驗,最終通過技術改善遊戲需求增長放緩的問題。

2)降低成本:大型遊戲降低研發成本,中小型遊戲降低營銷成本。除增收以外,多模態也可以通過更低的生產成本製作出內容量更大的遊戲,類似於TechCrunch報道的,哥本哈根大學的團隊將AIGC技術應用於《超級馬里奧》遊戲中,生成無限關卡的MarioGPT,對於大型遊戲而言可以降低研發成本。

中小型遊戲的研發成本佔比有限,而將本邏輯類似於廣告營銷公司。基於用戶在微博、抖音等平臺觀看的內容,以及天氣、地理位置等外部信息,生成“千人千面”的廣告內容,最終提升廣告的ROI。因此,多模態模型可以降低廣告素材生產成本,提升廣告效果,從而爲中小型遊戲將本。

“多模態+虛擬人”:成爲真正的“人”,解決行業發展痛點。由於目前虛擬人存在套皮,或是AI生成的虛擬人性格單一等問題,導致虛擬人存在是否爲“僞需求”的質疑。而從此次GPT-4的發佈中可以看到,AI已可以擁有個性,同時多模態可以結合文本/語言、圖片/視覺的理解,更好得讓虛擬人理解人類的真實感受,並給出反饋,提升互動的體驗感,解決行業發展痛點。

我們認爲多模態的GPT-4爲圖片/視頻應用、遊戲和虛擬人在發展中落地 AIGC 技術,提供了更多可能性,有助同時實現增收、降本增效,最終改善行業和個股的估值彈性。

風險提示:

生成式AI技術發展不及預期、各領域技術融合進度不及預期的風險、算力支持程度不及預期、數據質量及數量支持程度不及預期、用戶需求不及預期、技術壟斷風險、原始訓練數據存在偏見風險、算法偏見與歧視風險、算法透明度風險、增加監管難度風險、政策監管風險、商業化能力不及預期、相關法律法規完善不及預期、版權歸屬風險、深度造假風險、人權道德風險、影響互聯網內容生態健康安全風險、企業風險識別與治理能力不足風險、用戶審美取向發生變化的風險。

關注uSMART
FacebookTwitterInstagramYouTube 追蹤我們,查閱更多實時財經市場資訊。想和全球志同道合的人交流和發現投資的樂趣?加入 uSMART投資群 並分享您的獨特觀點!立刻掃碼下載uSMART APP!
重要提示及免責聲明
盈立證券有限公司(「盈立」)在撰冩這篇文章時是基於盈立的內部研究和公開第三方資訊來源。儘管盈立在準備這篇文章時已經盡力確保內容為準確,但盈立不保證文章資訊的準確性、及時性或完整性,並對本文中的任何觀點不承擔責任。觀點、預測和估計反映了盈立在文章發佈日期的評估,並可能發生變化。盈立無義務通知您或任何人有關任何此類變化。您必須對本文中涉及的任何事項做出獨立分析及判斷。盈立及盈立的董事、高級人員、僱員或代理人將不對任何人因依賴本文中的任何陳述或文章內容中的任何遺漏而遭受的任何損失或損害承擔責任。文章內容只供參考,並不構成任何證券、金融產品或工具的要約、招攬、建議、意見或保證。
投資涉及風險,證券的價值和收益可能會上升或下降。往績數字並非預測未來表現的指標。
uSMART
輕鬆入門 投資財富增值
開戶