AI賽道上,谷歌和OpenAI的廝殺甚是激烈。
這不,谷歌前腳剛傳出要推出Gemini多模態大型語言模型,後腳OpenAI就迎頭趕上,擬推出多模態模型GPT-vision,以及代號為Gobi的新模型。
你追我趕之際,兩者都想要搶先推出下一代“多模態”大型語言模型。
據 The Information 爆料,OpenAI 即將推出多模態模型GPT-vision,這或可能成為繼GPT-4之後的最大更新。另外,OpenAI 還在開發一款名為 Gobi 的多模態大模型。
據悉,OpenAI 的這款GPT-vision是計劃將大型語言模型GPT-4與多模態功能相結合。
功能優勢上,它可以處理圖像和文本,比如用户只需要給該模型發送一張網頁草圖,該模型就可以為網站生成代碼,或者向用户提供可視圖表的文本分析;此外還可以圖像生成,通過簡單的文本生成繪畫、logo或表情包。
不過目前關於這款大模型產品的具體信息尚不確認,OpenAI也尚未對此做出迴應。
值得關注的是,OpenAI 的多模態模型並非首次被大家關注。此前3月份,在其發佈GPT-4時就曾預展示了多模態功能。
不過當時除了一家為盲人或視力低下的人提供技術的公司“Be My Eyes”外,OpenAI並沒有向其他公司開放。
並且在此後較長的一段時間裏,關於OpenAI多模態模型的進展消息便沉寂了。
直至當下,OpenAI又傳出了準備在更大範圍內推出被稱為GPT-Vision的功能。此外,OpenAI還可能會在GPT-Vision之後再推出Gobi,不過其訓練尚未開始。
OpenAI急吼吼的要推出多模態模型的主要壓力來自谷歌。
此前,Gemini 是谷歌開發者大會上公佈的多模態大模型產品,預計在不久後進行測試發佈。據The Information 報道,谷歌已開始向外部開發者授予其 Gemini AI 系統的訪問權限。
去年來,微軟支持的 OpenAI 推出的 ChatGPT 席捲了全球科技界,看着這勢頭,今年谷歌加大了對AI的投資以迎頭趕上。
要知道,此次谷歌這款Gemini 就是旨在與 OpenAI 的 GPT-4 模型抗衡的。不過當下市場認為,對於谷歌來説Gemini 的推出風險很大。
Gemini 是一個大型語言模型的集合,它可以從聊天機器人到總結文本或根據用户想要閲讀的內容(如電子郵件草稿、音樂歌詞或新聞報道)生成原始文本的功能提供支持。它還有望幫助軟件工程師根據用户要求查看的內容編寫代碼並生成原始圖像。
據報道稱,谷歌目前正在向開發人員提供相對較大的 Gemini 版本,但不是其正在開發的最大版本,該版本將更接近 GPT-4。
此外,谷歌計劃的Gemini提供方式是通過其Google Cloud Vertex AI雲服務平台進行,預期價格為每個用户每月30美元。這也預計將成為谷歌新的收入來源,尤其是針對企業客户。
這樣來看,在同一賽道上,谷歌和OpenAI這番“秀肌肉”的較量是遲早的事,此前OpenAI的ChatGPT遙遙領先同行們,這一回谷歌祭出了“大殺器”可能讓OpenAI真的急了。