當紅炸子雞Sora 熱尚未褪去,谷歌的Genie又來了。
一張圖,便可召喚一個交互式世界,谷歌這次出手又是一個王炸,直槓Open AI。
日前,谷歌發佈了110億參數的全新AI基礎世界模型——Genie (生成式交互環境,Genie 中文意為“精靈”)。
與之前僅關注世界生成的模型不同是:Genie 允許用户與創建的環境進行交互。它可以通過文本、合成圖像、照片甚至草圖生成可玩的交互式環境和可控虛擬世界。
谷歌表示,Genie開啟了“圖/文生成交互世界”的時代,還將成為實現通用AI Agent的催化劑。
值得一提的是,Genie的問世代表了生成式人工智能的一個重大進步,也讓人工智能在虛擬世界的散發出無限可能性。
據谷歌介紹,Genie AI 是一個相對較小的模型,擁有 110 億個參數。
它由時空視頻分詞器、自迴歸動力學模型和簡單且可擴展的潛在動作模型組成。
Genie 在大量公開的互聯網視頻數據集上進行了沒有任何動作標籤的訓練,可以將任何圖像(無論是現實世界的照片、草圖、人工智能生成的圖像還是繪畫)轉換為簡單的 2D 平台遊戲。
最大的獨特之處是,它可以通過無監督學習來理解遊戲世界中角色的移動、控制和行動,並根據用户操作預測未來幀,從而創建功能性和可玩性的體驗。
簡而言之,Genie 能“自學成才”。
谷歌DeepMind團隊指出,它的用途廣泛,適用於各個領域,且可以擴展到更大的互聯網數據集。
此外谷歌還強調,這種新模型為未來的人工智能打開了大門,讓他們可以“在新的、生成的世界的永無止境的課程中”接受培訓。
與Sora相比,Genie進步在哪?
不久前,OpenAI發佈了首個文生視頻模型,Sora一出,即震驚四座。
它不僅能生成逼真的人工智能視頻,還能夠創建持久的角色、風格和環境。Open AI更是將稱其為“世界模擬器”。
於是,也有網友稱,Genie是谷歌對Sora不痛不癢的回擊。
不過,谷歌Genie團隊負責人Tim Rocktäschel則稱,不可否認,OpenAI的 Sora 確實令人印象深刻,視覺上令人驚歎,但世界模型需要“行動”。
Genie 是一個動作可控的世界模型,但完全不受視頻監督的訓練,這是邁向AGI通用世界模型的充滿希望的一步。
英偉達科學家Jim Fan也表示,與Sora不同的是,Genie實際上是一個由行動驅動的世界模型,具有推斷行動的能力。2024年也將是基礎世界模型之年。
“Sora很好,但是Genie將會是具身智能體的主幹之作”。
作為一個基礎世界模型,可以説,Genie 處於可以生成和管理虛擬環境的人工智能系統的最前沿。
它的發展標誌着基礎世界模型向前邁出了重要一步,這不僅僅是遊戲技術的進步,也標誌着人工智能系統能力的更廣泛轉變。
眼下,AI大模型戰場正“烽煙四起”,硅谷巨頭們的廝殺甚是激烈。前幾天,谷歌才剛剛推出了開源大模型——Gemma,打響了AI 開源之戰。
但硅谷大廠們,在這輪AI浪潮上也已經卷出新高度。除了谷歌一連串“輸出”之外,微軟也在加大“火力”。
繼OpenAI之後,微軟剛剛又將法國初創公司Mistral AI納入麾下。
作為一家成立僅10個月的初創公司,Mistral AI發佈的Mistral Large模型性能已經直逼GPT-4。
據悉,在常用基準測試中,Mistral Large的表現僅次於GPT-4,超過了GPT-3.5、谷歌的Gemini Pro和Meta的LLaMA 2 70 B。
這一次,誰會成為“下一個OpenAI”呢?