遊戲AI“精靈”！谷歌又出新王炸，新模型Genie粉末登場：一張圖，玩轉交互式世界

格隆匯 02-27 22:04

當紅炸子雞Sora 熱尚未褪去，谷歌的Genie又來了。

一張圖，便可召喚一個交互式世界，谷歌這次出手又是一個王炸，直槓Open AI。

日前，谷歌發佈了110億參數的全新AI基礎世界模型——Genie (生成式交互環境，Genie 中文意為“精靈”)。

與之前僅關注世界生成的模型不同是：Genie 允許用户與創建的環境進行交互。它可以通過文本、合成圖像、照片甚至草圖生成可玩的交互式環境和可控虛擬世界。

谷歌表示，Genie開啟了“圖/文生成交互世界”的時代，還將成為實現通用AI Agent的催化劑。

值得一提的是，Genie的問世代表了生成式人工智能的一個重大進步，也讓人工智能在虛擬世界的散發出無限可能性。

據谷歌介紹，Genie AI 是一個相對較小的模型，擁有 110 億個參數。

它由時空視頻分詞器、自迴歸動力學模型和簡單且可擴展的潛在動作模型組成。

Genie 在大量公開的互聯網視頻數據集上進行了沒有任何動作標籤的訓練，可以將任何圖像（無論是現實世界的照片、草圖、人工智能生成的圖像還是繪畫）轉換為簡單的 2D 平台遊戲。

最大的獨特之處是，它可以通過無監督學習來理解遊戲世界中角色的移動、控制和行動，並根據用户操作預測未來幀，從而創建功能性和可玩性的體驗。

簡而言之，Genie 能“自學成才”。

谷歌DeepMind團隊指出，它的用途廣泛，適用於各個領域，且可以擴展到更大的互聯網數據集。

此外谷歌還強調，這種新模型為未來的人工智能打開了大門，讓他們可以“在新的、生成的世界的永無止境的課程中”接受培訓。

與Sora相比，Genie進步在哪？

不久前，OpenAI發佈了首個文生視頻模型，Sora一出，即震驚四座。

它不僅能生成逼真的人工智能視頻，還能夠創建持久的角色、風格和環境。Open AI更是將稱其為“世界模擬器”。

於是，也有網友稱，Genie是谷歌對Sora不痛不癢的回擊。

不過，谷歌Genie團隊負責人Tim Rocktäschel則稱，不可否認，OpenAI的 Sora 確實令人印象深刻，視覺上令人驚歎，但世界模型需要“行動”。

Genie 是一個動作可控的世界模型，但完全不受視頻監督的訓練，這是邁向AGI通用世界模型的充滿希望的一步。

英偉達科學家Jim Fan也表示，與Sora不同的是，Genie實際上是一個由行動驅動的世界模型，具有推斷行動的能力。2024年也將是基礎世界模型之年。

“Sora很好，但是Genie將會是具身智能體的主幹之作”。

作為一個基礎世界模型，可以説，Genie 處於可以生成和管理虛擬環境的人工智能系統的最前沿。

它的發展標誌着基礎世界模型向前邁出了重要一步，這不僅僅是遊戲技術的進步，也標誌着人工智能系統能力的更廣泛轉變。

眼下，AI大模型戰場正“烽煙四起”，硅谷巨頭們的廝殺甚是激烈。前幾天，谷歌才剛剛推出了開源大模型——Gemma，打響了AI 開源之戰。

但硅谷大廠們，在這輪AI浪潮上也已經卷出新高度。除了谷歌一連串“輸出”之外，微軟也在加大“火力”。

繼OpenAI之後，微軟剛剛又將法國初創公司Mistral AI納入麾下。

作為一家成立僅10個月的初創公司，Mistral AI發佈的Mistral Large模型性能已經直逼GPT-4。

據悉，在常用基準測試中，Mistral Large的表現僅次於GPT-4，超過了GPT-3.5、谷歌的Gemini Pro和Meta的LLaMA 2 70 B。

這一次，誰會成為“下一個OpenAI”呢？

更多內容