彷彿夢迴2023。去年年初,ChatGPT引發了普通人澎湃的討論熱情,此後海內外在AI大模型投資上展開了軍備競賽。
龍年剛一開年,OpenAI又打開了新局面。這次火的是文生視頻。2月16日凌晨,OpenAI發佈了文生視頻大模型Sora。Sora能夠根據文本提示創建詳細的視頻、擴展現有視頻中的敍述以及從靜態圖像生成場景。
這類應用早就有了,但Sora的呈現仍然驚豔,視頻中的主體穩定可控,可實現多角度切換,時長方面也突破,最長能生成60秒視頻。
不愧是OpenAI。儘管Sora仍處於開發早期階段,但它的推出已經標誌着生成式AI迎來一個里程碑。
資本端同時傳來新消息。在完成最新交易後,OpenAI的估值已飆升至800億美元以上。這筆交易來自於Thrive Capital精心策劃的要約收購。
儘管OpenAI和Thrive Capital對此皆不予置評,但小紅書博主“Shannon”昨天發的帖子很有情緒的代表性,“明天所有fund開會的議題都有OpenAI的Sora”。
只不過,和去年相比,投資人的心態變了。不是人人都有機會投中OpenAI,但OpenAI的能力邊界卻實實在在影響着一批創業公司和背後的投資人。
首先需要明確,“文生視頻大模型”並不是一條全新的賽道。在OpenAI登場之前,頭部大模型研發商幾乎都擁有自己的文生視頻大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已經誕生了垂直於多媒體內容創作大模型的獨角獸,例如視頻生成大模型Gen-2的開發商Runway,在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資後,估值超過15億美元。
更重要的是,上述已有的“視頻大模型”,隱隱有了生產力工具的影子。
以Runway為例,與許多“拿着錘子找釘子”式的“技術驅動型”大模型創業團隊不同,Runway的三名創始人Valenzuela、Alejandro Matamala和Anastasis Germanidis來自於紐約大學藝術學院,他們共同看到了“人工智能在創造性方面的潛力”,於是決定共商大計,開發一套服務於電影製作人、攝影師的工具。
這層基因打底,相比科技公司的“車庫文化”,Runway的發展軌跡更像“橫店影視城奮鬥史”:先開發了一系列細分到不能再細分的專業創作者輔助工具,針對性地滿足視頻幀插值、背景去除、模糊效果、運動追蹤、音頻整理等需求;隨後參與到圖像生成大模型Stable Diffusion的開發過程中,積累AIGC在靜態圖像生成方面的技能點,並獲得了參與《瞬息全宇宙》等大片製作的機會——這些影片在宣發中曾經有過詳細描述,出品人們感歎他們的加入讓後期團隊“保持了一個超乎常規的小規模”狀態,影視同行們驚歎很多許多複雜的特效製作(比如《瞬息全宇宙》裏那兩塊對話的石頭),工期已經從“好幾天”縮短到了“幾分鐘”。
等到2023年2月,Runway發佈第一代產品Gen-1,普通用户已經能通過iOS設備進行免費體驗,範圍除了“真實圖像轉黏土”“真實圖像轉素描”這些濾鏡式的功能,還包含了“文本轉視頻”,從而使得Gen-1成為了首批投入商用的文生視頻大模型;2023年6月,他們發佈了第二代產品Gen-2,訓練量上升到了2.4億張圖像和640萬段視頻剪輯。
2023年8月,爆火B站、全網播放量超過千萬、獲得郭帆點讚的AIGC作品《流浪地球3預吿片》正是基於Gen-2製作。根據作者@數字生命卡茲克 在個人社媒上的分享,整段視頻的製作大體分為兩部分——由MidJourney生成分鏡圖,由Gen-2擴散為4秒的視頻片段——最終獲得素材圖693張、備用剪輯片段185條,耗時5天。半年之後,@數字生命卡茲克 再次通過“MJ V6畫分鏡-Runway跑視頻”製作了一段3分鐘的故事短片《The Last Goodbye》,投稿參賽Runway Studios(Runway專門為企業級客户提供定製化服務的部門)所組織的第二屆AI電影節Gen48。
換句話説,實際上至少在一年以前,“文生視頻大模型”就已經擁有足夠的關注度,其目前用户規模也被遠遠低估。
Runway的聯合創始人Valenzuela在C輪融資後透露,除了像New Balance這樣的世界500強客户,他們還擁有“數百萬個人創作者”。
除此而外,Sora所展現出來的“精準的物理世界還原能力”,也並不是OpenAI獨自探索的AI領域。馬斯克就在Sora發佈的兩天半後,也就是2月18日,在科技播客欄目“DrKnowItAll”裏留言,“這種精準還原現實世界物理規律的虛擬世界生成能力,特斯拉已經差不多快掌握一年了……只不過因為素材來自車載攝像頭,所以視頻看上去沒那麼有趣”。
OpenAI在同期發佈的技術論文《Video generation models as world simulators》也明確Sora更像是“數據驅動的物理引擎”,通過大模型的持續擴散來“高性能地模擬物理世界或者數字世界中的人、動物、其他物體”,因此仍然擁有“同行們都會面臨”的侷限性,例如“很難準確模擬複雜場景的物理原理,並且無法理解因果關係,比如Sora生產一段人咬餅乾的片段,餅乾可能不會出現咬痕”。
真正帶來壓迫感的,或許是Sora不可思議的進化速度。
從技術層面看,無論是“擁有精準物理規則的真實世界”“支持60秒視頻生成”還是“單視頻多機位”都可以被形容為水到渠成,然而正如上面所提到的——如今看起來傻傻的、只支持生成“4秒視頻生成”並且“掉幀明顯到像幻燈片”的Gen-2其實是2023年6月發佈的產品,距離Sora的發佈日不過8個月。
2023年11月,Meta發佈的視頻生成大模型Emu Video看起來在Gen-2上更進一步,能夠支持512×512、每秒16幀的“精細化創作”,但3個月之後的Sora已經能夠做到生成任意分辨率和長寬比的視頻,並且根據上面提到的開發者技術論文,Sora還能夠執行一系列圖像和視頻編輯任務,從創建循環視頻到即時向前或向後延伸視頻,再到更改現有視頻背景等。
而如果要死磕這種不可思議的進化速度,除了“神祕的外星文明”,最現實的解釋恐怕只有“海量燒錢”。
作為Runway半個領路人的Stability AI近兩年週期性地遭遇“現金流壓力”,一會兒傳聞高層正在積極探索出售公司,一會兒又流傳着早期投資者Coatue Management的內部信,直指“Stability AI的財務狀況令人擔憂”,建議CEO Emad Mostaque原地辭職。最揪心的傳聞是,為了讓亞馬遜相信自己不會拖欠高達7500萬的雲服務費用,身為前對沖基金經理的Emad Mostaque選擇以個人財產作為擔保。
然而從融資的角度看,Stability AI做到了賽道的天花板,其在2022年10月完成超過1億美元的融資後,估值早早來到了獨角獸級別。Emad Mostaque在去年7月的一次採訪中忍不住直髮狂暴言論,他説:“Bard AI只是因為在宣傳片中提供了不準確的信息,就造成了每天超過1000億美元的損失……人工智能作為基礎設施所需的投資總額可能為1萬億美元,這會是人類有史以來最大的泡沫”。
知乎上,一位叫做“像素鍊金師”的創業者坦承了他在目睹Sora發佈後的心路歷程:“我有些害怕科技巨頭的產品像隆隆火車一樣駛過,而我做的東西如同路邊的野草一樣,在這個技術進步就像跑馬燈一樣的時代裏,留不下一絲痕跡。”
無論怎樣,OpenAI再次印證了AI“巨無霸”的地位。看似無遠弗屆的能力,支撐其估值在不到10個月的時間裏增長了兩倍。CB Insights的數據顯示,OpenAI目前是世界上最有價值的科技初創企業之一,僅次於字節跳動和SpaceX。
拓展模型能力的同時,OpenAI還在推進多元化的戰略。尤其是在半導體領域,奧特曼正與潛在投資者、半導體制造商和能源供應商等各種利益相關者接觸。他甚至在考慮成立一家獨立於OpenAI的新公司,進入AI芯片行業。
這筆交易也揭示了,奧特曼之於OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便將敲定最新的融資交易,但當時奧特曼遭遇瞭解僱風波。交易有沒有受到影響不知道,總之結果是,770名員工中的700多人最終簽署了請願書,要求他復職。
細看這輪融資,不是發行新股,而是准許OpenAI員工對外出售所持股份。這對於OpenAI來説並不新鮮。2023年,Thrive Capital、紅杉資本、Andreessen Horowitz和K2 Global等風險投資巨頭也採取了類似的做法,參與OpenAI的要約收購,當時該公司的估值已經達到290億美元。
那麼,OpenAI的邊界在哪裏?
這個問題不僅事關OpenAI的估值,也關乎大大小小生成式AI創業公司的前景。
原本在視頻生成這個賽道上,海外已經有幾家創業公司卡位。最知名的莫過於前文所述的Runway。另一個領頭羊是Pika,創立於去年4月,11月宣佈完成了總計5500萬美金的A輪及天使輪融資,估值達2.5億美元。Pika由郭文景和孟晨琳共同創立,兩人都曾是斯坦福大學人工智能實驗室的博士生,履歷亮眼。郭文景還被譽為“華裔天才少女”。
OpenAI會衝擊這些公司嗎?別急,Sora 公開後,有海外博主已經對幾家公司的產品做了對比。他給Sora、Pika、Runway和Stable Video四個模型輸入了相同的prompt。結論是,Sora 在生成時長、連貫性等方面都有顯著的優勢。
必須要説,這幾家做文生視頻的公司都開發了自己的大模型,而非純粹的基於別人的大模型來開發應用場景的那類公司。但即使有技術護城河,要抵擋OpenAI的衝擊也沒那麼容易。
當然,這並不是説,純做應用的公司完全沒有前途了,背後也許涉及到一個發展階段的問題。
去年,紅杉資本的兩位合夥人再次發表文章,覆盤一年前自己對市場的看法。他們指出,其中一個預測錯誤是,垂直分離尚未發生。“我們仍然相信應用層公司和基礎模型提供商之間會有分離,模型公司專注於規模和研究,應用層公司專注於產品和UI。但在實際上,這種分離還沒有乾淨利落地發生。最初面向用户的應用中,最成功的那些都是垂直整合的公司。”
國內也是類似的局面。
有投資人吿訴我,他們關注的一家AIGC公司也在開發基於特定產業數據的獨有的模型,而不是僅僅調用別人的API。“不然很難指望他們在應用層面做出真正差異化的東西。”
回頭看,過去一年,OpenAI的每一次技術突破,都會拓展資本對它的想象空間,但同時也堵上一部分創業公司的前進之路。
“AGI去年已經把軟件行業毒死了。現在公眾只是在目睹毒發的過程。”有創業者在轉發一則Sora的消息時,在朋友圈評論道。
所以,AI投資難,尤其是應用層。“重點還是界定清楚,什麼東西能在大模型的演進過程中受益,什麼東西又在大模型演進過程中被瓦解。”一位AI投資人曾模糊地吿訴我。但OpenAI的超能力使得這個關鍵問題沒那麼容易預判。
再看大模型。《北京最火獨角獸翻6倍了》一文寫過,智譜AI去年一年的估值翻了已經翻了6倍多,已經有投資人給出200億估值。我最近也聽説,百川智能和MiniMAX,最近都傳出新一輪融資已到位的消息。OpenAI出新招,這些公司不可能不焦慮。好在彈藥尚且充足。Sora的誕生,無疑又將引發新一輪追趕。
藉着Sora火熱,AI的相關概念必將再炒一波,尤其是英偉達這類充當賣水人,又可以大賺一筆了。但對於一級市場的創業者和投資人而言,我只能説,暫時,繼續卷罷。