全球第一家人形機器人獨角獸誕生了!
繼1月底與微軟洽談後,機器人初創公司Figure AI還在尋找更多金主。
已經確定的投資者及機構如下:
1,亞馬遜創始人貝索斯,投資 1 億美元;2,微軟,9500 萬美元;3,OpenAI ,500 萬美元。4,英偉達與亞馬遜的附屬基金,各自5000 萬美元;6,英特爾風投部門, 2500 萬美元;7,LG Innotek , 850 萬美元;8,三星投資集團, 500 萬美元;9,Parkway Venture Capital , 1 億美元;10,Align Ventures , 9000 萬美元;11,Aliya Capital Partners , 2000 萬美元……(還有一大串金額較小的,略過)
總融資額為 6.75 億美元,投後估值達到 27 億美元左右。
但眾所周知,目前人形機器人風頭最盛的是誰?馬斯克。
科技大佬們如此集中的大規模投資,瞬間就把美國科技圈子劃分為特斯拉和非特斯拉兩派,涇渭分明。
如此針鋒相對,很明顯就是絕不讓老馬吃獨食。
01
執着的理由
關於機器人的外形是否一定要和人類一樣,質疑聲從未停過。
相當一部分人認為,人形機器人是多餘的研究。
人類的獨特,在於想象力出眾和團隊分工協作。
但從身體構造來看,我們的生存能力並不強,既不耐寒也不耐熱 ,一到夜晚就成了瞎子。
運動能力更是差勁,肌肉必須後天鍛鍊,不像動物一樣天生就有,負重不如馬、跑得沒貓狗快、不會飛、不擅長游泳、跳得也不高。
一個並不完美的構造,為什麼要將之作為範本?
比如,人只有兩隻手,難道機器人也要限制成兩隻手?
為什麼要設計一個腦袋?如果是為了放傳感器,全身分佈放置豈不更好?
為什麼要有腿?在陸地上行進,履帶車效率更高。
至於跳躍,讓機器人跳起來所需的功率,都能夠飛行了。
都能飛了,還要腿幹什麼?
以一般的眼光來看,機器人做成人形,是完全沒必要的。
既然如此,科技大佬們為什麼還要燒大錢、花大力氣去研發人形機器人?
首先,最淺顯的一方面:
人類形態更容易喚起投資者、消費者和網民的認同感,更容易圈錢。
這一波AI浪潮,掀起了技術革命的同時,也引爆了全球科幻圈子。
比如,對馬斯克而言,至少在未來幾年,他的擎天柱最終能否商業化並不重要,只需要將這些宣傳噱頭與自己捆綁在一起,就能順利賣出更多車,股價節節攀升。
在商言商,這是科技大佬們必然有的想法。不過除此之外,或許還有更深的一方面:
因為他們所追求的是普適性,是更大的商業價值。
任何一種商品,必須是每個人都能使用的,而不是少數人的專屬。
但我們現在所能看到的所有人形的、非人形的機器人,從功能上而言,只能適用單一場景——這實際上就不能稱之為機器人,頂多是具備一定智能的機器。
既然帶個“人”字,至少要具備一定的交流能力,能適用於人類社會。
而人類社會中的絕大多數建築與工具,都是為了方便人的使用而設計的。
比如,成年人的平均身高170cm、體重70kg,那麼汽車、房門、桌椅、走道等私人的、非私人的任何物品、設施,都是以這個標準生產建造的。
所以,如果要造一台通用機器人,理論上人形機器人才最合適。
凡是人類能用的工具,它都能夠直接使用。我們不需要為機器人專門設計另外一套標準、工具和環境。
簡而言之,就是為了方便。
但這裏有個非常矛盾的點:
人形機器人在人類社會的優勢是通用性,但這同樣是限制它商業化落地的最大障礙。
不同於工業機器人只需要完成某項單一任務,人形機器人得在開放式的環境中,完成更復雜的任務。
而當前階段的所有人形機器人,要麼依然只能針對單一場景的單一任務,要麼就必需有開發人員實時控制,無法直接給普通人使用。
何解?
因為過去的人形機器人,並不具備交互性。
更精準點説,並不具備普適的交互性,只有掌握了相關技能的研究人員才能與機器人交互。
越來越成熟的大模型,或許能解決這個硬傷。
02
相輔相成
大模型越發成熟,於人形機器人最大的意義,是讓它越來越具備通用性。
其實早在去年,日本東京大學團隊就開發了全球第一個由GPT-4驅動的人形機器人Alter3。
它最大的亮點,就在於使用者並不需要具備任何專業知識,只需要與機器人進行自然語言交互,就能指示它執行各種任務。
它是怎麼做到的呢?
主要通過兩種技術,zero-shot(零樣本學習)和CoT(思維鏈),GPT-4才能將人類的自然語言轉換成機器人能理解的代碼。
比如,你對Alter3説“笑一個”,它會先向GPT-4詢問,什麼是笑、怎麼表現出來,然後GPT將答案轉換成Python代碼,機器人再根據代碼完成面部動作。
這個過程看起來很複雜,但在人的肉眼中,幾乎是0延遲的。
更厲害的是,Alter3還擁有糾錯能力——它能根據使用者的的口頭反饋,事實調整自身行為。
這種極強的靈活性,或許能在一定程度上理解為學習能力。
Alter3已經足夠神奇,但它已經是過去式。
是的,就是這麼快,AI迭代的速度遠超以往任何技術。
最初,GPT只是個單純的文字對話模型;2023年9月,語音和圖像功能正式上線,大力發展多模態技術;到今年,以GPT為基礎的視頻生成模型Sora又問世。
這一步一步,蹭蹭遞進,你覺得像什麼?
OpenAI要讓自己的大模型,越來越符合人腦的標準。
人腦最基本的能力是什麼?五感神經。
語音功能可以理解為大模型的聽覺神經,圖像→視頻可以理解為視覺神經。
有人覺得不對,大模型生成的圖片、視頻,都是根據人的指示來的,並不是它自己“看”到的。
但想想看,我們人看到的東西,就是直接“看”到的麼?
我們的眼睛“看”到的任何靜止的、運動的事物,都是腦神經對光信息反饋,從而形成的一種視覺效果。
這與大模型根據信息指令,生成圖像、視頻,邏輯上是一樣的。
區別只在於,我們的信息源於自然界的萬事萬物,大模型的信息源是一串串代碼。
關於這個問題,可以以後再具體討論……
回到主題。
既然大模型能在短時間具備視覺、聽覺,那麼另外的嗅覺、味覺、觸覺,想必也很快會實現。
但問題又來了。
嗅覺我不太理解,而味覺、觸覺的產生,必須與外界有實際接觸,單靠大模型怎麼可能辦得到?
僅靠AI自己當然不行,所以它需要載體、需要一系列成套的“器官”,也就是黃仁勛一再強調的“具身智能”。
什麼樣的人造器官才能還原出我們想象中的五感?
最簡單的,當然是直接模仿人的身體構造。
至少在現在看來,人形的“具身智能”是完善多模態大模型的最優解。
而在大模型五感越來越成熟的同時,人形機器人的功能會越來越豐富、越來越具備普適性。
大模型是大腦、人形機器人是肉體,兩者相互輔助、共同進化。
這是個非常優美的良性循環。
只要算力、硬件技術跟得上,電影裏的那種智能機器人,也就不遠了。
看到這裏,是不是有點細思極恐的感覺。或許,人類自己也是這麼誕生的?
誰又是我們的master?
03
潛在的價值
一旦真正的智能機器人出現,它們有多大的價值,是很明瞭的。
除了老生常談的家務、養老、學習、伴侶等,更重要的是充當勞動力。
我們普通人往往擔心,機器人會不會搶走自己的範圍。
但從更宏觀的角度來看,更大的威脅不是機器人是否會取代人力,而是智能機器人能否及時到來。
老齡化越來越普遍,目前全球大部分經濟體,尤其是發達經濟體,失業率都達到了1980年以來的最低水平,勞動力嚴重短缺。
比如日本,預計每年將減少40萬勞動力。
照此趨勢,到2030年,全球預計將產生8520萬人的缺口,導致8.452萬億美元的損失,相當於日本+德國GDP之和。
這種時候,能7×24小時無怨言工作的機器人,就顯得尤為可愛了。
這裏需要再強調一下,為什麼一定要人形機器人。
因為勞動力的短缺,普遍存在於各行各業,並不只是製造業。
如果只是在工廠勞作,不需要管外形,實用就行。
但正如上文所説,機器人想要進入人類社會的所有行業,最好是具備普適性,能夠在現有的社會中直接使用。
不論服務生、收銀員還是教師、司機、掃大街的等等等等,它們都能勝任。
這樣的未來,想必是美好的,就像電影和小説裏描述的那樣。
其中藴含的市場,想必是極為巨大的。
根據馬斯克描述,全球勞動力市場將高達40萬億美元,是電動車市場的10倍,可能還低估了。
但機器人畢竟不是人,所謂外形,都只是人為的造物。
金錢與慾望的火焰,無論什麼時候都不能燒到對未知的敬畏。
Robot一詞,源於捷克作家卡雷爾·恰佩克筆下的《羅素姆的萬能機器人》,原型為“Robota”,在捷克語中為“苦力”的意思。
羅素姆公司大量製造機器人奴隸,它們擁有人類的外貌,日復一日從事繁重的勞動。在海倫娜等理性主義者的幫助下,Robota逐漸擁有自我意識,開始對自己的社會地位不滿。
起義爆發,人類被屠殺殆盡,只有像機器人一樣用自己雙手勞動的阿爾奎斯特存活。
統治世界後,Robota們痛苦地發現,技術資料已被人類焚燬。為了創造後代,它們請求阿爾奎斯製造新的機器人,並自願成為實驗材料。
然而,阿爾奎斯特能力有限,儘管肢解了一個又一個Robota,也無法成為新紀元的上帝。絕望之際,一對男女機器人突然進化出人類獨有的情感——愛情,擁有了繁殖後代的能力。
新的亞當和夏娃誕生了,世界得以延續。
哈利路亞!
……
只希望在不久的將來,人形機器人能成為人類永遠的好幫手,而不是如Robota那般,順手把我們送走……(全文完)