近日,“AI 大神”、第四範式公司創始人、CEO 戴文淵做客格隆匯高端訪談《格隆博士會客廳》。戴文淵表示,人工智能的格局其實比想象中的更復雜,它裏面主要有算法、算力、數據這幾個對象。
算法就好像蒸汽機的一個構造圖紙一樣,知道了這個圖紙,就能造出一個蒸汽機。就比如Transformer這個算法,一般看懂了這個論文,就可以構造一個Transformer算法的系統。
算力就是在雙方同樣擁有Transformer算法的情況下,顯卡越強性能越強。它就像是計算機的智商數據,類比來説,就是你學過多少東西,哪怕智商高的人沒學習也不行,可能智商低的人多努力最後也能達到。
在大家彼此的算法都差不多的情況下,其實信息差很快會被拉平,因此真正會拉開差距的其實還是算力和數據。所以如果最後要看AI的綜合結果,需要同時看算力和數據兩個方面。
往後或許不能説AI完全是一個指數級的上升趨勢,因為數據指數級增加也是會到頭的。
目前數據量供應沒有到天花板的時候,隨着算力的指數級增加,這個模型的參數就是指數級往上升。
一旦到數據見頂的時候,算力再指數級增加已經不能帶來有效的參數的指數級增加了,所以那個時候可能瓶頸就會在數據上。
因此OpenAI也花了很多錢去投數據,他們投在數據上的花銷,或許沒有比算力少多少。
數據還有一個瓶頸來自於產生數據的對象。即便現在可以用模型產出新的數據給模型,但如果這些數據不經過人的挑選,它還是不會產生新的信息量。就比如,自己説的話再被自己聽回去對自己本身不會有什麼樣的改進。
最後有效的數據能增加多少,取決於能調動多少人、多少力量去貢獻數據。
中國市場是擁有最大的的數據樣本,整個中國市場能找到很多的數據收集場景,並且規模可能是最大的,這就意味着能給到人工智能最多的學習材料。在AI領域,戴文淵認為,科技從業者都是為了這個科技進步在努力,自己作為科研工作者,目標是做一個業界領先的東西。這可能需要充分利用自己所處的環境,看看怎麼在這個環境做最領先的事情。