近日,零一萬物CEO、創新工場董事長李開復做客格隆匯高端訪談《格隆博士會客廳》。
李開復表示,雖然自己的大模型跟國外萬億大模型差距不遠令人感到自豪,但這也是意料之中的事情。
因為其實訓練大模型的過程中可以看到模型是不是在進步,所以大模型的測試是有一個可預測的結果,只是結果出來之前對外講了沒有人會信,也沒有意義。
因為沒有一個公開的標準來測大模型,所以LM SYS這個評測的方法是特別有意義的。
如果要測比如搜索引擎的速度、精度,或者是一個操作系統的速度,又或者向量數據庫的速度,它都是一個比較客觀的標準。李開復認為,做大模型主打一個用户的體驗感。問題答得好不好、有沒有解決疑難、有沒有犯錯、描述的方式是不是讓人喜歡等等,這些都是很主觀的因素。
至於怎麼找一大批主觀的人去測這些模型,LM SYS就有幾個很有意思的方法論。
一個就是他們全球徵召用户。例如每一位觀眾都可以到LM SYS去看擂台,然後每一個模型都有幾萬個測試者。
另一個是它是個第三方機構。每一個做大模型的公司例如Google、OpenAI、Anthropic以及國內的幾家公司都是提交了模型讓對方來測,然後它的數據都是公開的、透明的,可以看到自己得了多少票。
而且,它有一個“廝殺”的方式,有點類似踢足球或者打網球半決賽,為了讓很強的模型跟更強的模型多做對比。它不是一輪一輪地在做,而是同時讓差不多強的大模型去比賽,然後接近千萬用户自願花時間給模型投票,最後模型的得分類似於國際象棋、圍棋的得分。
所以它是客觀的、有效的、真實的、第三方的、基於用户的,而且它測試模型的時候是盲測的,投完票之後它才會顯示是哪兩個公司的模型。
更多精彩完整內容,請關注抖音/視頻號:格隆博士會客廳、格隆博士。