您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
李開復:差距縮小意料之中,LM SYS“廝殺”測試是強強對決
格隆匯 06-13 20:07

近日,零一萬物CEO、創新工場董事長李開復做客格隆匯高端訪談《格隆博士會客廳》。

李開復表示,雖然自己的大模型跟國外萬億大模型差距不遠令人感到自豪,但也是意料之中的事情

因為其實訓練大模型的過程中可以看到模型是不是在進步所以大模型的測試是有一個可預測的結果只是結果出來之前對外講了沒有人會信,也沒有意義。

因為沒有一個公開的標準來測大模型,所以LM SYS這個評測的方法是特別有意義的。

如果要測比如搜索引擎的速度、精度,或者是一個操作系統的速度,又或者向量數據庫的速度,它都是一個比較客觀的標準。李開復認為,做大模型主打一個用户的體驗感。問題答得好不好、有沒有解決疑難、有沒有犯錯、描述的方式是不是讓人喜歡等等,這些都是很主觀的因素。

至於怎麼找一大批主觀的人去測這些模型,LM SYS就有幾個很有意思的方法論。

一個就是他們全球徵召用户例如每一位觀眾都可以到LM SYS去看擂台,然後每一個模型都有幾萬個測試者。

另一個是是個第三方機構。每一個做大模型的公司例如Google、OpenAI、Anthropic以及國內的幾家公司都是提交了模型讓對方來測,然後它的數據都是公開的、透明的,可以看到自己得了多少票。

而且,有一個廝殺的方式,有點類似踢足球或者打網球半決賽,為了讓很強的模型跟更強的模型多做對比。它不是一輪一輪地在做,而是同時讓差不多強的大模型去比賽,然後接近千萬用户自願花時間給模型投票,最後模型的得分類似於國際象棋、圍棋的得分。

所以它是客觀的、有效的、真實的、第三方的、基於用户的,而且它測試模型的時候是盲測的,投完票之後它才會顯示是哪兩個公司的模型。

 

更多精彩完整內容,請關注抖音/視頻號:格隆博士會客廳、格隆博士。

關注uSMART
FacebookTwitterInstagramYouTube 追蹤我們,查閱更多實時財經市場資訊。想和全球志同道合的人交流和發現投資的樂趣?加入 uSMART投資群 並分享您的獨特觀點!立刻掃碼下載uSMART APP!
重要提示及免責聲明
盈立證券有限公司(「盈立」)在撰冩這篇文章時是基於盈立的內部研究和公開第三方資訊來源。儘管盈立在準備這篇文章時已經盡力確保內容為準確,但盈立不保證文章資訊的準確性、及時性或完整性,並對本文中的任何觀點不承擔責任。觀點、預測和估計反映了盈立在文章發佈日期的評估,並可能發生變化。盈立無義務通知您或任何人有關任何此類變化。您必須對本文中涉及的任何事項做出獨立分析及判斷。盈立及盈立的董事、高級人員、僱員或代理人將不對任何人因依賴本文中的任何陳述或文章內容中的任何遺漏而遭受的任何損失或損害承擔責任。文章內容只供參考,並不構成任何證券、金融產品或工具的要約、招攬、建議、意見或保證。
投資涉及風險,證券的價值和收益可能會上升或下降。往績數字並非預測未來表現的指標。
uSMART
輕鬆入門 投資財富增值
開戶