商湯(00020.HK)提出多項大模型和生成式AI相關技術突破
全球人工智能計算機視覺領域頂級國際會議ICCV(International Conference on Computer Vision)於10月2至6日在法國巴黎舉行。商湯(00020.HK)表示,與聯合實驗室共49篇論文入選,涵蓋文生圖、3D數字人、自動駕駛、目標檢測、視頻分割等多個與大模型和生成式AI相關的熱門題目。
基於商湯AI大裝置SenseCore和「日日新SenseNova」大模型體系,商湯在生成式AI和視覺大模型等領域上,提出多項技術突破和研究範式創新。
在生成式AI方面的文生圖領域,商湯研究團隊提出將人類偏好引入Stable Diffusion的模型訓練中,證明人類偏好信息可以提升Stable Diffusion生成的圖像質量,尤其是在人體、四肢等容易出現誤差的情況下,展示優異的效果。
此外,商湯研究團隊亦提出一種基於單張圖片的可泛化及可驅動人體神經輻射場方法,僅需一張從任意角度拍攝的3D人體圖片,結合必要的參數,就能實現3D數字人的重建和驅動,有望簡化3D數字人的創作流程。
商湯研究團隊另提出合成數據集SynBody,其構建了穿著衣物的參數化人體模型,並生成海量的人體虛擬數據,有助於3D人體感知和重建的模型訓練。此外,團隊公布開源代碼庫XRFeitoria,這是一個合成數據渲染工具箱,通過提供方便的Python API與CLI工具,簡化製作虛擬數據集的流程。
在自動駕駛場景的3D目標檢測領域,商湯團隊提出一種全新用於多視角3D檢測的時序增強訓練方式─歷史幀物體預測(Historical Object Prediction, HoP),不僅在nuScenes測試集上使用ViT-L得到68.5%NDS和62.4% mAP,超過排行榜上所有3D物體檢測器,還可以「即插即用」,無縫集成到最先進的BEV檢測框架中,重塑3D檢測時序利用的新範式。
關注uSMART
重要提示及免責聲明
盈立證券有限公司(「盈立」)在撰冩這篇文章時是基於盈立的內部研究和公開第三方資訊來源。儘管盈立在準備這篇文章時已經盡力確保內容為準確,但盈立不保證文章資訊的準確性、及時性或完整性,並對本文中的任何觀點不承擔責任。觀點、預測和估計反映了盈立在文章發佈日期的評估,並可能發生變化。盈立無義務通知您或任何人有關任何此類變化。您必須對本文中涉及的任何事項做出獨立分析及判斷。盈立及盈立的董事、高級人員、僱員或代理人將不對任何人因依賴本文中的任何陳述或文章內容中的任何遺漏而遭受的任何損失或損害承擔責任。文章內容只供參考,並不構成任何證券、金融產品或工具的要約、招攬、建議、意見或保證。
投資涉及風險,證券的價值和收益可能會上升或下降。往績數字並非預測未來表現的指標。