ChatGPT迎來“炸裂”升級！能看、能聽、會説，超級AI助理即將誕生？

格隆匯 09-26 09:37

ChatGPT又迎來大升級，這次是“多模態”，能開口説話，識別物體。

當地時間週一，OpenAI宣佈，將在ChatGPT推出新的語音和圖像功能，新功能將於未來兩週內面向Plus和企業用户推出。

OpenAI介紹稱，ChatGPT推出的語音和圖像功能提供了一種新的、更直觀的界面，允許用户進行語音對話或向ChatGPT顯示用户正在談論的內容。新功能可以給用户提供在生活中使用ChatGPT的更多方式：

用户可以在旅行時拍下一張地標的照片，並就它的有趣之處與ChatGPT進行現場對話；當用户在家時，拍下冰箱和餐具室的照片，ChatGPT可以給出晚餐食譜；如果用户在幫自己的孩子做一道數學題，拍張照片，圈出題集，ChatGPT會給出提示。

據OpenAI介紹，語音輸入功能類似於手機上的語音助手，用户只需按下一個按鈕，説出自己的問題，ChatGPT 就會將其轉換為文本，然後生成答案，再將答案轉換為語音，播放給用户。

OpenAI 還開發了一種新的文本轉語音模型，可以根據幾秒鐘的樣本語音，生成與之相似的人聲。用户可以從五種選項中選擇 ChatGPT 的聲音，而且這種模型還有更多的潛在用途，包括將播客翻譯成其他語言，同時保留播客主持人的聲音。

OpenAI表示，它與配音演員合作，共同構建了該功能的文本到語音AI模型。

圖像輸入功能則類似於 Google Lens，用户可以拍攝自己感興趣的事物，並上傳到 ChatGPT 中。ChatGPT會嘗試識別用户想要詢問的內容，並給出相應的回答。用户還可以用應用中的繪圖工具來幫助表達自己的問題，或者配合語音或文本輸入來進行交流。

OpenAI給出的例子是，用户拍了已升自行車的圖片，詢問ChatGPT如何調低座椅，根據用户的提問，ChatGPT很快識別出車座調節類型和需要的工具。

隨後，用户又詢問其工具箱中哪個是所需的工具，ChatGPT也是成功識別，並提示用户需要拿哪一個尺寸。

可以看出，ChatGPT的功能越來越強大，非常智能。此前，OpenAI首席執行官Sam Altman和比爾·蓋茨都曾對ChatGPT未來的應用前景進行設想。

Altman曾私下吿訴開發者，希望將ChatGPT打造成“超級智能個人工作助理”，可以根據個人及工作需求執行多種任務，如按照用户的風格起草郵件或文件，提供相關業務的最新信息。

蓋茨也曾表示，技術競賽將推動頂級AI助理的誕生，顛覆現有生產力，可能會從根本上改變用户的行為，乃至取代搜索和購物網站。

不過，ChatGPT也提示，這些功能也帶來了新的風險，例如惡意行為者可能冒充公眾人物或實施欺詐。

更多內容