ChatGPT又迎來大升級,這次是“多模態”,能開口説話,識別物體。
當地時間週一,OpenAI宣佈,將在ChatGPT推出新的語音和圖像功能,新功能將於未來兩週內面向Plus和企業用户推出。
OpenAI介紹稱,ChatGPT推出的語音和圖像功能提供了一種新的、更直觀的界面,允許用户進行語音對話或向ChatGPT顯示用户正在談論的內容。新功能可以給用户提供在生活中使用ChatGPT的更多方式:
用户可以在旅行時拍下一張地標的照片,並就它的有趣之處與ChatGPT進行現場對話;當用户在家時,拍下冰箱和餐具室的照片,ChatGPT可以給出晚餐食譜;如果用户在幫自己的孩子做一道數學題,拍張照片,圈出題集,ChatGPT會給出提示。
據OpenAI介紹,語音輸入功能類似於手機上的語音助手,用户只需按下一個按鈕,説出自己的問題,ChatGPT 就會將其轉換為文本,然後生成答案,再將答案轉換為語音,播放給用户。
OpenAI 還開發了一種新的文本轉語音模型,可以根據幾秒鐘的樣本語音,生成與之相似的人聲。用户可以從五種選項中選擇 ChatGPT 的聲音,而且這種模型還有更多的潛在用途,包括將播客翻譯成其他語言,同時保留播客主持人的聲音。
OpenAI表示,它與配音演員合作,共同構建了該功能的文本到語音AI模型。
圖像輸入功能則類似於 Google Lens,用户可以拍攝自己感興趣的事物,並上傳到 ChatGPT 中。ChatGPT會嘗試識別用户想要詢問的內容,並給出相應的回答。用户還可以用應用中的繪圖工具來幫助表達自己的問題,或者配合語音或文本輸入來進行交流。
OpenAI給出的例子是,用户拍了已升自行車的圖片,詢問ChatGPT如何調低座椅,根據用户的提問,ChatGPT很快識別出車座調節類型和需要的工具。
隨後,用户又詢問其工具箱中哪個是所需的工具,ChatGPT也是成功識別,並提示用户需要拿哪一個尺寸。
可以看出,ChatGPT的功能越來越強大,非常智能。此前,OpenAI首席執行官Sam Altman和比爾·蓋茨都曾對ChatGPT未來的應用前景進行設想。
Altman曾私下吿訴開發者,希望將ChatGPT打造成“超級智能個人工作助理”,可以根據個人及工作需求執行多種任務,如按照用户的風格起草郵件或文件,提供相關業務的最新信息。
蓋茨也曾表示,技術競賽將推動頂級AI助理的誕生,顛覆現有生產力,可能會從根本上改變用户的行為,乃至取代搜索和購物網站。
不過,ChatGPT也提示,這些功能也帶來了新的風險,例如惡意行為者可能冒充公眾人物或實施欺詐。