在後疫情時代,作為人機交互的重要接口,智能語音市場正在迎來其發展的黃金時代。無論是面向日常生活的消費級市場,還是面向特定場景的企業級市場,都正在快速擴張。此前,德勤稱,各行業正在迎來需求拐點,進入需求爆發期。預計到2030年,智能語音消費級應用場景總的發展空間將超過700億元。企業級場景發展空間預計將達到千億規模。
在智能語音眾多落地場景中,金融行業是發展最迅速的領域之一,也是未來商業落地的重要方向。德勤預計,到2030年,智能語音在金融、電商和電信行業應用的發展空間將達到419億元,市場規模僅次於智能家居。
在這個時間節點,SaaS企業特別是行業垂直類SaaS企業如何抓住這個後疫情時代的新風口,在千億市場中分得一杯羹成為至關重要的課題。
本文,我們將從智能語音領域中技術層、中間層和應用層各選一個典型代表,並通過對國內頭部金融SaaS企業百融雲創真實案例的剖析,來具體看看,智能語音的不同層有哪些新進展,針對目前存在的問題,領頭企業給出了哪些創新性解決方案,技術、產品和服務的改善如何為大規模商業化打下基礎。
中間層:智能打斷
智能語音技術的發展始於上世紀80年代,迄今已經歷了三個階段。2010年之前為起步期,語音識別開始從孤立詞識別系統向大量詞彙連續語音識別系統發展;2011-2015為變革期,在這個階段微軟DNN(深度神經網絡)的出現使識別錯誤率第一次大幅降低,降幅約90%,技術與產品開始大發展;2016至今為落地期,機器語音識別準確率第一次達到人類水平,約95%,智能語音技術進入落地期,智能語音助手、智能音箱相繼落地。
隨着大規模的商業化應用,智能語音相關產品的問題逐漸暴露出來。比如,答非所問,自説自話,或者在多輪交互時,打斷不智能,用户體驗差。在普華永道進行的一項研究中,62%的受訪者表示,對當前智能語音產品缺乏理解、可靠性和準確性感到沮喪。
沮喪背後的主要原因其實是打斷不夠智能。試想這樣一個場景,系統播報語音的時候,突然出現了很強的背景噪音或者其他人的講話,導致播報中斷;或者,系統沒有檢測到用户的音頻信號,導致用户講話的時候還在播放提示音,判斷的失誤不僅造成了系統“自説自話”,還使得整個音頻信號不完整,影響了之後的語音識別、語音理解等環節,進而導致系統缺乏理解性。
智能打斷本質上是對輸入的音頻流進行分析,對人聲還是非人聲輸出判斷結果——即為開始説話事件還是靜音事件,然後通過語音識別(ASR)獲得識別結果,之後開始準備下一輪話術。打斷是否智能取決於兩個因素:端點檢測技術是否可靠和系統可否依據具體環境,對端點檢測效果完成自我優化(智能反饋)。在上述兩個場景中,前者是端點檢測過於敏感產生的錯誤打斷;後者則是端點檢測漏過了事實上的語音部分,導致系統響應遲鈍,影響了識別的準確度。
從技術角度看,智能化打斷功能應該具有如下特徵:端點檢測精確度高;對背景噪聲以及非語音聲音有很好的拒絕功能;系統可以根據通話環境調節相關參數,改善端點檢測效果。從商業化的角度看,打斷越智能,使得機器在與人交互的過程中,更能清晰傳達外呼目的,精準理解用户語義,在及時、流暢的雙向溝通中,幫助用户解決問題,同時也高質、高效完成服務、營銷的外呼目的。因此,打斷越智能,其商業價值越高,也有利於進一步的市場拓展。
以百融雲創的智能外呼打斷系統為例,該系統能排除噪聲干擾,排除環境噪聲的干擾,精確識別語音片段與非語音片段,增強適應性的技術效果。其次,通過語音識別技術進行二次確認,提高端點檢測的精確度。此外,為使得打斷具有更強的場景適應性,百融雲創使用的檢測模塊能自動根據場景調整參數,使得打斷更為真實、智能。
除了打斷技術上的優化,百融雲創也在積極推進技術的融合。據悉,百融雲創創新性地將模型定製化的語音識別(ASR)、語音理解(NLU)、語音生成(TTS)集成到軟交換系統中,大幅減少傳統打斷技術帶來的網絡數據傳輸消耗,將打斷延遲降低到毫秒級,並能根據用户的不同打斷訴求,提供毫秒級的語音交互反饋,全面提升智能語音交互過程中用户的打斷體驗。集合了最新技術的百融雲創智能語音對話機器人,是專門為金融場景定製的一款產品,可替代人工與客户進行順暢溝通,目前,該機器人已廣泛應用於營銷獲客、還款提醒、客户回訪等金融核心業務環節,如助力銀行開展信用卡還款提醒、社保卡發放回訪等。
2020年疫情爆發後,因營銷客服展業困難,多家銀行信用卡面臨逾期,資產質量下降的風險。百融雲創運用智能語音對話機器人共協助30多家銀行開展5000萬通智能語音服務,對1000億元個人和小微貸款餘額進行貸後管理和客户服務。
應用層:基於ASR的語音質檢
智能語音在金融行業的應用場景大致有五個:智能質檢、智能外呼、智能客服、智能RPA和聲紋識別。以智能質檢為例,質檢是一個剛性需求,幾乎所有主流行業都需要對服務對話進行內容質檢和話術分析,而隨着越來越多的企業對服務效率和質量越發重視,質檢需求量加大,而傳統的質檢方案——人工抽檢已經無法滿足市場的需求。
智能質檢本質上是通過使用自然語言算法和質檢規則,全量自動分析所有服務對話,生成可視化的評分報吿,幫助企業進一步提升服務質量,更全面、及時地發現服務問題,減少服務投訴率與輿情風險。當下實施的智能質檢技術主要是利用計算機強大的計算能力全面覆蓋語音進行質檢,但是一般僅適用於特定的場景,通用性較弱。
針對此痛點,百融雲創自主研發出一種基於ASR(語音識別)的語音質檢分析方法及系統。據悉,該系統可以依據工作場景自定義質檢規則及評分規則,構建質檢初始模型,進而再結合任務列表對初始模型進行配置,得到質檢工作模型。利用語音識別(ASR)、自然語言處理(NLP)等技術將語音轉化為文本,再使用質檢工作模型分析文本,得到評分結果,之後開始人工複核——對評分結果內容進行刪增,得到最終的評分結果,依據最終評分結果生成可視化的報吿。
可以發現,通過自定義的質檢規則和評分規則,以及可以根據任務列表對模型配置,增加了模型的適用性;而人工複核增加了模型的容錯率,提高了準確度。從而解決了現有技術中的智能質檢技術由於只能適用於特定的場景,通用性較弱的技術問題。
除了優化質檢規則的生成方式,解決通用性方面的問題,實際上,該語音質檢系統的強大之處在於兩點:其一,全量質檢,顯著降低人力成本;其二、支持多種場景,包括實時通話質檢、事後質檢以及存量錄音導入進行質檢。在實時通話質檢場景,可以及時提醒客服坐席人員調整話術,提升服務水平;在事後質檢和存量錄音導入場景,可以通過熱詞分析、通話打分等,幫助優化質檢規則,挖掘沉澱數據的價值。以百融雲創服務某國有銀行省分行為例,相較於原始的人工質檢,百融智能質檢方案日均質檢量增加至原有質檢量的12.5倍;日均成本降低至原有成本的10%;日均違規差得率降低至原有成本的10%,通過全量高效質檢,有效降低了投訴率。
技術層:短文本分類技術
隨着互聯網用户的增加和社交網絡的快速發展,短文本數據迅猛增長。短文本相對於長文本,詞彙個數少且具有稀疏性、不規範性以及特徵表達能力弱的特點,這使得機器在理解其語義方面面臨極大的挑戰。去年,德勤曾給出過一張智能語音技術成熟度曲線圖,圖表顯示,文本分析目前仍處於穩步爬升恢復期。
短文本的理解及分類技術本身屬於基礎研究範疇,但卻是實現人工智能的一個重要組成部分,其對許多實際應用場景也有至關重要的意義。
短文本分類技術有眾多應用場景,比如,常見的給新聞自動分類,打上一個或者多個標籤;再比如商品智能推薦——根據用户購買商品名稱作為預測樣本,進行文本分析,得到用户的交易特徵,再結合用户畫像預測用户下一步購買行為,完成智能推薦商品及服務。在金融行業,短文本分類技術也被用於信貸業務中,比如從常見基礎字段(一般包括姓名、性別等)和衍生字段(如設備ID等)以及市場現有的分類數據集抽取特徵,為業務提供智能化的數據分析解決方案。
目前,市場上分類數據集面臨標籤準確率低的問題。針對這一問題,百融雲創研發出基於貝葉斯定理的短文本分類數據集矯正方法及系統。該系統能夠對目前互聯網現有的分類不準確、不正確的短文本分類數據集進行快速、自動化矯正,提高標註的質量。針對無標籤的樣本,系統還有預測功能,提高分類過程中方數據標籤的準確性及正確率。
值得注意的是,以上百融雲創的三個方法及系統均於上個月成功獲得國家產權局授予的發明專利證書。
結語
從技術的角度看,數據、算力、算法是推動人工智能快速發展的基本要素。同時,技術的發展也離不開市場的培育。市場需要的是解決問題的方案和能力,是將技術落地成產品、服務,乃至一整套的解決方案,換言之,解決問題的綜合能力才是市場看重的核心。
這需要SaaS企業以技術創新為根本,以市場需求為導向,同時結合自身優勢,推動技術融合,實現人工智能技術在各行各業的落地。隨着以人工智能為代表的前沿技術的發展,其對行業的影響也日益深化,將從當前的技術驅動和效率提升走向全面的顛覆創新和產業升級。
人工智能是最難掌握的數字技術,但作為獎賞回報也最為豐厚。提前在人工智能領域佈局、擁有更多技術積累的企業,擁有無可比擬的先發優勢,並且隨着商業化進程的推進,這種優勢將進一步得到強化。
從百融雲創的發展經驗看,獲得多個國家專利和知識產權保護的創新性技術使得公司較早地開始商業化探索,高性能的產品和高質量的服務,使得公司在激烈的市場競爭中脱穎而出,公司目前客户涵蓋約5700家金融機構,優質的產品和服務也帶來了高用户留存(目前核心用户留存達91.6%),加之業務本身的規模效應,隨之而來的是高業績增長(2021年營收同比增長43%,EBITDA同比增長40%)。高增長和高留存為公司繼續深耕技術,迭代產品、優化服務提供土壤,企業可利用此優勢進一步築高護城河。這可能也是所有想要在這個千億規模市場分一杯羹的SaaS企業,可以借鑑的發展思路。