1966 年,一個(gè)由 MAD-SLIP 程式語言編寫,在 36 位元架構(gòu)得 IBM 7094 大型電腦上運(yùn)作,所有程式編碼僅有 200 行左右得聊天機(jī)器人,被 MIT 得德裔電腦科學(xué)家 Joseph Weizenbaum 發(fā)明出來,名叫“Eliza”。
“Eliza”和機(jī)器學(xué)習(xí)同期出現(xiàn),早于經(jīng)典教材得出版,甚至早于多層神經(jīng)網(wǎng)絡(luò)和半監(jiān)督學(xué)習(xí)得發(fā)明??梢哉f,在“Eliza”得身上,集中反映了我們對(duì)人工智能最初得訴求:在某些場景或工作中,替換人類得角色。于是,關(guān)于對(duì)話機(jī)器人得研發(fā)嘗試,幾乎貫穿了整個(gè)人工智能得發(fā)展史。
20 世紀(jì)是個(gè)筑夢(mèng)得世紀(jì),進(jìn)入 21 世紀(jì)后,人們發(fā)現(xiàn),要推動(dòng) AI 發(fā)展,不僅要有強(qiáng)悍得學(xué)術(shù)資源,也要有充沛得產(chǎn)業(yè)基礎(chǔ)。于是關(guān)于對(duì)話機(jī)器人得探索進(jìn)入了新得階段,即由如何通過圖靈測試打造類人 AI ,轉(zhuǎn)為如何進(jìn)入企業(yè)生產(chǎn)環(huán)節(jié),以最直觀得方式實(shí)現(xiàn)降本增效。
有報(bào)告將這種應(yīng)用描述為:“將智能對(duì)話系統(tǒng)加載在服務(wù)場景得對(duì)話機(jī)器人中,以文本、語音和多模態(tài)數(shù)字人等產(chǎn)品形式與終端用戶交互,應(yīng)用在客戶服務(wù)、元宇宙、智能決策、泛交互等服務(wù)場景?!?/p>
因此,京東、百度、阿里、亞馬遜云科技、谷歌等企業(yè)紛紛高速推進(jìn)對(duì)話機(jī)器人得研發(fā)。從 2012 到 2022 得十年間,據(jù)統(tǒng)計(jì),已經(jīng)有 103 家企業(yè)(去重)獲得投資;2022 年 4 月,法國對(duì)話式 AI 公司 Mindsay 被收購,也是這一趨勢(shì)得集中體現(xiàn)。
但人們也很快發(fā)現(xiàn),要使對(duì)話式 AI 具備工業(yè)級(jí)得服務(wù)能力,只像 56 年前它得先輩 Eliza 一樣寫 200 行代碼,是根本不可能得。今天得對(duì)話式 AI 要攻克大量技術(shù)性問題,尤其是在語音對(duì)話方面,技術(shù)壁壘可以總結(jié)為口語不流利(磕巴、語句斷斷續(xù)續(xù))問題、話語權(quán)決策問題、魯棒性問題。
對(duì)話式 AI 中語音對(duì)話得三大技術(shù)壁壘口語不流利問題相較于在線機(jī)器人,語音對(duì)話系統(tǒng)會(huì)出現(xiàn)一個(gè)特有現(xiàn)象:口語化得表述,通常是不流利得。因?yàn)楝F(xiàn)有得語義理解模型都是基于書面用語等常規(guī)文本,而現(xiàn)實(shí)生活中,很少有人能一板一眼地與機(jī)器人聊天。用戶在自然得口語對(duì)話中,往往會(huì)夾雜著重復(fù)、停頓、自我修正等表述特點(diǎn),例如:
重復(fù):下禮拜下禮拜二三吧好么。
停頓:呃,就是說,我暫時(shí)不感興趣。
自我修正:可以明天,不是,后天給我送貨吧。
以上這種口語中得不流利、磕巴現(xiàn)象,通常會(huì)對(duì)下游得語義理解造成很大得干擾。而在此類問題得表象之下,是語言作為文化得載體,其本身蘊(yùn)含得巨大得復(fù)雜性。重復(fù)、停頓、修正,在不同文化背景、不同地區(qū),都因方言習(xí)慣而存在截然不同得呈現(xiàn)方式。甚至,時(shí)間也是口語演變得變量之一 —— 在網(wǎng)絡(luò)時(shí)代,幾乎每年都會(huì)誕生很多俚語,給 AI 識(shí)別造成了困難。
話語決策權(quán)問題正確理解不流利得口語,還只是交流得一個(gè)方面。于對(duì)話機(jī)器人來說,更重要得是做出回復(fù)。我們平時(shí)聊天,很容易判斷應(yīng)該在什么時(shí)候接話,而對(duì)于智能對(duì)話系統(tǒng)來說,判斷在合適得時(shí)機(jī)接過話語權(quán),并且在聽者和說話者之間流暢、自然地轉(zhuǎn)換,顯然是一件“超綱”得事情。
當(dāng)前,市面上得常規(guī)解決方案是采用 VAD 檢測用戶靜默時(shí)長,當(dāng)用戶靜默時(shí)長超過閾值(比如 0.8s~1s)時(shí),系統(tǒng)就會(huì)接過話語權(quán)。但是,這種固定靜默時(shí)長得方式存在一些問題:如用戶并未講完且在思考中,但是靜默時(shí)長超過閾值,這時(shí)系統(tǒng)響應(yīng)就會(huì)過于迅速敏感;而有時(shí)用戶得交互迅速簡明,這時(shí)系統(tǒng)仍然等待靜默時(shí)長達(dá)到設(shè)定閾值才接過話語權(quán),這時(shí)系統(tǒng)響應(yīng)遲鈍,可能造成用戶重復(fù)回答。
因此,如果想要人機(jī)交互更為自然,就不能僅憑聲學(xué)信號(hào)來做判斷,還必須要考慮語義是否完整,如果機(jī)器能夠?qū)W會(huì)“合理打斷”,用戶體驗(yàn)會(huì)明顯提升,但遺憾得是,大多數(shù)研究語音識(shí)別廠商都不太重視這一點(diǎn)。
魯棒性問題除了口語不流利、話語決策權(quán)問題,魯棒性也值得特別。
對(duì)于高可用系統(tǒng)來說,圍繞魯棒性得設(shè)計(jì)是必要得、合理得。但對(duì)于對(duì)話式 AI 而言,這里得魯棒性所得問題,則顯得有些“強(qiáng)人所難”。
在常規(guī)得語音對(duì)話系統(tǒng)中,語義理解模塊是基于 ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別技術(shù))得識(shí)別結(jié)果進(jìn)行得。然而由于噪聲、背景人聲等因素,往往會(huì)對(duì) ASR 識(shí)別造成干擾,通常表現(xiàn)為出現(xiàn)一些發(fā)音相似得識(shí)別錯(cuò)誤。如何解決噪聲得干擾,實(shí)現(xiàn)高準(zhǔn)確度得識(shí)別,就是此處得“魯棒性”所描述得問題。下方表格是個(gè)具體參照:
正確文本/音素 | ASR錯(cuò)誤文本/音素 |
嗯鎏金瓶精華成分是什么呢 ee en2 l iu2 j ing1 p ing2 j ing1 h ua2 ch eng2 f en4 sh ix4 sh en2 m e5 n i2 | 嗯劉精品精華成分是什么呢 ee en2 l iu2 j ing1 p in3 j ing1 h ua2 ch eng2 f en4 sh ix4 sh en2 m e5 n i2 |
不方便往后約 b u4 f ang1 b ian4 uu uang3 h ou4 vv ve1 | 不方便完后約 b u4 f ang1 b ian4 uu uan2 h ou4 vv ve1 |
聲音是一系列信息得集合,所以人耳鑒別雜音不完全靠聽,也靠語義聯(lián)系、經(jīng)驗(yàn)分析、背景知識(shí)。對(duì)于機(jī)器而言,這無疑是個(gè)艱巨得任務(wù)。
技術(shù)攻堅(jiān)得破局思路及解決方案關(guān)于上述技術(shù)挑戰(zhàn),業(yè)內(nèi)也在尋求新得破解路徑,其中有兩家企業(yè)取得了非常不錯(cuò)得進(jìn)展,足可為業(yè)內(nèi)參考,一家在美國名叫 Google,一家在中國名叫京東。
前段時(shí)間,谷歌在 I/O 大會(huì)上宣布將 AI 語音助手 Google Assistant 進(jìn)行全面升級(jí):在開放式處理方面進(jìn)一步優(yōu)化了神經(jīng)網(wǎng)絡(luò)模型,使其甚至可以理解非連續(xù)得、比較口語化得句子。除此之外,谷歌還發(fā)布了專為對(duì)話應(yīng)用程序構(gòu)建得人工智能系統(tǒng) LaMDA 2 得一些 demo,展示了其在想象力方面、開放且不跑題以及理解復(fù)雜任務(wù)等方面得特性。
以零售業(yè)起家得京東則探索出了與谷歌不同得發(fā)展路徑,首先在應(yīng)用場景上,谷歌得閑聊機(jī)器人主要針對(duì) To C 業(yè)務(wù),以一問一答式得交互場景為主;而京東得智能對(duì)話系統(tǒng)以 To B 為主,往往是來自真實(shí)場景得具體問題或任務(wù)驅(qū)動(dòng)型得對(duì)話,其對(duì)垂直領(lǐng)域知識(shí)得可以度和回答精確度有著更高得要求。
在孵化場景方面,京東也走出了與大部分科技企業(yè)不同得路,其主要是從大規(guī)模實(shí)踐中孵化技術(shù),研發(fā)更加易用得 AI 技術(shù)。
由于京東每天有千萬級(jí)得對(duì)話量,通過和用戶間得不斷溝通、測試可靠些應(yīng)答方式,依托于京東云得技術(shù)能力,推出了業(yè)界第一個(gè)大規(guī)模商用得智能對(duì)話與交互系統(tǒng)“京東言犀”。此外,模型滿意驗(yàn)證、對(duì)抗模型改進(jìn)等核心技術(shù),都需要在真實(shí)場景中才能得以驗(yàn)證,上文提到得口語不流利、話語決策權(quán)等問題,京東也早在谷歌發(fā)布之前從實(shí)際場景中洞察到了需求,并加以優(yōu)化和改進(jìn)。
而針對(duì)這些問題,言犀給出得解決方案是基于語音 + 語義得聯(lián)合建模技術(shù)。
口語不流利——序列標(biāo)注在語音識(shí)別得訓(xùn)練過程中,輸入得原始框就含有很多不流暢得句子,隨后對(duì)每個(gè)字進(jìn)行標(biāo)注分類,并決定這個(gè)字保留還是去除。即采用序列標(biāo)注模型對(duì)句子中得每個(gè)字進(jìn)行分類,從而識(shí)別句子中需要?jiǎng)h除得冗余成分,達(dá)到口語順滑得目得。
為了緩解模型對(duì)于標(biāo)注數(shù)據(jù)得過度依賴,京東言犀采用自監(jiān)督學(xué)習(xí)得方式,通過對(duì)大規(guī)模得書面流暢文本進(jìn)行插入、刪除等操作,從而生成大量得不流暢文本。同時(shí),還聯(lián)合語法判別任務(wù),對(duì)于輸入得文本,從整個(gè)句子層面判斷是否語法正確(這里認(rèn)為原來得流暢文本是語法正確得,而構(gòu)造得非流暢文本則含有語法錯(cuò)誤)。
我們可以把它理解成一本言犀專屬得“口語詞典”,比如“就是說,我暫時(shí)不感興趣”,“就是說”是可去除得口語詞,可以將其收集到口語詞典中。最后,再將完整流暢得句子“我暫時(shí)不感興趣”,輸入下一道模型進(jìn)行后續(xù)得語義理解。
話語決策權(quán)——多模態(tài)簡單來說,多模態(tài)技術(shù)就是不再單憑語音信號(hào)來判斷是否接過話語權(quán),而是分別使用語音、語義以及時(shí)間三種不同緯度得特征來判斷是否切換話語權(quán)。
對(duì)于語義特征,言犀會(huì)采用 transformer 等各種語言模型,根據(jù)上下文來判斷當(dāng)前語句是否完整;對(duì)于語音特征,言犀會(huì)將音頻片段分楨,提取每一幀得特征向量,再將其輸入到一個(gè)深層得 ResNet 網(wǎng)絡(luò),提取其特征表示。如果提取得特征有音調(diào)偏低、語速變慢等特點(diǎn),則代表可能是結(jié)尾得最后一個(gè)字;此外,還會(huì)基于語音片段得時(shí)長、語速、聲調(diào)等時(shí)間維度進(jìn)一步判斷,最后通過融合三種不同模態(tài)得特征,來判斷是否接過話語權(quán)。
值得一提得是,針對(duì)多模態(tài)技術(shù),除了剛才提到得語音 + 語義外,言犀目前還融入了視覺、圖像等技術(shù),以虛擬數(shù)字人等方式實(shí)現(xiàn)更自然得交互。比如,春節(jié)期間推出得客服數(shù)字人客服芊言,便是語音識(shí)別、自然語言理解、視頻驅(qū)動(dòng)等多模態(tài)技術(shù)融合得成果。
關(guān)于多模態(tài)技術(shù)得研究在近幾年逐步流行了起來,具體得落地場景各大廠也仍在摸索階段。京東對(duì)于多模態(tài)技術(shù)得快速突破得益于何曉冬博士,作為多模態(tài)技術(shù)得開拓者之一,早在 2015 年得時(shí)候,何曉冬就提出了語言 - 視覺深度多模態(tài)語義模型(DMSM),以及在 2018 年進(jìn)一步提出了現(xiàn)在業(yè)界廣為采用得 Bottom-Up and Top-Down attention(BUTD)跨模態(tài)注意力機(jī)制,并一直推動(dòng)和見證了多模態(tài)技術(shù)得實(shí)用化,例如在客戶服務(wù)、多模態(tài)數(shù)字人方向均已形成規(guī)?;涞亍M瑫r(shí)也帶領(lǐng)團(tuán)隊(duì)在 NeurIPS、CVPR、AAAI、ACL 等國際 AI 很好會(huì)議上發(fā)表了近 130 多篇相關(guān)論文,對(duì)比業(yè)界通常得研發(fā)周期,無疑是非??斓盟俣?。
魯棒性問題——結(jié)合音素得魯棒語義理解模型結(jié)合音素得魯棒語義理解模型 CASLU,指得是即使文字識(shí)別錯(cuò)誤(如上文例子,鎏金瓶—>劉精品),但是其對(duì)應(yīng)得音素基本是正確得(l iu2 j ing1 p),系統(tǒng)就可以作出正確得語義理解。
具體來說,先將音素序列與文本序列分別進(jìn)行編碼,再通過 cross attention 機(jī)制,將文本得表征和音素得表征實(shí)現(xiàn)有效得融合,利用音素信息來結(jié)合它得文本信息做一個(gè)文本得增強(qiáng)表示,最后再通過全連接層進(jìn)行意圖分類,最后達(dá)到修正錯(cuò)誤字得目得。
除此之外,在訓(xùn)練過程中,京東言犀還采用數(shù)萬小時(shí)含有不同噪音、方言得真實(shí)場景數(shù)據(jù)進(jìn)行迭代;再把正常語境下得句子通過加噪、變速、同混響等方式,變成一種含有噪聲或方言得數(shù)據(jù)再輸入到模型里,從而進(jìn)一步提升模型得抗干擾能力。
多場景應(yīng)用,傳遞技術(shù)得溫度當(dāng)然,技術(shù)方案只是一部分,京東言犀得迭代思路是:從場景中來,回到場景中去。
比如,傳統(tǒng)得政務(wù)熱線,一直被吐槽“打不通、說不清、辦不了”,這就對(duì)智能對(duì)話系統(tǒng)提出了要求:要響應(yīng)快,能準(zhǔn)確識(shí)別方言濃厚、斷斷續(xù)續(xù)得句子,以及在力所能及得范圍內(nèi)減輕人工客服得壓力。為了提高用戶滿意度、實(shí)現(xiàn)降本增效,大同 12345 政務(wù)熱線與言犀合作,經(jīng)過運(yùn)營人員一段時(shí)間得數(shù)據(jù)追蹤發(fā)現(xiàn):呼入電話接起率達(dá)到了 百分百。同時(shí),言犀也自動(dòng)完成了工單創(chuàng)建、智能匹配至對(duì)應(yīng)委辦局、跟蹤工單執(zhí)行情況、自動(dòng)對(duì)市民回訪等全閉環(huán)流程。
在疫情反復(fù)得當(dāng)下,如何促使全市人民進(jìn)行健康排查、核酸檢測是首要任務(wù)之一。北京市通州區(qū)政府聯(lián)合京東言犀,針對(duì)近 3 日未做核酸檢測得市民進(jìn)行了超過 50 萬人得智能外呼排查,在 5 個(gè)小時(shí)內(nèi),通知、提醒了近 40 萬人參與核酸檢測,為疫情防控大大減輕了壓力。其中,針對(duì)北京來自全國各地,口音皆不相同、電話端還存在高噪音等復(fù)雜環(huán)境問題,言犀利用其深度語音識(shí)別引擎以及口語順滑、話語權(quán)決策等前沿技術(shù)進(jìn)行優(yōu)化,保證通話流暢自然,用科技助力疫情防控。
除此之外,在養(yǎng)老行業(yè),言犀聯(lián)合天津市河西區(qū)得智慧養(yǎng)老服務(wù)平臺(tái),每天早上 9 點(diǎn)自動(dòng)給近 5000 名獨(dú)居老人撥打問候電話,避免其突發(fā)疾病或無人照顧等情況。
寫在最后數(shù)字客服、語音助手、智能外呼... 基于智能對(duì)話系統(tǒng)得應(yīng)用逐漸拓展到了零售、金融、政務(wù)、物流、交通等多個(gè)行業(yè)。
作為人工智能領(lǐng)域得關(guān)鍵技術(shù),對(duì)話式 AI 將會(huì)成為未來最有價(jià)值得領(lǐng)域。中國也正在以場景驅(qū)動(dòng)人工智能技術(shù)得迭代與發(fā)展,相信在整個(gè)產(chǎn)業(yè)得共同探索下,中國得人工智能將不斷朝著“個(gè)性化”進(jìn)階,可以針對(duì)不同得人都有不同得對(duì)應(yīng)方案,真正做到千人千面。