亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

<input id="6zex2"><sup id="6zex2"></sup></input>

<tt id="6zex2"><tfoot id="6zex2"></tfoot></tt>

<strike id="6zex2"><var id="6zex2"></var></strike>

<menuitem id="6zex2"><dl id="6zex2"><input id="6zex2"></input></dl></menuitem>

<strike id="6zex2"></strike>

<samp id="6zex2"></samp>

超全面的語(yǔ)音交互知識總結（從原理、場(chǎng)景到趨勢）

發(fā)布時(shí)間：2026-05-04 15:31:52

超全面的(′▽?zhuān)?超全從原語(yǔ)音交互知識總結（從原理、場(chǎng)景到趨勢）

2019年全(quan)球語(yǔ)音交互市場(chǎng)規模達到13億美元，語(yǔ)音預計2025年全球語(yǔ)音交互市場(chǎng)規模將69億美元，交互景目前以廣泛應用到智能家居、知識總結車(chē)載(?_?;)語(yǔ)音、理場(chǎng)智能客服等行業(yè)和場(chǎng)景。趨勢筆者從事語(yǔ)音交互產(chǎn)品一年有余，超全從原針對語(yǔ)音(?????)交??互的???語(yǔ)音概念定義、優(yōu)劣勢、交互景適用場(chǎng)景和產(chǎn)品、知識總結未來(lái)發(fā)展等進(jìn)行梳理總結。理場(chǎng)

1.?? 什么是趨勢語(yǔ)音交互？

語(yǔ)音交??互（VUI）指的是人類(lèi)與設備通過(guò)自然語(yǔ)音進(jìn)行信息的傳遞。一??次完整的??超全從原語(yǔ)音交互需要經(jīng)歷ASR→NLP→Skill→TTS的流程：

（1）ASR

用于將聲學(xué)語(yǔ)音進(jìn)行分析，并得到對應的語(yǔ)音文字或拼音信息。語(yǔ)音識別系統一般分(╥_╥)訓練和解碼兩階段：

訓練即通過(guò)大量標注的交互景語(yǔ)音數據訓練數學(xué)模型，通過(guò)(╯‵□′)╯大量標注的文本數據訓練語(yǔ)言模型；解碼，即通過(guò)聲學(xué)和語(yǔ)言模型將語(yǔ)音數據識別成文字。

聲學(xué)模型可以理解為是對發(fā)生的建模，它能夠把語(yǔ)音輸入轉換成聲學(xué)表示的輸入，更準確的說(shuō)是??給(gei)出語(yǔ)音屬于某個(gè)聲學(xué)符號的概率。語(yǔ)言模型的作用(′?｀)可以簡(jiǎn)單理解為消解多音字問(wèn)題，在(′ω｀)聲學(xué)模型??給出發(fā)音序列之后，從候選的文字序列中找出概率最大(da)的字符串序列。

（2）NLP

用于將用戶(hù)的指令轉換為結構化的、機器可以理解的語(yǔ)言。NLP的工??作邏輯是：??將用(yong)戶(hù)的??指令進(jìn)行Domain（領(lǐng)域）→ヾ(?■_■)ノIntent（意圖）→Slot（詞槽）三級拆分。

以“幫我設置一個(gè)明天早上8點(diǎn)的鬧??鐘”為例：該指令命中的領(lǐng)域是“鬧鐘”，意??圖(tu)是“新建鬧鐘”，詞槽是“明天8點(diǎn)”。這樣，就將用戶(hù)的意圖拆分成機器可以(yi)處理的語(yǔ)言。

（3）S??kill

也即AI時(shí)代的APP。Skill的作用就是：處理NLP界定的用戶(hù)意圖，做出符合用戶(hù)預期的反饋。

（4）TTS

即語(yǔ)音合成，從文本轉換成語(yǔ)音，讓機器說(shuō)話(huà)。TTS業(yè)?內普遍使用兩種做法：一種是拼接法，一種是參數法。

拼接法即從事先錄制的大量語(yǔ)音中，選擇所需的基本發(fā)音單位拼接(jie)而成。優(yōu)點(diǎn)是語(yǔ)音的自然度很好，缺點(diǎn)是成本太高，費??用(′▽?zhuān)?)成本要上百萬(wàn)。參數法指使用統計模型來(lái)( ?ヮ?)產(chǎn)生語(yǔ)音參數并轉化成波形。優(yōu)點(diǎn)是成本低，一般價(jià)格在20萬(wàn)~60萬(wàn)不等，缺點(diǎn)是發(fā)音的自然度沒(méi)有拼接法好。但是隨著(zhù)模??型的不斷優(yōu)化，現在參數法的效果已經(jīng)非常好了，因此業(yè)內使用參數法的越來(lái)越多。

2. 語(yǔ)音交互有哪些優(yōu)劣勢？

PART 1: 語(yǔ)音交互的優(yōu)勢

優(yōu)勢1：信息傳遞效率高

百度語(yǔ)音開(kāi)放平臺的研究結果顯示，相比于傳統的鍵盤(pán)輸入，語(yǔ)音輸入方式在速度及(ji)準確率方面更具優(yōu)勢。利(′?_?`)用語(yǔ)音輸入英語(yǔ)和普通話(huà)的速度分別是傳統輸入方式的3.24倍和3.21倍，信息傳遞效率進(jìn)一步可拆分為4類(lèi)ヽ(′▽?zhuān)?ノ：

檢索高效：針對復雜的輸入詞，尤其是在輸入方式不便的場(chǎng)景下，語(yǔ)音交互更高效。例如電視場(chǎng)景下進(jìn)行電影搜索?？缈臻g┐(′д｀)┌便捷：遠場(chǎng)語(yǔ)音交互可以跨3~5米進(jìn)行交流，針對需要跨空間的操作，語(yǔ)音交互更高效，(′ω｀*)例如：智能家(jia)居控制?？鐖?chǎng)景便捷：語(yǔ)音交互的潛在好處??時(shí)可以根據說(shuō)話(huà)內容自動(dòng)判斷意圖場(chǎng)景，在需要頻繁跨場(chǎng)景交互的場(chǎng)景下語(yǔ)音交互更高效。支持組合指令：語(yǔ)音交(╯°□°)╯互可以一次性下達多條指令，然后分別執(╬?益?)行，在??需要支持多意圖同時(shí)傳遞的場(chǎng)景下語(yǔ)音交互更高效。假設你今(′▽?zhuān)?)晚想要看一部電影，你可以選擇說(shuō)：“播放劉德華的電影電影要四星以上并且是免費觀(guān)看的?！?p style='position:relative;'>優(yōu)勢2：解放雙手和雙眼

通過(guò)??語(yǔ)言交互可以將手和眼睛空起來(lái)處理其他事情，??在需要多感官協(xié)同的場(chǎng)景下效率更高。例如：車(chē)載場(chǎng)景通過(guò)語(yǔ)音點(diǎn)播音樂(lè )，醫療場(chǎng)景醫生在溝通病情的同時(shí)記錄病歷，工??業(yè)場(chǎng)景在雙手占用的同時(shí)下達指令。

優(yōu)勢3：使用門(mén)檻低

非文字使用者友好：人類(lèi)是先(?????)有語(yǔ)音再有文字，每個(gè)人都會(huì )說(shuō)話(huà)但有一部分人不會(huì )寫(xiě)字，針對老人、小孩、失明的人群，無(wú)法使用文字交互，語(yǔ)音交互會(huì )為其帶來(lái)極大的便利。學(xué)習成本低：語(yǔ)音交互更自然，在非復雜場(chǎng)景下，語(yǔ)音交互比界面交互更自然，上手成本更低。

優(yōu)勢4：傳遞聲學(xué)信息

聲紋識人：通過(guò)聲紋可以進(jìn)行身份判斷，并且可以在下達指令的同時(shí)進(jìn)行身份判斷，效率更高。同時(shí)聲音還可以判斷性別、年齡層、情緒等信息。聲音傳遞情感：聲音交互可以??傳遞情感，因此在有情感訴求的場(chǎng)景下，聲音是一個(gè)很好(hao)的選擇。

PART 2：語(yǔ)音交互的劣勢

劣勢1：信息接收效率低

語(yǔ)音輸出是線(xiàn)性的，當別人說(shuō)話(huà)時(shí)，你可能得等全部說(shuō)完后才能理解，無(wú)法像文字一樣可以跳過(guò)閱讀；語(yǔ)音交互也會(huì )增加用戶(hù)的記憶負擔，尤其是面臨??多項選擇并且選項內容較長(cháng)時(shí)。

因此它無(wú)法同時(shí)輸出很多內容，在接受信息和多選擇交互時(shí)，視覺(jué)具有更大的優(yōu)??勢，聲音的效率不高?？偨Y來(lái)講，語(yǔ)音(′ω｀)交互針對單向指令是更有效的，而雙向交互不是很有效。

劣勢2：嘈雜環(huán)境下語(yǔ)音識別精度降低

語(yǔ)音識別需要清晰的識別出人聲，包括將人聲和環(huán)境聲進(jìn)行分離，將人聲和人聲進(jìn)行分離。嘈雜??環(huán)境使得人聲的提取變得非常困難，尤其是針對遠場(chǎng)語(yǔ)音交互，噪音的問(wèn)題更加突出。

目前業(yè)??內普遍使用麥克風(fēng)陣列硬(╯°□°）╯︵ ┻━┻件和相關(guān)算法來(lái)優(yōu)化該問(wèn)題，但是無(wú)法完全解決，例如遠場(chǎng)安靜環(huán)境下語(yǔ)音識別準確率能達到95%，但是在嘈雜環(huán)境下僅能達到80%出頭。但是隨著(zhù)技術(shù)的進(jìn)度，嘈雜環(huán)境下的遠場(chǎng)語(yǔ)音識別準確度也肯定會(huì )逐步完提升。

劣勢3：公開(kāi)環(huán)境下語(yǔ)音交互具??有心理負擔

語(yǔ)音交互的心理障礙是用戶(hù)不能預設和預先判斷。在同一情況下，不同的人可能會(huì )產(chǎn)生完全不同的行為和期( ?° ?? ?°)望。這給設計者帶來(lái)了很大的麻煩，也給用戶(hù)帶來(lái)了不確定性??。從心理體驗來(lái)看，沒(méi)有多少人愿意對著(zhù)機器說(shuō)話(huà)，因為有可ヽ(′?｀)ノ能會(huì )(hui)得到毫無(wú)感情甚至是錯誤的反應

3. 語(yǔ)音交互適合什么場(chǎng)景和設備？

原則1：每個(gè)設備類(lèi)型僅考慮起本身的功能，不考慮因為入口性質(zhì)附加的額外功能，例如智能音箱，現在除了音箱屬性，被賦予了天氣、智能家居等其他屬性。未來(lái)形態(tài)下家庭語(yǔ)音入口會(huì )分布式的，智能音箱被賦予的生活助手的角色也會(huì )被剝離。

原則2：設備的功能考量時(shí)會(huì )考慮現在還不具備但是以后會(huì )延展的相關(guān)功能，例如冰箱，支持查詢(xún)冰箱內的物品??情況。

加分項：

需要復雜的信息輸入：輸入指令不能被窮舉，則得分最高，如果僅簡(jiǎn)單的輸入指令，則得分低；使用對象雙手或雙眼被占用；使用對象為非文字使用者：如果使用人群里老人、小孩和失明人群較多，則得分高，反之得分低；需要跨短距離空間的操作：如果有實(shí)體按鍵，則得分高，如(ru)果可遠程遙控則得分次之，而且皆無(wú)，則不得分；原信息輸入的工具比較受限：輸入(′▽?zhuān)?)方式的便利程度觸屏>遙控>按鈕；需要跨意圖指令輸入：如果需要同時(shí)或者相繼發(fā)出不同意圖的指令則得分高，??反之得分低；使用頻次：基本每天都要使(shi)用得分最高，每周3次左??右次之，低于每周一次不得分；設備與聲音的關(guān)聯(lián)度：如果設備本身就是播放多媒體內容的得分高，其他的不得分；需要聲音傳遞額外信息：例如聲紋、發(fā)音評測。

減分項：

環(huán)境私密程度低：例如辦公場(chǎng)景；環(huán)境嘈雜：例如商場(chǎng)場(chǎng)景；涉及到多層次交互（觸屏可彌補）：例如點(diǎn)外賣(mài)；涉及到多條目選擇（觸屏可彌補）：例如購物；涉及到重要/隱??私信息傳達（屏幕可彌補）：例如取款機。

下表為各的場(chǎng)景和設備適合語(yǔ)音化的得分：

（1）家居場(chǎng)景

家庭環(huán)境比較封閉和私密，并且噪音少，是實(shí)現語(yǔ)音交互的很好環(huán)境。

電視：機頂盒視為和電視同類(lèi)，電視本身普及率及使用頻次高，生態(tài)內容豐富使得其操作相對復雜，但又受限于遙控器這種低效的輸入方式，使得電視成為最適合進(jìn)行語(yǔ)音改造的設備，但是受囿于價(jià)格昂貴，嘗鮮門(mén)檻高，所以改造的節奏相對較慢，但是新一代的電視語(yǔ)音化肯定是不可阻擋的趨勢。平板：市面上目前流(′?_?`)行的┐(′?｀)┌帶屏音箱，更合適的說(shuō)法應該是語(yǔ)音平板。音箱：音箱因為其低廉的成本（無(wú)需屏幕和視頻??資(╯°□°）╯︵ ┻━┻源）而率先引爆市場(chǎng)。燈：雖然指令簡(jiǎn)單，但是因其操作頻ヽ(′ー｀)ノ繁且需要起身走(°□°)到面前操作，跨空間成本高，使得燈具(ju)被語(yǔ)音化的訴求也較高。但是燈最適合的語(yǔ)音化是本地離線(xiàn)指令，也即通過(guò)“開(kāi)燈”、”關(guān)燈”本地直接識別并控制燈具，無(wú)需加喚醒詞，也無(wú)需先傳到云端，云端處理完再傳到本地，更簡(jiǎn)潔更快速?？照{：空調因此相對高頻的使用和較┐(′ー｀)┌為復雜的指令，和燈具類(lèi)似具備一定的語(yǔ)音化必要。冰(╬?益?)箱：基本沒(méi)有語(yǔ)音化必要，除非冰箱承載的功能做了極(ji)大延┐(′?｀)┌展，例如冰箱增加屏幕，同時(shí)作為餐廳的電視使用，那么其語(yǔ)音化的必要性與電視一致。洗衣機：基本沒(méi)有語(yǔ)音化必要。

（2）車(chē)載場(chǎng)景

隨著(zhù)車(chē)聯(lián)網(wǎng)和智能汽車(chē)的興起，越來(lái)越多的功(//ω//)能(neng)被搭載在車(chē)機上。層出不窮的功能和日(T_T)趨復雜的界面形成??了對駕(′ω｀)駛者注意力的爭奪，新的矛盾由此誕生。車(chē)載語(yǔ)音技術(shù)的??獨特優(yōu)勢——幫助駕駛者降低對車(chē)內設備的操作??依賴(lài)，增加(jia)駕駛安全系數。

車(chē)載場(chǎng)景相對比較私密，但是噪音相??比家??庭場(chǎng)景較高，尤其是當開(kāi)窗之后??風(fēng)噪更大。但是因為開(kāi)??車(chē)時(shí)手和眼睛都被占用，語(yǔ)音成為交互的最佳選擇，如接聽(tīng)電話(huà)、開(kāi)關(guān)車(chē)窗、廣播音樂(lè )、路線(xiàn)導航等語(yǔ)音指令，這就使得駕駛更加安全，可以更專(zhuān)注于路況。

車(chē)載常用語(yǔ)音功能如下：

（3）醫療場(chǎng)景

病歷錄入：(?????)語(yǔ)音識別(???)在醫療中的應用主要集中在直接將語(yǔ)音轉成結構化電子病歷，方便醫生隨時(shí)查閱，大大減輕了工作量?？梢詾獒t生節省手寫(xiě)病歷的時(shí)間，同時(shí)也可(//ω//)以為醫患糾紛提供材料佐證。

語(yǔ)音識別技術(shù)已經(jīng)在以美國為首的西方國家成功運用到醫院放射科、病理科、急診室等部門(mén)中，ˉ\_(ツ)_/ˉ臨床中使用語(yǔ)音識別錄入的比例已達到20%以上，并能夠明??顯降低醫生工作??強度，提高工作效率，降低了醫院日常運作成本。醫??療業(yè)務(wù)營(yíng)收占全球最大的語(yǔ)音技術(shù)公司Nuance全部營(yíng)收的50%。

（4）企業(yè)場(chǎng)景

智能客服：智能客服分為語(yǔ)音呼叫中心和在線(xiàn)客服兩塊來(lái)看。在客戶(hù)服務(wù)行業(yè)，當用戶(hù)請求接入后，先由智能客服機器人解答80%的常見(jiàn)問(wèn)題，剩下20%復雜問(wèn)題再由真人專(zhuān)家客服來(lái)回答解決。智能客服機器人創(chuàng )造的整套流程已經(jīng)完全改變了整個(gè)客服行業(yè)的勞動(dòng)力結構和工作方式。

目前，中國大約有500萬(wàn)全職客服，以年平(ping)均工資6萬(wàn)計算，再加上硬件設備和基礎設施，(⊙_⊙)整體規模約4000億人民幣。按照40-50%的替代比例，并排除場(chǎng)地、設備等基礎設施以及甲方預算縮減，大概會(huì )有200-300億規模留給智能客服??公司。AI對企業(yè)服務(wù)市場(chǎng)的變革并不僅限于客服場(chǎng)景，以企業(yè)和用戶(hù)溝通為橋梁和入口，智能客服公司可以延伸到營(yíng)銷(xiāo)、銷(xiāo)售等重要的ヽ(′▽?zhuān)?ノ企業(yè)服務(wù)外部場(chǎng)景，從交互方式、流程優(yōu)化、數據分析等角度推動(dòng)企業(yè)外部服務(wù)的全面智能化，從而釋放100-200億的原有營(yíng)銷(xiāo)、銷(xiāo)售等市場(chǎng)規模。除了取代部分人工的客服機器人ヽ(′ー｀)ノ，AI也在變革企業(yè)傳統的線(xiàn)下客服交互方式。隨著(zhù)智能設備、物聯(lián)網(wǎng)的普及，各種設備ヽ(′ー｀)ノ也將成為企業(yè)服務(wù)客戶(hù)的入??口和新興場(chǎng)景，智能客服公司、尤其是AI公司有機會(huì )在千億智能設備交互市場(chǎng)中分得200-300億規模。

（5）教育場(chǎng)景

語(yǔ)音ヾ(′ω｀)?平板：在少兒教育場(chǎng)景，語(yǔ)音可以發(fā)揮的空間會(huì )非常大，一方面少兒的文字學(xué)習??還沒(méi)有非??常完善，因此在信息錄入和互動(dòng)方面，語(yǔ)言是更低門(mén)檻的交互選擇，另一方面，語(yǔ)音可以進(jìn)行中英文發(fā)音的測評??和糾正，對少兒的學(xué)習成長(cháng)(′?｀*)價(jià)值更大。

互動(dòng)語(yǔ)言學(xué)習：針對語(yǔ)言發(fā)音，進(jìn)行實(shí)時(shí)評測和糾正，提升學(xué)ヾ(′?｀)?習效果；互動(dòng)動(dòng)畫(huà)：在動(dòng)畫(huà)中插入場(chǎng)景化語(yǔ)音交互，寓教于樂(lè )，提升少兒的沉浸感。

（6）出行場(chǎng)景

智能耳機：搭配(′?_?`)工具來(lái)進(jìn)行語(yǔ)音交??互會(huì )使得私密性更強而且更加方便。耳機作為本身就是穿戴中的一種產(chǎn)品，攜帶方便，決定了它有更多自然的使用場(chǎng)景，耳機這樣私人且私密化很強的產(chǎn)品，無(wú)論人們是在上班通勤、戶(hù)外運動(dòng)還是在ヾ(′▽?zhuān)??旅行時(shí)也┐(′д｀)┌能保持ヽ(′▽?zhuān)?ノ更高┐(′д｀)┌的使用率，戴在耳朵上的耳機，離人的語(yǔ)言器官很(╯°□°）╯︵ ┻━┻近，當你和耳機進(jìn)行語(yǔ)音交互的時(shí)候，更像是和朋友交談。

使用耳機來(lái)與手機的語(yǔ)音交互模式連接時(shí)，是不是也可以使用一些動(dòng)作??來(lái)喚醒它，例如：去敲擊耳機，通過(guò)這類(lèi)動(dòng)作去喚醒可能會(huì )比喊它更加的自(′；д；`)然，即使在公共場(chǎng)合也會(huì )避免尷尬出現。

（7）機器人

語(yǔ)言交互是人類(lèi)日常最常用的交互方式，機器人自然要集成語(yǔ)音交互的功能。機器人分為消費級機器人和商戶(hù)級機器人，消費級機器人使用語(yǔ)音傳遞情感和提升交互效率，商戶(hù)級機器人使用語(yǔ)音傳遞品牌感和提升服務(wù)效率。

（8）安全與鑒權┐(′?｀)┌

聲紋：是無(wú)感知的身份識別，聲紋識別的理論基??礎是每一個(gè)聲音都具有獨特的特征，通過(guò)該特征能將不同人的聲音進(jìn)行有效的區分。

美國研究機構已經(jīng)表??明在某些特點(diǎn)的環(huán)境下聲紋可以用來(lái)作為有效的證據。并且美國聯(lián)邦調查局對2000例與聲紋相關(guān)的案件進(jìn)行統計，利用聲紋作為證據只有0.31%的錯誤率。目前(qian)利用聲紋來(lái)區分不同人這項技術(shù)已經(jīng)被??廣泛認可，并且在各個(gè)領(lǐng)域中都有應用。

聲紋常常應用于刑偵破案、罪犯跟蹤、國防監聽(tīng)、個(gè)性化應用等等ヾ(′?｀)?，說(shuō)話(huà)人確認技術(shù)常常應用于證券交易、銀行交易、公安取證、個(gè)人電腦聲控鎖、汽車(chē)聲控鎖、身份證、信用卡的識別等。

4. 語(yǔ)音交互與其他(ta)交互方式的融合？

語(yǔ)音交互有著(zhù)信息接收效率低、嘈雜環(huán)境識別精度(′▽?zhuān)?)低、公開(kāi)環(huán)境心理負擔的劣勢，因此在很多場(chǎng)景下純語(yǔ)音交互很受限，但是這ヽ(′?｀)ノ些交互方式(°ロ°) !是可以通過(guò)其他交互進(jìn)行彌補的。(′ω｀*)

（1）語(yǔ)音輸入/視覺(jué)化輸出

近些年，市面上有許??多產(chǎn)品合入了語(yǔ)音輸入，其中有很多是有顯示屏??的產(chǎn)品。在這些產(chǎn)品上，我們允許用戶(hù)語(yǔ)音輸入，而用界面顯示輸出的信息。

語(yǔ)音智能電視也是一個(gè)很好的例子。它們沒(méi)有能夠支持復雜輸入的硬件設備，而本身又(′ω｀)有足夠多的功能足以支(zhi)撐自然語(yǔ)義查詢(xún)。比如通過(guò)(guo)語(yǔ)音直接說(shuō)“播放流浪地球”，要比用遙控器上的十字箭頭方便多了。

語(yǔ)音智能屏幕是另外一個(gè)例子，從18年下半年語(yǔ)音智能屏幕開(kāi)始流行，主要針對老(lao)人和小孩的人群，對老人的價(jià)值在于可以通過(guò)語(yǔ)音交互，搜索想看的影視內容，對兒童的價(jià)值，在于語(yǔ)(╥_╥)音溝通、影(?Д?)視播控以及聲音的評測。

實(shí)際上，??那些有(⊙_⊙)復雜功能，需要復雜輸入，而這些輸入都可以用語(yǔ)音命令代替，同時(shí)返回的結果不適合機讀出來(lái)的系統，都適合使用語(yǔ)音作為輸入方式，而用視覺(jué)作為輸出方式。

（2）混合模式

許多設備都在朝著(zhù)混合模式的方向發(fā)展，它們會(huì )將語(yǔ)音、物理輸入和屏幕、語(yǔ)音輸出結合。導航app就是一個(gè)將這些交互手段結合的(′_｀)典型例子。

用戶(hù)能夠觸控拖動(dòng)地圖來(lái)查看，用物(wu)理按鍵或虛擬鍵盤(pán)輸入。當駕車(chē)??時(shí)，可以通過(guò)直接說(shuō)目的地名稱(chēng)來(lái)開(kāi)啟導航，用這種方式用戶(hù)可以不用將目光移向屏幕或用手來(lái)操作。語(yǔ)音輸出可以輸出導航的命令指示，而例如周?chē)缆?lu)擁堵?tīng)顩r等較為難以描述的信息可以使用屏幕顯示。

這是一種很好的輸入輸出結合方式，每種交互方式都將自己的優(yōu)勢發(fā)揮出來(lái)。整個(gè)導???航系統會(huì )根據用戶(hù)需求和(he)信息的復雜程度來(lái)選擇信息的呈現方式，一方面，(╯‵□′)╯用戶(hù)在特定場(chǎng)景下可以不用手眼就能操作，而同時(shí)用戶(hù)也能選擇在另一些場(chǎng)景下使用屏幕。

但這種方式的設計還很少見(jiàn)，因為(wei)上述的方式是基于對用戶(hù)的使用方式有深刻理(li)解的基礎上??的。導航系統在汽車(chē)內使用語(yǔ)音還是一個(gè)比較明顯的場(chǎng)景，但不是所有的產(chǎn)品都有一個(gè)明確的使用ヽ(′▽?zhuān)?ノ環(huán)境，所(suo)以判斷什(shen)么情況下使用語(yǔ)音交互(′?ω?`)是比較困難的。

5. 語(yǔ)音交互的未來(lái)

雖然目前的語(yǔ)音識別技術(shù)已經(jīng)能夠讓機( ?ヮ?)器聽(tīng)懂大部分人類(lèi)的聲音，但離“賈維斯”這種假想的超級智能助理的交互能力還很遠，語(yǔ)音識??別技術(shù)的發(fā)展方向將從識別到感知認知。

趨勢1：免喚醒交互

遠場(chǎng)語(yǔ)音交互，出于意圖識(shi)別考慮，增加喚醒詞作為對話(huà)開(kāi)始的條件，但是喚醒詞也無(wú)形中增加了溝通的成本。尤其是在一些多輪次交互方案中，例如：你想看電影，主流程需要“我要看電影”-“播放第3個(gè)”-“全屏”-“快進(jìn)3分鐘”，如果每次都要喚??醒，用戶(hù)體(ti)驗很差，部分情況反而不如遙控器效率(╯°□°)╯高。因此在特定多流程場(chǎng)景下迫切需要免喚醒交互。

趨勢2：離(????)線(xiàn)語(yǔ)音識別

離線(xiàn)語(yǔ)音識別指的是在本地直接進(jìn)行指令的識別??和處理，而無(wú)需連接到云端，好處是一方面無(wú)需(?⊿?)喚醒詞(°ロ°) !，另??一方面無(wú)需聯(lián)網(wǎng)，(?_?;)速度快。針對燈、空調、電視等設備，采用離線(xiàn)指令識別體驗更好，例如??直接對設備說(shuō)“開(kāi)燈”和“關(guān)燈”可以快速實(shí)現臺燈的開(kāi)和關(guān)。

趨勢3：多通道交互

IO??T時(shí)代家庭的聯(lián)網(wǎng)設備越來(lái)越多，但是體驗(O_O)提升有限，直到IOT有了語(yǔ)音AI的加持，徹底宣告AIOT時(shí)代的到來(lái)，通過(guò)語(yǔ)音設備可以控制聯(lián)網(wǎng)設備，進(jìn)一步促進(jìn)了家庭智能設備的滲透和覆蓋，2018年中國智能音箱銷(xiāo)售量約2200萬(wàn)臺，隨著(zhù)家庭智能設備的越來(lái)越多，用戶(hù)的需求也逐步出現新的特征。

第1：需求往往都是非單一任務(wù)，而是多任務(wù)聚合；第2：需要多設備之間的聯(lián)動(dòng)；第3：服務(wù)狀態(tài)可以持續性遷移，無(wú)論是跨時(shí)間還是空間。

多通道交互就是綜合使用多種輸入通道和輸出通道，用最恰當的方??式傳遞服務(wù)，滿(mǎn)足用戶(hù)需求。

通俗一點(diǎn)講，多模態(tài)互動(dòng)就是將智能設備的通道進(jìn)行注冊和管理，根據用戶(hù)的需求，給不同的通道分配相應的任務(wù)，以期用最恰當的方式去滿(mǎn)足用戶(hù)需求。例如：將智能音箱和電視作為一個(gè)系(′?ω?`)統進(jìn)行多通道交互，可以綜合使用它們5個(gè)輸入和輸出通道。舉個(gè)最簡(jiǎn)單的例子：當我問(wèn)┐(′?｀)┌音箱天氣的時(shí)候，可以將??天氣的圖形通過(guò)(′▽?zhuān)?)電視進(jìn)行顯示和播報，更用戶(hù)更直觀(guān)的體驗。

MCUI在家庭場(chǎng)??景落地的最典型案例，就是智能音箱和機頂盒??的組合，可以實(shí)現??帶屏智能音箱的所有功能，并且體驗更佳。

一方面成本更低，一個(gè)(′_ゝ`)無(wú)屏音箱100元以?xún)?，帶屏智能音箱需?00元左右。另一方面大屏觀(guān)看體(ti)驗更佳，針對兒童教育場(chǎng)景，大屏不容易造成近視，并且父母的可管控型(xing)更強，因此智能音箱+機頂盒的產(chǎn)品體驗，以后一定會(huì )成為主流。

上一篇：龍巖住房和城鄉建設局_龍巖網(wǎng)站建設要多_1

下一篇：高端網(wǎng)站定制開(kāi)發(fā)_網(wǎng)站定制建設哪家正規好_2

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费满城县| 东宁县| 玛纳斯县| 巩留县| 绥宁县| 河曲县| 渝北区| 沛县| 景泰县| 台南县| 宁阳县| 岚皋县| 平潭县| 晋宁县| 凤台县| 灵山县| 武山县| 湖口县| 广东省| 越西县| 西乌| 莫力| 汉中市| 托里县| 西青区| 江源县| 西乌珠穆沁旗| 若尔盖县| 平乐县| 谷城县| 福州市| 翼城县| 称多县| 富顺县| 峡江县| 秦皇岛市| 满城县| 乐山市| 沛县| 察雅县| 资溪县| http://444 http://444 http://444 http://444 http://444 http://444

<tt id="3ulfa"><dd id="3ulfa"></dd></tt>

<samp id="3ulfa"></samp>

<menuitem id="3ulfa"></menuitem>

<strike id="3ulfa"><code id="3ulfa"><nobr id="3ulfa"></nobr></code></strike>

<strike id="3ulfa"><var id="3ulfa"><em id="3ulfa"></em></var></strike>