<optgroup id="szvsc"></optgroup>
<code id="szvsc"><small id="szvsc"></small></code>
<optgroup id="szvsc"><small id="szvsc"></small></optgroup>
<sup id="szvsc"></sup>
  • <progress id="szvsc"></progress><div id="szvsc"><tr id="szvsc"></tr></div><dl id="szvsc"><menu id="szvsc"></menu></dl>
    ×
    感謝您支持199IT發展,可加入199IT知識交流群3000+用戶,最有價值分享和討論!
    點擊即可加入!
    關閉

    語音交互的前世今生

    我們是怎么選用交互方式的?

    我們為什么要使用語音交互?我們為什么在開車時用語音導航?我們為什么喜歡調戲Siri?

    為什么我們不用語音交互?為什么我們不用語音辦公?

    在這篇文章里,作者將簡單為你介紹語音交互的利與弊~

    一、語音交互怎么出現的?

    交互方式是怎么出現的呢?原始的交互方式,是人和人用語言、動作、眼神交互,人與物用動作交互,比如說我們的祖先要用石頭去砸開水果。

    當機器出現后,我們開始研究如何更好地操作機器。從人機交互歷史來看,剛開始的時候并沒有人機交互的理念,機器非常難操作,是需要人來適應機器。比如說我們用的“QWERTY”鍵盤,之所以會流傳開來是因為這種非人的設計可以降低打字速度,避免打字機的自桿鍵在快速輸入時容易碰撞。

    現在已經很少有這樣的設計了,機器適應人類,提高人的效率的理念得到發展,我們喜歡的是自然和人性化的交互方式。在計算機領域,從命令行界面進入到圖形用戶界面是一大突破,圖形界面的學習成本較低。隨后發展到目前的主流操作方式觸控,使用手指在屏幕上滑動點按。語音交互界面(Voice User Interface,VUI)、手勢、動作、表情交互,甚至腦機接口,都屬于自然用戶界面(NUI),就更自然簡單了。

    人類最早的交互方式就是語言和動作,在自然交互方式的趨勢下,我們走了一圈,又回到了語言交互了。

    交互方式的變化

    從載體上分,語音交互以手機或電腦為載體,或以其他硬件為載體。

    語音交互的載體

    二、語音交互好還是不好?

    問題一:GUI和VUI誰效率高?

    什么是好的交互方式?

    在筆者看來,高效的交互方式就是好的交互方式。任何交互方式,我看重的都是讓我能夠又快、又好、又不累地完成目標,提高我的使用表現。

    我們把評價的維度拆解一下,從速度、準確性、注意負荷三個維度衡量語音交互,是否能讓用戶完成任務的速度更快、更準確,并且占用最少的注意負荷。

    我們來看幾種情況,比較一下GUI和VUI的效率。

    輸入文本:

    語音交互的效率極高,因為人說話的速度比打字快,且用語音來輸入文本的時候不需要分心看屏幕,比打字輸入更省事,接近人和人聊天。

    缺點是準確性,考慮到打字輸入也有錯誤,語音交互在輸入文本表現不錯,因此很多產品都會在文本輸入處加上語音入口。

    布置任務:

    如果我們想用手機叫個車回家,用Siri,還是用手指操控更快?語音交互理論上更快,喚醒Siri并說句話,就不需要打開APP再點選。

    那為什么我們不用Siri打車呢?問題在于在現有狀況下,語言是很模糊的,人可以聽懂模糊語言,但機器的理解力很差,如果命令語言出現偏差,就會導致任務失敗,語音助手聽不懂你的意思。如果輸出錯誤就更不用說了。怎么用Siri打車?說“我要打車回家?”還是“打開滴滴并打車回家?”還是“我要去某某小區”?如果語音助手三次都聽不懂命令,我還會繼續嘗試嗎?相比之下圖形界面太精準友好了,我只要打開app,找到熟悉的入口點下單就可以了。

    輸出信息:

    噩夢。

    相比圖形界面,語音是一種不太合格的輸出方式。

    天生的缺陷是語音不能輸出視覺信息,Siri如何用她的聲音告訴你一張圖片是啥樣的呢?而我們大部分的信息來自于視覺。

    最重要的是,它過于緩慢和效率低下了。聽一段話和讀一段文字哪個比較快?語音客服系統就是這種浪費時間的方式。聽覺是線性的,我們只能聽完一句話再聽下一句,不能像視覺一樣瞬間完成圖片加工,也不能像讀文字那樣可以跳過,看最重要的信息就好了。而且聽語音會消耗大量注意和記憶資源,假想我們現在在打自動客服電話,沒有聽清,只能重聽按0,這時候是非常讓人崩潰的。

    問題二:語音交互適合在哪里使用?

    看情況,雙手被占用的場合是非常合適的,比如駕駛、烹飪、玩游戲。一開始我們提出的問題是是,為啥我們開車要用語音導航?因為開車時眼睛需要看路,雙手握著方向盤,但這是不妨礙說話和聽聲音的。很多人使用FM類產品是早上化妝、或者走路的時候,這個時候雙手不方便,但是語音通道是打開的。

    在輸出層面上,語音輸出適用于緊急和重要的通知。比如說突然著火了,是用大喇叭通知效果好,還是顯示在屏幕上的效果好?我們用支付寶轉賬的反饋也是用語音播報的。

    問題三:語音交互的好處都有啥?

    語言是最自然的交互方式,人人都會說話,門檻極低,開口就能用,小孩子可以和音箱玩耍,尤其對于輸出困難人群,例如視力障礙人群等。

    另一方面,習慣沒有那么容易改變,習慣觸控的人群不一定就接受語音了,有些老人即使不能熟練操作手機,也不愿意嘗試語音這種“新”技術。

    問題四:為什么我不想和機器聊天?

    因為怪怪的,不習慣。

    據統計在公共場合使用Siri的只有3%。我們默認語言是人和人交流的方式,或是小貓小狗這種我們認為有人性的小動物,我會和小貓說話,但我不會對著微波爐說話,我們默認和物體是用動作來交互的。和手機說話的感覺挺奇怪的,因為手機不是人。在這一點上,東方人比較內斂,心理障礙可能更大。

    恐怖谷理論認為,對于和人越來越像的東西,我們的好感會上升,但我們厭惡很像人而不是人的東西,例如僵尸。恐怖谷暗示著,有一天語音交互到達某個階段后,我們可能會害怕語音助手。(百度圖片里輸入siri,會蹦出“Siri殺死人類照片”的聯想搜索,人類是有多怕Siri)


    恐怖谷(來源:網絡)

    雖然和機器說話挺奇怪的,好處在于語音有聲調和節奏,特別能傳遞感情。為了減少用戶的壓力,很多智能語音助手會給自己做個人設,例如Siri高冷又癡情,微軟小冰可愛又貧嘴。我們能從他們的回應中感受到感情。

    這也是為什么比起用Siri做點正事,我們更喜歡調戲她。告訴Siri,我不愛你了,樂于聽到她說,“那我走了……我又回來了。沒有你,我能去哪兒呢?”,并從中感受到愛的安慰。

    還有一個有趣的議題,為什么語音助手都是女性聲音?一種觀點認為女性的聲音聽起來更加樂于助人,萬一系統發生錯誤,如果是男性聲音告知用戶,出錯了,用戶可能會有被責備的感覺。

    問題五:為什么沒人在公共場合使用語音交互?

    首先是為了安靜……在圖書館和辦公室怎么能發出聲音呢?而且公共場合噪音大,聲音容易聽不到。

    身份識別問題更加嚴重。設想在公開場合,有多臺設備和一個用戶,發出了命令,那么設備應該如何響應?如果有一臺設備和多個用戶,如何響應?

    舉個極端的例子,假如有一天,大家都用語音辦公了!當我結束了一天的工作,我堅定地對著我的電腦說,“關機”,因為聲音太大,一排的電腦都關機了,被波及到的同事毫不生氣,立即對電腦說“開機”,于是我的電腦又開機了。

    這一點早已有人發現,并且被做成了廣告。漢堡王有一個得過獎的廣告,前面都很正常,結尾的時候廣告小哥湊近屏幕,說了句“Ok google. What’s the whoppers?”Ok google是安卓手機和Google Home的喚醒詞,這句話前半部分是啟動設備的,后半部分是一個搜索的問題。觀看廣告的人會發現自己啥都沒干,自己的手機或者音箱就啟動了,還自動搜索了皇堡,簡直是手機被入侵了一樣。視頻廣告結束了,但手機繼續幫著播了廣告。

    這個漏洞被迅速修復了。這個案例揭示了語音交互系統的沒有身份識別的風險。為此有的產品推出聲紋識別系統,以保障支付安全問題,至于聲紋驗證的可靠性是另個問題。

    漢堡王的視頻廣告(來源:網絡)

    還有隱私問題,在公共場合用語音交互是會被聽到的,類似于打電話,而且是輸入和輸出都會被聽到,敏感的金融、醫療和私人信息風險更大。如果是用圖形交互界面,小心一點不要被偷看就比較安全了。(有個聽來的故事是說,某個在線做題app用語音消息做反饋,某個學生在上課時,在app上發了一個單,手機立即發出聲音,“恭喜你,王同學!你求助的題目已經有老師接單啦,快來查看吧!”,這個app就卒了)

    語音交互至少需要滿足噪音低和私密兩條要求,如果加上前文提到的“雙手被占用”那就更加符合了。在眾多的場景中,車內和家里是滿足要求的,加上手機上的移動場景,共3大場景。Mary Meeker在2016年的報告中指出,美國語音使用的主要場景是家里(43%),車上(30%),路上(19%),工作僅占3%

    語音交互的場景(來源:網絡)

    ?

    三、語音交互發展遇到的問題都有啥?

    語音交互系統發展的歷史并不短,早在1952年,貝爾實驗室就開發了能夠識別阿拉伯數字的系統Audrey。IBM在1962年發明了第一臺可以用語音進行簡單數學計算的機器Shoebox。

    IBM的Shoebox系統(來源:IBM)

    在發展了半多個世紀后,語音交互仍不能說是成熟應用,遇到的困難貫穿開發到使用流程。

    一套完整的語音交互系統有典型的三個模塊,語音識別(Automatic Speech Recognition,ASR)將聲音轉化成文字,第二步經過自然語言處理(Natural Language Processing,NLP),將文字的含義解讀出來,處理并給出反饋,最后是語音合成(Text to Speech,TTS),將輸出信息轉化成聲音。

    典型的語音交互系統模塊(來源:網絡)

    問題一:遠場識別好難

    第一個問題是語音收集層面的。語音質量高,語音識別結果才好。

    常聽到某公司宣稱自己的語音識別率達到了95%甚至99%,他們沒說測試的環境是聲源距離很近、環境特別安靜、說話人的普通話特別標準的情況,到了真實使用情況就呵呵了。

    語音識別根據距離分兩種情況,近場識別和遠場識別,二者不一樣,后者難度更大。

    手機上的語音交互是典型的近場,距離聲源近,語音信號的質量較高。另一方面,采集語音的交互相對簡單,有觸摸屏輔助,用戶通過點擊開始和結束進行信號采集,保證可以錄到用戶說的話。

    遠場語音交互以智能音箱為代表,聲源遠,不知道聲源具體位置,環境中存在噪聲、混響和反射。單麥克風無法滿足要求,需要麥克風陣列支持。用戶可能站在任意方位,被語音喚醒后,需要定位到聲源位置,向該方向定向拾音,增強語音并降低其他區域和環境的噪聲。

    遠場識別示意圖(來源:雷鋒網)

    問題二:語音識別正確率

    收集到語音后,后面的問題就是,怎么才能正確識別?將聲音轉化為正確的文字,也就是讓機器知道你說了啥?

    實際工作中,常用的指標是識別詞錯誤率(Word Error Rate),過去四十年里語音識別已取得了很大進展。微軟語音和對話研究團隊負責人黃學東最近宣布微軟語音識別系統錯誤率由5.9%進一步降低到5.1%,可與專業速記員比肩。進步來自于兩方面,一是技術,包括隱馬爾可夫模型、機器學習和各種信號處理方法,另一方面是龐大的計算資源和訓練數據,由于互聯網存在,現在可以獲得大量日常語音,包含各種材料和環境。

    任務難度增加情況下,錯誤率不斷下降(來源:機器之心)

    問題三:語義識別好難

    機器知道你說了什么還不夠,他還得理解意義,才能做出相應的反應。但是問題在于,怎么讓機器理解人類的語言?
    從另一個問題開始,怎么樣算是理解語言?
    John Searle提出過“中文房間”的思想實驗,將一個不懂中文,會說英語的人在一個封閉房間中,房間里有一本英文的小冊子告知如何處理相應的中文信息。中文問題從窗戶遞進房間里,房間里的人只要對照手冊進行查找,將中文字符拼到一起,寫在紙上并遞出去。房間外的人看到紙條,可能會覺得房間里的人很懂中文,實際他是一竅不通的。

    中文房間(來源:hku)

    從這個實驗看,這本小冊子就是計算機程序,房間就是計算機。計算機給出的回答是按照程序的指示進行的,它不可能理解中文。現在很多語義理解是固定模式識別,可以理解的最簡單的小冊子,根據用戶話中特定的詞做出特定的反應。訓練機器來理解語義就類似于這個過程。通過訓練我們讓機器的反應接近于能夠理解,但如何期待機器能理解?

    來說說具體的問題。語義理解的問題至少有分詞、歧義和未知語言處理問題等。中文不像英文單詞有空格分開的,要分詞。而且歧義性高,例如“佟大為妻子生下一女“是什么意思?你和Siri說“打開飽了么外賣”,而他沒有學過“飽了么”這個單詞,它如何處理?

    問題四:用多輪對話為難機器

    人類對話看似簡單,我們一和機器對話就會發現不自然。人類的對話其實很巧妙,對話內容會根據背景信息調整,對話時會預設對方知道哪些事情。而且我們有多輪對話,上下文之間有呼應關系,對話可能很散,但是人有話題的概念。

    比如這個簡單的對話

    “明天下雨嗎?“

    ”不下“

    ”后天呢?“

    ”也沒有”

    我們覺得語音助手很蠢,有時是因為違反了人對話的原則。很多產品對話缺少關聯性,不理解背景,只能進行單輪對話,看似能多輪對話,實際是多個單輪對話。“愚蠢”帶來的一是不自然,二是給語音交互增加任務難度,相當于我們要用另一套“機器語言”和機器對話。

    比如

    我問語音助手,“明天的天氣是什么?”

    “明天是雨天“

    “后天呢?”

    “我不明白你的意思”

    它不明白后天指的是后天的天氣,我只能再完整地問一次“后天的天氣是什么?”

    在下面這個對話里,小冰一會說陰陽師是游戲,一會是電影,并沒有對話的記憶。

    小冰沒有記憶

    問題五:語音交互設計怎么做

    由于語言尤其是口語的形式不固定,變化很大。VUI的交互設計和GUI截然不同,更加細致繁瑣。筆者對此了解不多,有興趣可以參考更多資料。比如亞馬遜已經給開發者提供了成熟的交互設計規范。

    語音交互設計至少可分為幾步,現在的交互設計基本都是以功能的形式來建立的。設計的第一步是建立功能目的,想好功能目的。然后是撰寫腳本,也就是用戶和系統是如何對話的。第三步是制定流程,用戶使用路徑。還需要定義技能的結構,包括完成一個功能需要哪些參數,例如要完成打車功能,需要時間、起點、目的地等參數,以及用語有哪些變化,對于同一個功能,用戶可以說“天氣怎么樣?”也可以問“外面下雨嗎?”。

    問題六:遠場語音交互產品的冷啟動周期

    遠場語音交互產品,比如音箱,是很不好做的,有一個冷啟動周期。如果用戶多,數據就多,就可以用于打磨技術和提升產品體驗,帶來更好的商業銷售效果,然后進一步促進產品發展。反過來產品沒銷量也就沒有數據,體驗更加不好。

    另一方面,如果想讓語音交互硬件成為平臺,千萬量級是個基本門檻。比如Echo在今年的銷量可以達到預計的兩千萬臺,基本上有了足夠數據,同時有希望成為平臺。國內一些模仿者也在使用這種節日促銷的模式,例如雙十一天貓精靈99元的售價,賣了300萬臺,用簡單粗暴的方式直接啟動起來。

    問題七:缺乏持續使用動力和核心場景

    新鮮勁過去后,很多人都會對語音交互失去新的興趣,觸控仍然是主要的交互方式。Creative Strategies的數據發現,97%的人在兩周的時間內,就會對Alexa的新功能失去興趣。Voice Lab的數據發現,62%的安卓用戶很少或者偶爾使用語音助手,這一比例在iOS用戶上是70%。而目前語音交互缺乏只有其才能實現的核心功能,例如Echo最多的用途仍然是聽聽歌。

    四、問題討論

    1?語音交互是否會成為主流交互方式?

    這個問題爭論得很厲害。

    筆者的意見是,沒有必要去爭論什么會是主流的交互方式,交互界面本來就是多模態的,語音交互將豐富現有的交互形式。就像觸控沒有取代鼠標鍵盤,語音交互不太可能成為主流的交互方式。

    一切取決于具體情況,如前文所述,語音交互不能解決所有問題,但是在特定的場景可以發揮效率。伴隨語音的多交互通道已經被證明是不錯的選擇,例如語音和觸控結合可以提高準確度,語音輸入+視覺反饋更加直觀等等。

    2?是否需要追求語音交互的純潔性?

    Echo團隊認為,語音是最自然的交互方式,因此堅持設計語音交互。但語音輸入和視覺輸出的模型已被證明很成功,我們在手機上使用的語音交互模型就是如此。新品Echo Show也裝上了屏幕,可以顯示視覺信息了。所以是否有必要堅持純粹的語音交互模型?答案似乎已經很明顯。

    新問題是,如果Echo加上了屏幕,它是音箱還是平板?

    加上屏幕的Echo Show(來源:網絡)

    天貓精靈:用手機偽裝屏幕(來源:天貓精靈)

    3?語音交互的定位

    本質上,語音交互允許人通過語音的方式完成任務,能通過語音完成的,觸控也可以,Siri可以做到的,Echo也可以做到,做不到的大家都做不到。

    所以語音交互能夠完成什么獨有的任務以體現它的價值呢?

    4 VUI vs CUI

    語音設計師Cheryl Platz反復提及一個問題,我們要VUI還是Conversational UI?

    語音交互的模式是簡單的“下命令——完成任務”,看起來是對話,然而距離真正自然的對話還遠著呢。我們和機器人沒有真正的對話,我們只是對他下命令,說句話之前還要想想如何下命令。

    如果我們的目標是CUI,那還必須更加智能和流暢,允許我們通過真正的對話完成任務,像和真人說話一樣。

    5?隱私問題

    通過喚醒詞喚醒的語音交互產品會保持待機,從環境中獲取聲音。聽起來是不是像個竊聽器?我們還能在家隨心所遇地說話嗎?在一則新聞中,echo被破解并成為了一個24小時竊聽器。

    如果語音助手要好用更智能,就需要不斷收集用戶信息。所以我們是否要小心對語音助手說的話,免得透露太多隱私?

    如果語音助手目的就是商業的,我們要不要讓他更了解我的喜好?(他知道你喜歡什么,就會給你推送更多。類似于手機上的搜索記錄)

    語音交互仍需要發展,技術成熟需要時間。但它的出現意味著,我們離理想的交互界面更近了一步。本文對語音交互做了簡單的總結,有疏漏和想法不成熟之處,歡迎交流指正。

    參考資料:

    1. Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016

    2. Clifford Nass, Scott Brave?. Wired for Speech. MIT Press

    3. Cheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft Design

    4. Amazon Alexa:Voice Design Guideline. Amazon

    5.?極限元,一文讀懂智能語音前端處理中的關鍵問題,雷鋒網

    作者介紹

    汪梅子,產品發展部,目前對接網易智能硬件的用戶研究工作。喜歡有趣的、自己不知道的事情,在用戶研究的路上繼續成長著。

    感謝支持199IT
    我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

    要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
    滾動到頂部
    --> 华人彩票—官方网站
    <optgroup id="szvsc"></optgroup>
    <code id="szvsc"><small id="szvsc"></small></code>
    <optgroup id="szvsc"><small id="szvsc"></small></optgroup>
    <sup id="szvsc"></sup>
  • <progress id="szvsc"></progress><div id="szvsc"><tr id="szvsc"></tr></div><dl id="szvsc"><menu id="szvsc"></menu></dl>
    <optgroup id="szvsc"></optgroup>
    <code id="szvsc"><small id="szvsc"></small></code>
    <optgroup id="szvsc"><small id="szvsc"></small></optgroup>
    <sup id="szvsc"></sup>
  • <progress id="szvsc"></progress><div id="szvsc"><tr id="szvsc"></tr></div><dl id="szvsc"><menu id="szvsc"></menu></dl>