国内精品欧美视频一区二区-无遮挡国产精品一级二级三级视频-欧美特黄片在线免费播放-中文字幕a级毛片免费视频

資訊中心

電話: 0477-8394929
郵箱: ordoswh123@163.com
網(wǎng)址:www.www.gzdfgk.net
當(dāng)前位置: 首頁 > 資訊中心 > 行業(yè)新聞
語音識別技術(shù)有多強?或成人機(jī)交互最自然的方式
時間:2016-11-29 11:12    瀏覽:15862次


傳統(tǒng)的輸入方式大多數(shù)是通過鍵盤來實現(xiàn)的。而這是我們所能選擇的唯一方式嗎?近日,百度與百度、斯坦福大學(xué)和華盛頓大學(xué)共同完成的一項研究告訴我們:語音或許將能夠成為新的輸入方法。


11月23日,在百度語音開放平臺上線三周年之際,該研究項目的負(fù)責(zé)人,斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)教授James Landay在接受環(huán)球科技采訪時詳細(xì)介紹了此次研究的結(jié)論,雖然語音輸入法仍然有局限性,但基于語音識別技術(shù),從速度、準(zhǔn)確性來說,語音輸入的表現(xiàn)已經(jīng)超過了傳統(tǒng)的鍵盤輸入。



斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)教授James Landay


而百度首席科學(xué)家吳恩達(dá)對語音識別技術(shù)的描述是:“人機(jī)交互最自然的方式”。


此次研究從19到32歲年齡段的人群中挑選了16名以英語為母語和16名以漢語(普通話)為母語的測試者,其中一半為女性一半為男性。


根據(jù)研究結(jié)果顯示,相比于傳統(tǒng)的鍵盤輸入,語音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢。利用語音輸入英語和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍。此外,通過加入糾錯功能后,語音輸入英語及普通話的準(zhǔn)確率進(jìn)一步提高,達(dá)到96.43%和92.35%,輸入速度仍為傳統(tǒng)方式的3倍和2.8倍。


事實上,根據(jù)以往的經(jīng)驗來看,語音輸入無論從準(zhǔn)確性來說還是從速度上來說,都比不過鍵盤輸入。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語音識別開始獲得發(fā)展,越來越多的語音應(yīng)用開始受到關(guān)注。


2016年在《麻省理工科技評論》“十大突破性技術(shù)”盤點中,語音接口技術(shù)便成功入選。麻省理工科技評論認(rèn)為:通過該技術(shù),可將語音識別和自然語言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。語音識別將成為人機(jī)交互的重要方式。


語音識別技術(shù)的進(jìn)步已經(jīng)讓語音輸入完美了嗎?


雖然基于技術(shù)的進(jìn)步,語音識別已經(jīng)展現(xiàn)超越鍵盤輸入法的優(yōu)勢,但Landay教授對環(huán)球科技坦言,語音輸入法對于使用者的使用環(huán)境有著較多的要求,應(yīng)用場景往往受到限制。比如在會議中,即使語音輸入法有著再多的優(yōu)勢,使用者也不可能使用語音來進(jìn)行輸入。


“不同的環(huán)境適應(yīng)不同的輸入方式,某些環(huán)境下確實無法使用語音輸入,而在某些緊急的情況下,語音輸入則優(yōu)于傳統(tǒng)的鍵盤輸入。目前來看,兩種輸入方式是分開的,而我們正在考慮如何將兩者更好的融合在一起,這也是未來的一個研究方向。”Landay教授說道。


在其看來,并沒有所謂的最好的人機(jī)交互模式。而是如何能夠?qū)崿F(xiàn)最為自然的人機(jī)交互模式。而目前來看,語音識別是最適合的方式。人的大腦向身體發(fā)送指令,使得人可以遵從自己的意愿進(jìn)行活動,而在交流過程中,神秘的大腦來進(jìn)行復(fù)雜的信息處理,這些都是機(jī)器難以實現(xiàn)的。


如何讓機(jī)器更夠更好的獲得并分析人類所下達(dá)的指令,語音識別技術(shù)為這一目標(biāo)的實現(xiàn)創(chuàng)造了可能。


而這也是百度正在考慮的事情。吳恩達(dá)認(rèn)為:這些技術(shù)有很大的潛力,可以改變?nèi)藱C(jī)交互的效率和辦法。這也是百度不斷發(fā)力百度大腦,大力投入語音識別技術(shù)deep speech的原因。


而此次,Landay教授能與百度共同合作來完成項目的研究,一方面是由于他和吳恩達(dá)是舊識,而更大的原因是他認(rèn)為百度在語音識別方面的技術(shù)水平已經(jīng)達(dá)到了世界級標(biāo)準(zhǔn)。


“我從吳恩達(dá)哪里了解到了許多百度的發(fā)展情況,當(dāng)他提起這個項目的時候,我覺得真的可以來看看語音識別和鍵盤輸入究竟有多大的差別,試試語音識別現(xiàn)在究竟能做到怎樣的程度。”


而研究結(jié)果也說明了語音識別技術(shù)的快速發(fā)展?!敖鼉赡?,受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音識別技術(shù)突飛猛進(jìn),速度及準(zhǔn)確性都有了長足進(jìn)步?!盠anday教授說道。


百度的技術(shù)團(tuán)隊一直在不斷地優(yōu)化語音識別系統(tǒng):在2012年開始使用DNN模型,之后開始用Sequence Discriminative Training,也開始使用LSTM模型,加上CTC,2016年更是開發(fā)了Deep CNN模型,效果在不斷進(jìn)步。


目前,僅從百度的產(chǎn)品來看,包括手機(jī)百度、百度地圖、百度輸入法在內(nèi)的很多百度產(chǎn)品中,都已經(jīng)支持語音輸入。


而這些技術(shù)旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關(guān)鍵問題。例如:百度情感合成技術(shù)主要聚焦在為合成語音“加入情感”,目前可達(dá)到接近真人發(fā)聲效果,百度今年早些時候曾利用此技術(shù),復(fù)原已逝明星張國榮的聲音。


類似地,開發(fā)者還可以利用新的接口,使語音識別距離增加到3-5米,將設(shè)備的語音喚醒率提升到95%以上同時更省電誤報更少,或提升長時間語音識別的準(zhǔn)確率問題。這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。


今年2月,百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語音技術(shù)在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領(lǐng)先科技成果。


“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來語音技術(shù)在很多應(yīng)用場景有很好的機(jī)會,將為人機(jī)交互帶來巨大的改變。”吳恩達(dá)表示。



來源:環(huán)球科技

運營機(jī)構(gòu):鄂爾多斯國家級文化和科技融合示范基地管委會

Email:ordoswh123@163.com 服務(wù)電話:0477-8394929

Copyright ? 2015-2021www.gzdfgk.net All Rights Reserved. 創(chuàng)意草原 版權(quán)所有 蒙ICP備2021002117號-1