人工智能現(xiàn)在是個熱鬧的話題,但事實上,自動駕駛、專業(yè)護理等備受投資者熱捧的領(lǐng)域,離真正的實用還遠得很。而相比之下,同聲傳譯、語音翻譯等語言服務,似乎更貼合當下人們的實用需求。
唇語辨識辨是其中之一。據(jù)數(shù)據(jù)顯示,大多數(shù)人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數(shù)唇語信號十分隱晦,難以在沒有語境的情況下分辨。
現(xiàn)在,研究人員表示人工智能技術(shù),比如深度學習或許能夠解決這個難題。畢竟人工智能側(cè)重于大數(shù)據(jù)運算,已經(jīng)幫助改善了機器語音識別,甚至能達到人類的水平。
據(jù)國外媒體報道,牛津大學人工智能實驗室、谷歌DeepMind團隊和加拿大高等研究院(CIFAR)就在近日聯(lián)合發(fā)布了一篇論文,介紹了結(jié)合深度學習技術(shù)的唇讀程序LipNet。
在GRID語料庫上,LipNet實現(xiàn)了93.4%的準確度,超過了經(jīng)驗豐富的人類唇讀者和之前的79.6%的最佳準確度。研究人員還將LipNet的表現(xiàn)和聽覺受損的會讀唇的人的表現(xiàn)進行了比較。平均來看,他們可以達到52.3%的準確度,LipNet在相同句子上的表現(xiàn)是這個成績的1.78倍。除此之外,該模型將可變長度的視頻序列轉(zhuǎn)換成文本的過程幾乎是實時的。
研究團隊表示,在深度學習的幫助下,這種唇讀方式可以幫助有聽力障礙的人,尤其是在嘈雜的環(huán)境中。例如在聚會上,LipNet就可以錄制實時通話,并將信息清晰準確地送到人們的耳中。只要有語音識別和攝像頭,在任何地方都可以實現(xiàn)這項服務。在未來,如果人們不想親自和計算機對話,只要動動嘴巴它就能知道你在說什么了。
不過,有專家指出,牛津大學的這一實驗具有局限性。這一實驗首先是基于GRID語料庫完成的,這其中包含34個志愿者錄的短視頻,所有的視頻都長3秒。每個句子都是以這樣的模式出現(xiàn)的:命令、顏色、介詞、字母、數(shù)字、副詞等。由于這一模式下的詞句是有限的,只包含了四種不同的命令和顏色。
該團隊的研究人員在接受國外科技媒體采訪時說道,他們正在努力地突破“有限的詞匯和語法”,“現(xiàn)在的數(shù)據(jù)集雖小,但它卻是一個好的跡象,將來我們會使用更大的數(shù)據(jù)集執(zhí)行任務?!?
除此之外,研究團隊強調(diào)這一成果不會用于窺探他人的隱私。很簡單,因為唇讀需要看到對方的舌頭,所以必須在光線很好的地方才能夠完成這一行為。若要竊密,除非拿著一個技術(shù)很高的相機對準目標對象,同時還要舉著一個麥克風指向被竊者。
運營機構(gòu):鄂爾多斯國家級文化和科技融合示范基地管委會
Email:ordoswh123@163.com 服務電話:0477-8394929