谷歌開發AI“讀唇”軟件 準確率比人類高3倍
2016-11-25 11:23:00 來源:光明網
TNW中文站 11月24日報道
谷歌人工智能部門DeepMind正與牛津大學研究人員合作,希望開發出全球最先進的“讀唇”軟件,可能比人類的“讀唇”能力還要出色。
為實現這一目標,研究人員選取了數千個小時的BBC電視短片,上傳到一個神經網絡上,對其“讀唇”軟件進行訓練,即根據主播嘴部運動來識別其播報內容。
結果,這款“讀唇”軟件的唇讀準確率高達46.8%。相比之下,基于同樣的測試內容,人類唇讀的準確率只有12.4%。
這項研究基于牛津大學之前的一款人工智能“讀唇”系統“LipNet”。LipNet能將視頻中人物的嘴部運動與其臺詞進行匹配,準確率高達93.4%。當然,該準確率主要基于一些相對簡單的句子。
DeepMind這款“讀唇”軟件名為“看、聽、分析與拼寫”(Watch, Listen, Attend, and Spell),與LipNet不同的是,DeepMind的軟件致力于更難的長句。
為此,谷歌神經網絡觀看了來自BBC的約5000個小時的流行電視節目,包括《晚間新聞》和《提問時間》和《今日世界》等,共包含了11萬個不同的句子,1.75萬個不同的單詞。相比之下,測試LipNet的句子只包含了51個不同的單詞。
谷歌對此表示:“這項研究的目的是識別人們談話時的短語和句子,有聲音或沒有聲音都能識別。與之前的相關研究不同,它們僅限于有限數量的單詞或短語,而我們的研究針對無限制的自然語言長句。”
DeepMind團隊認為,他們新開發的這款軟件除了能幫助聽力損傷人群,還支持其他一系列應用,包括注釋電影、利用唇部動作與Siri和Alexa等數字助理通信等。(騰訊科技/譚燃)
編輯:賈斯曼
關鍵詞:谷歌;軟件;讀唇;lipnet;唇讀
在《麻省理工技術評論》(MIT Technology Review)發布的智能公司排行榜中,中國有百度和滴滴兩家公司入選。該公司希望通過AI技術使汽車在行駛過程中實現更智能的路線選擇,減少堵塞和節約能源。
2016-11-24 16:50:00
在中國設立更多的研發中心意味接收本土品牌的員工,他們可能會因薪水跳槽到蘋果。在北深建立兩所研發中心,將有助于蘋果接近中國頂尖科技公司和大學,掌握市場發展趨勢。谷歌的進入無疑是對蘋果的直接威脅,因此,蘋果研發中心搶先一步登陸中國。
2016-11-22 17:10:00
給5G豪情潑一點冷水,“這次,華為主推的極化碼最終成為控制信道上行和下行的編碼方案,而數據信道的上行和下行短碼方案則歸屬高通LDPC碼”。其實,我們避免誤導,只需要記住一個根本點:世界上沒有一蹴而就的捷徑,中國網絡空間領域崛起任重道遠。
2016-11-21 09:20:00
參與討論
我想說