網(wǎng)易有道AI語音團(tuán)隊(duì)負(fù)責(zé)人孫艷慶
6月9日,首屆CTiS 2021消費(fèi)者科技及創(chuàng)新展覽會在上海新國際博覽中心正式開幕。在鈦媒體聯(lián)合CTiS共同打造的“AI·創(chuàng)新數(shù)字生活主題論壇”上,網(wǎng)易有道AI云團(tuán)隊(duì)負(fù)責(zé)人孫艷慶博士分享了AI技術(shù)在網(wǎng)易有道智能硬件中的一些應(yīng)用。
網(wǎng)易有道產(chǎn)品,除了智能硬件之外,還有大家熟悉的有道詞典等工具類的產(chǎn)品,以及精品課在線類的學(xué)習(xí)服務(wù),包括數(shù)字類的教育。這里面有哪些AI技術(shù),以及這些AI技術(shù)到底怎么樣能夠很好的和硬件形態(tài)進(jìn)行結(jié)合?在孫艷慶看來,一定要找到一個痛點(diǎn),具體到網(wǎng)易有道的產(chǎn)品中就是怎么解決兒童的背誦、學(xué)習(xí)語言、查詞等。
以有道翻譯來說,這是從2008年就已經(jīng)開始做的一項(xiàng)技術(shù),至今已經(jīng)做了十幾年,孫艷慶介紹,經(jīng)過三到四代核心技術(shù)引擎的發(fā)展,目前已經(jīng)變成了神經(jīng)網(wǎng)絡(luò)的翻譯引擎。除了簡單的文字翻譯,還加入了很多模態(tài)的形式,比如說圖片翻譯、文檔翻譯、語音翻譯、AR翻譯。它除了在手機(jī)端聯(lián)網(wǎng)的方式,還可以在離線,完全沒有網(wǎng)絡(luò)的時候去應(yīng)用。而且在詞典筆的形態(tài)上,就可以得到一個很好的落地。
此外,如果進(jìn)行一個掃描或者點(diǎn)查,非常關(guān)鍵的技術(shù)是需要做OCR,就是把這個圖片變成文字。有道的OCR技術(shù)目前支持100多種主流的語言文字,也可以在不同的場景下使用,比如說有時候掃描的并不是一個簡單的單詞或者例句,可能會是一個公式,或者手寫的數(shù)學(xué)答案等等,所以針對不同的領(lǐng)域,也會做到一些定制的場景垂直化應(yīng)用。
還有語音交互技術(shù),比如在詞典筆的場景下需要語音的錄入,語音識別要想得到一個很好的效果,比如在場館里會有很多噪音,就需要做聲學(xué)前端的信號處理。當(dāng)然也有把這個單詞讀出來,去做語音合成。它其實(shí)就是通過語音進(jìn)行人機(jī)交互的一個技術(shù)手段。
如果直接把一個手機(jī)給到孩子,不僅要擔(dān)心他學(xué)習(xí)的效果,也會擔(dān)心他去玩游戲或者看視頻。
孫艷慶介紹說,在智能軟件的場景下,需要用手機(jī)從眾多APP中去下載有道詞典,再去打開它,找到所需要的功能頁。而硬件的一個好處就是,拿到這個詞典筆就可以直接去掃描或者點(diǎn)查,就能得到結(jié)果了,所以它會非???。而且它會搭載和兒童,或者目標(biāo)用戶群體非常相關(guān)的功能,比如說互動點(diǎn)讀。還有非常重要的一點(diǎn),它是學(xué)習(xí)專用,可以帶到課堂上。
詞典筆用了哪些技術(shù),這些通用的技術(shù)又是如何和硬件更好的結(jié)合起來的?
第三代詞典筆在掃描、掃查的功能上又加入超快點(diǎn)查。這個功能讓識別范圍更廣,除了紙面,包括很多商品的印刷品包裝,都可以進(jìn)行查詞。
孫艷慶介紹說,具體是把多項(xiàng)技術(shù)、把OCR和OID進(jìn)行了結(jié)合。在早期詞典筆攝像頭掃描的廣角是比較小的,為了支持超快點(diǎn)查,硬件也做了很多適配,包括廣角提升了300%的效果。所以AI和應(yīng)用的聯(lián)合,才能打造一個綜合的更好的體驗(yàn)。這也是全球首創(chuàng)的技術(shù)。
詞典筆不光能夠查詞,還可以去讀繪本,和用戶做互動。孫艷慶說,這個互動點(diǎn)讀功能也是新發(fā)布的一個賣點(diǎn),或者是一個殺手級的應(yīng)用,它整個鏈條有這么幾步:首先要在繪本上做一些鋪碼識別,還有麥克風(fēng)雙麥?zhǔn)耙?,這樣保證在嘈雜環(huán)境下也能有比較好的拾音表現(xiàn),再加上語音識別。
如,學(xué)生在聽了閱讀的標(biāo)準(zhǔn)發(fā)音之后,他是可以進(jìn)行實(shí)時的練習(xí)。傳統(tǒng)上來講,他要說完了才能給出一個打分,這樣的體驗(yàn)不是特別及時。這個互動點(diǎn)讀的功能,就可以在他邊讀的時候就邊出文字,就跟背誦是很類似的效果。為了達(dá)到最終的體驗(yàn),也需要通過AI的技術(shù)來處理大量的素材,包括繪本資源、圖像和音頻,包括字幕的對齊,字幕的生成等等。
所以,什么樣的硬件是好的產(chǎn)品?什么樣的AI技術(shù)是好的技術(shù)?以及技術(shù)和產(chǎn)品如何落地結(jié)合?在孫艷慶看來,一定要找到一個痛點(diǎn),比如怎么解決兒童的背誦、學(xué)習(xí)語言、查詞等等。
關(guān)于未來的展望,孫艷慶說,第一,希望語言的學(xué)習(xí)不局限在英文,還可以學(xué)習(xí)中文,包括還有一些朋友去學(xué)習(xí)第二外語或者第三外語;另外,產(chǎn)品支持全學(xué)科,不光在語言學(xué)習(xí)類,還會支持?jǐn)?shù)學(xué)的公式掃描和識別。孫艷慶認(rèn)為,知識體系的構(gòu)建是非常重要的,包括學(xué)習(xí)的資源,包括很多知識點(diǎn)。這是教育更加綜合的一個思路。
在英語的學(xué)習(xí)中,不同國家的用戶他會有很多口音的差異,比如中國人說英語,中式英語,日本人說英語,以及印度人等等。全世界一百多個國家都把英語作為母語或者第二語言,其實(shí)英語的識別本身是非常有挑戰(zhàn)的,口音成為對英語語音識別非常大的影響和挑戰(zhàn)。
在 2020年語音屆盛會Interspeech口音英語語音識別挑戰(zhàn)賽中,網(wǎng)易有道研究人員提交的系統(tǒng)在口音識別任務(wù)中排名第二??梢钥吹降模诤芏鄧一蛘吆芏嗫谝?,識別率還是沒有達(dá)到非常完美的效果。孫艷慶說,好的可以做到百分之九十以上,差的也就只有百分之六七十的效果,這個領(lǐng)域還是值得繼續(xù)去探索。
除了口音英語值得探索,另外就是兒童發(fā)音,尤其是非母語的兒童去說英語,或者是其他的語言,更是難上加難,因?yàn)樗B加了兩個挑戰(zhàn):非母語和口音。
今年Interspeech也有一項(xiàng)比賽,網(wǎng)易有道拿了兩個賽道的第一名,“但即使是最好的成績,錯誤率仍然是大于20%。這是什么概念?可能五個單詞就會有一個是錯誤的。這和我們理解也是一致的,因?yàn)閮和l(fā)音有他的特點(diǎn),因此本身這個任務(wù)就是比較難的。這個方向我們還會繼續(xù)去探索。”孫艷慶說。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論