不久前,阿里正式發(fā)布了語音音箱“天貓精靈X1”,它的喚醒詞,就是“天貓精靈”。 天貓精靈的價格,只需要499元人民幣。這個價錢,相比起市場上的其他 智能音箱,確實非常便宜,此前蘋果Home Pod售價349美元,Google Home129美元,觸屏版的亞馬遜Echo是230美元。
20170717104154_1500259314131747001.jpg (19.61 KB, 下載次數(shù): 12)
下載附件
保存到相冊
2017-7-17 14:25 上傳
而直到本月初,阿里才正式發(fā)布智能音箱天貓精靈X1,既出乎意料又在情理之中,使得語音入口的爭奪戰(zhàn)因為阿里的入局變得更加有趣。
那么,阿里的智能音箱到底帶來了哪些有別于其他同類產(chǎn)品的驚喜?
眼前一亮的“驚喜”
此前有媒體稱,為了這款智能音箱,阿里巴巴甚至將馬云投入上億美元的Pepper機器人項目中止,把人員隊伍拆分劃進人工智能實驗室。而花了這么大代價出來的產(chǎn)品好像似乎與Echo等音箱并無本質(zhì)上的差異,所含功能大致包括播音樂、叫外賣、查天氣、設鬧鐘、操控等。
根據(jù)天貓精靈對外宣傳的賣點,其中非常重要一點就是連Echo都不具備的聲紋識別功能。
阿里稱,通過聲紋識別技術(shù),音箱可以分辨家里的每一個人,并且根據(jù)每個人的喜好而設定推送不同的內(nèi)容,目前最多可以識別6個人的身份;另外,用戶還可通過自己的聲音完成購物支付驗證環(huán)節(jié)。而Echo在分辨人的身份上,還需要通過進一步操作來獲取用戶的個人信息。
讓記者好奇的是,如此酷炫的功能為何亞馬遜至今都還沒用在Echo上。
據(jù)悉,亞馬遜很早就想應用這項技術(shù),但據(jù)亞馬遜員工介紹,從聲紋識別領(lǐng)域的硬件和 軟件公司中得到的反饋看來,讓這些語音控制設備去識別不同用戶的聲音比想象中要艱難很多。
“由于設備需要去除噪音,回聲,混響,使得它難以對聽到的發(fā)聲者的身份進行識別?!盋onexant語音部門副總裁Vineet Ganju說道。
那么擁有聲紋識別的天貓精靈真的能撐起它所重點訴求的這個賣點嗎?
我看懸。 聲紋識別功能為什么懸?
20170717104154_1500259314131128739.jpg (9.15 KB, 下載次數(shù): 6)
下載附件
保存到相冊
2017-7-17 14:25 上傳
先從聲紋識別算法層面講,聲智科技創(chuàng)始人陳孝良博士此前在接受雷鋒網(wǎng)專訪時表示,聲紋識別還是一個比較窄的學科,應用也相對較少?,F(xiàn)在大部分研究都是有關(guān)動態(tài)實時檢測,動態(tài)檢測的方法自然要利用靜態(tài)檢測的各種原理方法,同時也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環(huán)境干擾。
VAD常用兩個方法,基于能量檢測和LTSD(Long-Term Spectral Divergence),當前用的較多是LTSD,另外特征提取方面還需要:動態(tài)時間規(guī)整(DTW)、矢量量化 (VQ)、支持向量機 (SVM),模型方面則需要隱馬爾可夫模型(HMM)和高斯混合模型 (GMM)。
從上面模型不難看出,聲紋識別還是一種基于數(shù)據(jù)驅(qū)動的模式識別問題,因為所有模式識別存在的問題聲紋都存在,而且聲紋識別還有一些不太好解決的物理和計算問題。
聲紋識別的唯一性很好,但實際上現(xiàn)有的設備和技術(shù)仍然很難做出準確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說話人的環(huán)境下,聲紋特征也是很難提取和建模的。 現(xiàn)階段,遠場聲紋識別理論并不成熟,研究進展也不大。 |