天貓精靈智能語(yǔ)音音箱靠譜嗎？有點(diǎn)懸！

krisunny · 發(fā)表于 2017-7-17 14:24

不久前，阿里正式發(fā)布了語(yǔ)音音箱“天貓精靈X1”，它的喚醒詞，就是“天貓精靈”。

天貓精靈的價(jià)格，只需要499元人民幣。這個(gè)價(jià)錢(qián)，相比起市場(chǎng)上的其他智能音箱，確實(shí)非常便宜，此前蘋(píng)果Home Pod售價(jià)349美元，Google Home129美元，觸屏版的亞馬遜Echo是230美元。

而直到本月初，阿里才正式發(fā)布智能音箱天貓精靈X1，既出乎意料又在情理之中，使得語(yǔ)音入口的爭(zhēng)奪戰(zhàn)因?yàn)榘⒗锏娜刖肿兊酶佑腥ぁ?/div>

那么，阿里的智能音箱到底帶來(lái)了哪些有別于其他同類(lèi)產(chǎn)品的驚喜？

眼前一亮的“驚喜”

此前有媒體稱(chēng)，為了這款智能音箱，阿里巴巴甚至將馬云投入上億美元的Pepper機(jī)器人項(xiàng)目中止，把人員隊(duì)伍拆分劃進(jìn)人工智能實(shí)驗(yàn)室。而花了這么大代價(jià)出來(lái)的產(chǎn)品好像似乎與Echo等音箱并無(wú)本質(zhì)上的差異，所含功能大致包括播音樂(lè)、叫外賣(mài)、查天氣、設(shè)鬧鐘、操控等。

根據(jù)天貓精靈對(duì)外宣傳的賣(mài)點(diǎn)，其中非常重要一點(diǎn)就是連Echo都不具備的聲紋識(shí)別功能。

阿里稱(chēng)，通過(guò)聲紋識(shí)別技術(shù)，音箱可以分辨家里的每一個(gè)人，并且根據(jù)每個(gè)人的喜好而設(shè)定推送不同的內(nèi)容，目前最多可以識(shí)別6個(gè)人的身份；另外，用戶還可通過(guò)自己的聲音完成購(gòu)物支付驗(yàn)證環(huán)節(jié)。而Echo在分辨人的身份上，還需要通過(guò)進(jìn)一步操作來(lái)獲取用戶的個(gè)人信息。

讓記者好奇的是，如此酷炫的功能為何亞馬遜至今都還沒(méi)用在Echo上。

據(jù)悉，亞馬遜很早就想應(yīng)用這項(xiàng)技術(shù)，但據(jù)亞馬遜員工介紹，從聲紋識(shí)別領(lǐng)域的硬件和軟件公司中得到的反饋看來(lái)，讓這些語(yǔ)音控制設(shè)備去識(shí)別不同用戶的聲音比想象中要艱難很多。

“由于設(shè)備需要去除噪音，回聲，混響，使得它難以對(duì)聽(tīng)到的發(fā)聲者的身份進(jìn)行識(shí)別?！盋onexant語(yǔ)音部門(mén)副總裁Vineet Ganju說(shuō)道。

那么擁有聲紋識(shí)別的天貓精靈真的能撐起它所重點(diǎn)訴求的這個(gè)賣(mài)點(diǎn)嗎？

我看懸。

聲紋識(shí)別功能為什么懸？

先從聲紋識(shí)別算法層面講，聲智科技創(chuàng)始人陳孝良博士此前在接受雷鋒網(wǎng)專(zhuān)訪時(shí)表示，聲紋識(shí)別還是一個(gè)比較窄的學(xué)科，應(yīng)用也相對(duì)較少?，F(xiàn)在大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè)，動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法，同時(shí)也需要增加其他很多算法，比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音，降噪和去混響是排除環(huán)境干擾。

VAD常用兩個(gè)方法，基于能量檢測(cè)和LTSD（Long－Term Spectral Divergence），當(dāng)前用的較多是LTSD，另外特征提取方面還需要：動(dòng)態(tài)時(shí)間規(guī)整（DTW）、矢量量化（VQ）、支持向量機(jī) （SVM），模型方面則需要隱馬爾可夫模型（HMM）和高斯混合模型（GMM）。

從上面模型不難看出，聲紋識(shí)別還是一種基于數(shù)據(jù)驅(qū)動(dòng)的模式識(shí)別問(wèn)題，因?yàn)樗心Ｊ阶R(shí)別存在的問(wèn)題聲紋都存在，而且聲紋識(shí)別還有一些不太好解決的物理和計(jì)算問(wèn)題。

聲紋識(shí)別的唯一性很好，但實(shí)際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準(zhǔn)確分辨，特別是人的聲音還具有易變性，易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說(shuō)話人的環(huán)境下，聲紋特征也是很難提取和建模的。現(xiàn)階段，遠(yuǎn)場(chǎng)聲紋識(shí)別理論并不成熟，研究進(jìn)展也不大。

lily仙女 · 發(fā)表于 2017-7-17 15:01

不懂這個(gè)，，，或許太早

山高王為峰 · 發(fā)表于 2017-7-18 10:22

很給力，ZNDS有你更精彩！

Penny608 · 發(fā)表于 2017-7-18 17:13

正需要啊，感謝樓主無(wú)私分享！

煙雨閣 · 發(fā)表于 2017-9-2 14:22

ZNDS的教程簡(jiǎn)直男默女淚啊！

1136530809 · 發(fā)表于 2017-11-23 13:25

老鐵666！必須支持一波！

wenfeifei · 發(fā)表于 2017-11-23 15:16

聲紋識(shí)別

holwmh · 發(fā)表于 2017-12-31 06:59

學(xué)習(xí)一下

朱頭 · 發(fā)表于 2018-2-25 21:54

此樓主日后必成大器！不是一語(yǔ)雙關(guān)...

流星_Te3t7 · 發(fā)表于 2018-3-28 20:55

看看樓主的分析

› 綜合交流 / 資源分享區(qū) › 綜合交流大區(qū)