|
隨著VR/AR這股熱潮逐漸冷卻之后,2017年電視圈子又火了另外一個(gè)東西——智能語(yǔ)音技術(shù),還有一種說(shuō)法叫做人工智能,說(shuō)的樸素一點(diǎn)就是電視上的語(yǔ)音交互。雖然不是什么新鮮的概念,可是最近所有電視廠商的每一場(chǎng)春季發(fā)布會(huì),幾乎都在著重的強(qiáng)調(diào)自家電視的智能語(yǔ)音技術(shù),似巧合,又非巧合。智能語(yǔ)音技術(shù)為何在這個(gè)時(shí)間點(diǎn)在智能電視上井噴?值得我們?yōu)榇颂接懸环?br />
c70b0c0e7cec712973ab3fa7638b2e87.jpg (119.7 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
智能語(yǔ)音的風(fēng)口真來(lái)了?
投資界流行這樣一句話:投資要投“第三眼美女”,第一眼、第二眼美女交往的門檻和成本都比較高,而只有第三眼美女是屬于大眾的,對(duì)應(yīng)到產(chǎn)品上,就是任何技術(shù)產(chǎn)品都要到第三代才能被大眾廣泛接受,才能長(zhǎng)時(shí)間的存在下去。
7276edb0f2686290f7281a70714231ee.jpg (84.28 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
人工智能技術(shù)從50年代的控制論與早期神經(jīng)網(wǎng)絡(luò),走到如今的AlphaGo、Master,現(xiàn)在正好在經(jīng)歷技術(shù)發(fā)展的第三個(gè)階段。50年代末是一波高潮很多死掉了,到70年代的時(shí)候國(guó)家自然科學(xué)基金會(huì)都不支持了。80-90年代又活躍了一次,但許多認(rèn)知科學(xué)家強(qiáng)烈反對(duì)當(dāng)時(shí)很火的一個(gè)人工智能概念“物理符號(hào)系統(tǒng)假設(shè)”,認(rèn)為身體是推理的必要條件,加上科研經(jīng)費(fèi)的削減,又死了。今天正好是第三波,理論上機(jī)遇比較大。
第三代技術(shù)應(yīng)該足夠下方到消費(fèi)領(lǐng)域,接下來(lái)我們看看各電視廠商智能語(yǔ)音技術(shù)具體的應(yīng)用情況如何。
cf92418a8f19d0d453085b863d92010b.jpg (31.72 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
TCL:發(fā)布會(huì)上TCL著重演示了人工智能助手“小T”,具備感知、認(rèn)知、服務(wù)、學(xué)習(xí)的三大特性。而“小T”是TCL集團(tuán)與騰訊、阿里在人工智能及云服務(wù)上進(jìn)行數(shù)據(jù)打通,實(shí)現(xiàn)資源共享的結(jié)晶。
長(zhǎng)虹:推出以電視機(jī)為中心的人工智能平臺(tái)AI Center。據(jù)悉長(zhǎng)虹除了與IBM、科大訊飛等達(dá)成合作,也與杜比、騰訊、華帝,以及清華大學(xué)、西安交大、微軟、中科院等結(jié)成“人工智能產(chǎn)業(yè)聯(lián)盟”。
微鯨:微鯨科技推出了微鯨智能語(yǔ)音電視2.0高端產(chǎn)品醉薄A系列,并宣布微鯨全線產(chǎn)品也將進(jìn)入2.0時(shí)代。其與科大訊飛與美國(guó)麻省理工媒體實(shí)驗(yàn)室、微軟等,分別在語(yǔ)音遙控、多媒體交互領(lǐng)域、人臉識(shí)別等方面達(dá)成了合作。
樂(lè)視:從樂(lè)視一代超級(jí)電視開始就搭載有語(yǔ)音功能,超級(jí)電視語(yǔ)音技術(shù)經(jīng)歷從合作到自主研發(fā)的過(guò)程,樂(lè)視的超級(jí)語(yǔ)音技術(shù),不僅包括語(yǔ)音識(shí)別和語(yǔ)義分析,其自主研發(fā)的語(yǔ)音合成TTS技術(shù)已全面上線。
83477f371cc2e58b96aa9794ef9c4af4.jpg (39.87 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
幾乎每一個(gè)廠商都在強(qiáng)調(diào)對(duì)語(yǔ)音認(rèn)知已從功能層面上升到人工智能。而且背后還有巨大的合作團(tuán)隊(duì),與知名的語(yǔ)音技術(shù)和人工智能平臺(tái)密切合作和研發(fā)。這種全軍出擊的局面,很難否定智能語(yǔ)音在電視行業(yè)的發(fā)展盛況。但盛況并不意味著技術(shù)和商業(yè)的足夠成熟。
語(yǔ)音識(shí)別究竟有多難?
為什么智能語(yǔ)音技術(shù)發(fā)展了這么長(zhǎng)時(shí)間,還是做不到對(duì)語(yǔ)音和語(yǔ)意的精準(zhǔn)識(shí)別呢?我們有必要先了解一下語(yǔ)音識(shí)別是怎么做到的。
d7197495d1cbf146cb2527bf4613a713.jpg (117.07 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
聲音實(shí)際上是一種波紋,就像自然中的光譜一樣。如果要對(duì)聲音進(jìn)行分析,就要先把聲音的這種波紋切分成很很多小片段,就好比一個(gè)視頻由很多幀畫面構(gòu)成,畫面又由很多個(gè)像素點(diǎn)構(gòu)成一樣,語(yǔ)音也可以切分成很多幀。所以語(yǔ)音識(shí)別的大概流程可以歸納為以下幾點(diǎn):
采集:聲波信息分段采集
編碼:把每一單位長(zhǎng)度的語(yǔ)音變成多維向量(內(nèi)容信息)
訓(xùn)練:從數(shù)據(jù)中學(xué)習(xí)對(duì)語(yǔ)音的判斷,而不是用人工的規(guī)則。 用數(shù)據(jù)庫(kù)和建立模型讓語(yǔ)音系統(tǒng)自我學(xué)習(xí)(如果遇到方言,需要建立獨(dú)立的一套系統(tǒng))
解碼:用訓(xùn)練好的模型組合起來(lái)就可以通過(guò)判斷新的語(yǔ)音向量,來(lái)識(shí)別語(yǔ)音了。
反饋:將分析結(jié)果通過(guò)設(shè)備播放出來(lái)。
a919615759a13bfa96032fcafcf422e8.png (202.13 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
看似很簡(jiǎn)單的一個(gè)過(guò)程,其實(shí)每一個(gè)環(huán)節(jié)都有很多難點(diǎn),有很多不可控的因素存在。一方面是復(fù)雜條件下,識(shí)別率顯著下降,比如地方方言、背景噪音,還有說(shuō)話語(yǔ)速的差異,都是不具規(guī)律性的;另一方面是語(yǔ)音的訓(xùn)練和測(cè)試用數(shù)據(jù)的并非完全匹配,如果用人民廣播電臺(tái)的語(yǔ)音來(lái)訓(xùn)練數(shù)據(jù)庫(kù),那實(shí)際操作中哪有這么多廣播員呢?
這些都還只是皮毛,最重要的是人工智能對(duì)于語(yǔ)意的理解才是巨大的困難。就算作為人類,在沒(méi)有前后文的情況下,突然扔給你一段話,你也不見得能理解它的意思。而人工智能就更是一臉懵逼了,不同的麥克風(fēng)、噪音、口音以及談話內(nèi)容下,人工智能作出的反應(yīng)可能都截然不同,本質(zhì)上它還不具備意識(shí),對(duì)人類的語(yǔ)言缺乏足夠的認(rèn)知。
19ea4da68239ce0668a00aac54aef314.jpg (92.04 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
語(yǔ)音交互在電視上的實(shí)際操作過(guò)程中,還會(huì)遇到這樣一個(gè)窘境:反應(yīng)速度問(wèn)題。試想一下如果對(duì)電視提出一個(gè)問(wèn)題,哪怕回答的結(jié)果是準(zhǔn)確的,但是等待時(shí)間卻長(zhǎng)達(dá)兩三秒的話,你還有欲望繼續(xù)對(duì)它說(shuō)話嗎?
綜上所述,無(wú)論是語(yǔ)音識(shí)別算法的亟待革命、語(yǔ)音工程上或缺的奇跡,或者是硬件性能上的各種限制,智能語(yǔ)音發(fā)展到今天遠(yuǎn)遠(yuǎn)還談不上輕車熟路。只不過(guò)正好它遇上了這個(gè)時(shí)代,能夠忽略它的不成熟,容忍它的成長(zhǎng)過(guò)程。因?yàn)樗呀?jīng)發(fā)展的足夠快了。
除了足夠智能,還需要什么?
如今的智能語(yǔ)音并非完美,但是在電視這個(gè)平臺(tái)上,真的需要需要那么智能嗎?
電視的用途主要是什么?搜索-點(diǎn)播-播控,無(wú)非就這是三點(diǎn),深度整合一下在線和離線時(shí)的語(yǔ)音識(shí)別工具包,并及時(shí)更新,就能夠基本滿足用戶對(duì)此的需求。
796aead34d7418426b869a97092a1dfe.jpg (28.35 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
但是如果把電視當(dāng)做的人工智能控制中心,那電視就將會(huì)高頻率的用起來(lái)。那對(duì)智能語(yǔ)音的要求就要高很多了。但是有一點(diǎn)作為智能電視的本質(zhì)屬性,是永遠(yuǎn)不會(huì)改變的。那就是給用戶提供足夠多的內(nèi)容和服務(wù)。
如果電視沒(méi)有足夠多的模塊和功能,沒(méi)有足夠多的內(nèi)容和服務(wù),用戶使用語(yǔ)言的動(dòng)機(jī)就會(huì)缺失。如果沒(méi)能打通所有家電智能平臺(tái),沒(méi)有統(tǒng)一控制協(xié)議,那用戶使用智能語(yǔ)音就會(huì)處處受限。
612ca7037ba9ad702193a36214e881e9.jpg (67.51 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
2017-4-17 11:06 上傳
真正要讓用戶把智能語(yǔ)音功能使用起來(lái),優(yōu)秀的語(yǔ)音識(shí)別技術(shù),僅僅是其中很小的一部分,在家庭場(chǎng)景下的解決用戶實(shí)際問(wèn)題的服務(wù),才是根本。像很多廠商在電視上加入的人臉識(shí)別、兒童教育,配合智能語(yǔ)音,才能發(fā)揮語(yǔ)音技術(shù)在這一場(chǎng)景下的價(jià)值。
總結(jié):人工智能只有在不斷交互的情形下,它才有使用的意義和進(jìn)步的空間。所以在智能交互不斷更迭的物聯(lián)網(wǎng)時(shí)代,智能語(yǔ)音技術(shù)來(lái)得恰是時(shí)機(jī)。很多人把它看做是下一波風(fēng)口,也并非無(wú)稽之談。只不過(guò),一切科技的價(jià)值都是圍繞人性服務(wù)而產(chǎn)生,如何用智能語(yǔ)音連接所有家庭環(huán)境下人性的需求,才是技術(shù)研發(fā)的同時(shí),品牌制造商們迫切需要思考的問(wèn)題。
|
上一篇: 廣電總局再出新規(guī),互聯(lián)網(wǎng)電視處境艱難下一篇: Sonos PLAYBASE 體驗(yàn):當(dāng)下最精致的電視音響
|