走进声音的黑科技,从淘宝造物节天猫精灵奇声实验室看科技未来
9月13日-9月16日,以“奇市西湖”为主题的2018淘宝造物节正式亮相杭州。作为近年来最盛大、最潮流的线下集市,造物节不仅吸引了蔡徐坤、周笔畅、好妹妹乐队等璀璨星光,也汇聚了代表创造力各种奇葩市集与店铺。天猫精灵则把爆款智能音箱里的AI体验落地为线下“奇声实验室”,成为会场中最引人注目的一个互动体验区。
三大体验区,缔造声音“异”世界
[图为“听声上屏”互动区]
天猫精灵“奇声实验室”在淘宝造物节现场设置了三个互动版块,营造出一个沉浸式的新型语音交互体验。
首先是捕捉声音的“听声上屏”,在观众进入真正的声音世界时,不妨先在外面打个卡,对着屏幕来一段,秀段子手技能或者秀恩爱皆可。走进“奇声实验室”,观众将见证更懂你的科技魔法——声音情绪墙。当体验者对着天猫精灵说话时,他能通过语音识别技术,解密你声音里的情绪秘密,简直就是现代版的“魔镜”。
[图为“声音情绪墙”互动区]
随着探索的深入,观众将看到“闻声识人”技术的完美呈现——声纹空间。当你对着天猫精灵喊出“天猫精灵,芝麻开门”时,它将根据体验者的声音来识别你的年龄性别,通过视觉光影和音乐的交织为用户打造一个独一无二的沉浸式空间。
声纹识别,捕捉声音的DNA
声纹识别技术属于生物识别技术的一种,和指纹识别、虹膜识别等生物识别技术类似,该技术可通过声音来判断说话人的身份。
每个人声音都具有个体差异性,正因如此我们才可以迅速判断长坂坡上一声吼的是张飞,大观园中朗朗笑声的是王熙凤。但和人识别声音的方式不同,天猫精灵在进行声纹识别时,包括了收集语音、噪声抑制及有效语音检测(VAD)、特征提取、声音建模以及识别匹配等五个步骤。通俗地理解的话,那就是声纹注册(用户声音信息及声音特征被充分收集)和声纹测试(将用户的声音通过特定的算法进行识别认证)两个阶段。
[声纹识别技术图示]
虽然步骤并不复杂,但在每个步骤中均存在着技术难点,例如怎样在远场交互中获得较多的语音信息建模、在开放嘈杂的环境下如何保证音箱能捕捉并识别你的声音等等。用户声音识别的注册时间一般在60s以上,但让人对着音箱说一分钟时间它才能知道你是谁并和你进行交互,在实际应用中,这显然不现实。
为解决上述难点,天猫精灵采用了最先进的CLDNN+CTC模型。CLDNN优势在于它能很好地模拟人耳感知声音的方式,并可以消除同一人在不同场景发音时对于声音特征的干扰,从而帮助音箱更准确地识别每个人不同的声音特征。CTC模型的先进性在于能使音箱更快速地听懂你说的每个词和句子,精简训练音箱理解人的词汇、语义的过程,使声音的建模和识别匹配更精准、高效。
[图为奇声实验室声纹空间]
此外,天猫精灵还采用动态判决策略等技术手段,使得声纹识别技术识别率高达99%,从而让天猫精灵“闻声识人”技术得以完美应用,同时,天猫精灵也是全球首个达到商用级声纹认证支付的智能音箱。
天猫精灵“奇声实验室”所打造的三个体验区,让普通观众看到技术创新对于人本质需求的理解与关照,它重新展现了声音交互的意义,即声音传递着人的内心(听声上屏)、声音表达着不同的情绪(声音情绪墙)、声音代表着每个人存在在世间的独一无二的特质(声纹空间)。
[图为奇声实验室内馆]
正如人工智能实验室总经理浅雪在此前接受采访时所言,“在人机交互中,人通过语言方式控制家里所有东西的话,人才是中心,而不是设备”。天猫精灵“闻声识人”技术的突破价值也正在于此。
在智能音箱市场日益激烈的当下,天猫精灵在前沿技术上的持续探索、创新与落地转化,也让它从众多同质化的产品中脱颖而出,同时也让普通用户对人工智能的未来有了更多想象空间。