AutoR智驾 2017-12-21 11:54
为汽车语音交互装上聪明脑子,蓦然认知万物赋声从汽车开始
分享
在刚刚过去的广州车展,众多上市的20万级别的新车已经配备了语音交互功能,语音交互有望在几年内成为汽车的基本配置。汽车设计生产周期日益缩短,技术迭代呈加速之势。去年刚刚设立的蓦然认知正攻克机器对人类语言从识别到理解的跨越。随着明年首款搭载其语音决策系统的量产车上市,汽车正成为蓦然认知为万物赋声的入口。

今天(12月20日),蓦然认知「万物赋声」全球首次发布会在北京召开。蓦然认知CEO戴帅湘提出,在全新的AI历史机遇下,蓦然认知要主动承担起两个使命:通过一系列AI核心技术让机器更好地认识世界;利用AI创造更自然、高效的交互方式,助力传统产业智能化升级。


发布会上,蓦然认知推出MorUI的升级版——全新「智能决策引擎」MorUI 2.0。产品VP杨平表示, MorUI 2.0版本最大的亮点是智能化,这不仅体现在“GUI+VUI”的交互方式智能化,也体现在“个性化推荐、千人千面”的决策智能化,此外,MorUI 2.0还能智能匹配场景,实现高效、自然的交互与服务。


1.jpg


MorUI 2.0除了具有高效、自然与智能交互特点,还能为用户做辅助决策,实现智能匹配。MorUI 2.0会根据对应设备智能判断所需场景,如果开车时说“我要吃饭”,Mor会为您推荐周边餐馆并提供导航服务,如果在家说同一句话,Mor会自动跳转至订外卖的场景;用户说“我要去上海出差”,Mor就变身行程小助手,会引导用户进行机票/火车票、酒店、日历关联提醒等一系列的操作。


戴帅湘认为,联网为设备智能化提供了必要条件,语音对话的交互方式为设备带来的革命性发展,以电视为智能中心的家居场景和以车机为智能中心的出行场景,将会是智能硬件发展最重要的两个部分。


8.jpg


发布会上,蓦然认知在舞台上搭建了一个颇具未来感的智能家居场景,联合创始人龚思颖与袁志伟现场演示MorHome。“早上好,小蓦”“早,志伟 ”,智能家居自动启动起床模式:窗帘缓缓拉开,落地灯呈现最舒适的亮度,加湿器打开。一句简单的问候开启全新的美好一天。蓦然认知能基于不同场景模式进行交互决策,也就是说,早上起来,小蓦便自动开启起床模式,并且提供场景的自定义功能。


除此之外,蓦然认知还做到了千人千面,并提供基于用户的个性化推荐。男主人说“最近有什么新闻”,小蓦直接播报体育+科技新闻,而当女主人询问“最近有什么新鲜事”,小蓦直接播放《演员的诞生》和袁立的短视频新闻。此外,MorUI2.0版本还支持更多的内容查询及多轮对话,女主人可以就视频内容发问:《演员的诞生》最新一期什么时间播?袁立演过什么?她得过什么奖?她是什么星座?


5.jpg


蓦然认知不仅要实现一个最自然、高效的交互方式,还要为用户打造一个强大的决策引擎。蓦然认知希望将自然语言理解、多轮对话、通用对话模型、知识图谱、个性化推荐等一系列核心技术优势,转化成一整套完整的解决方案输入给B端客户,并以开放、灵活、定制化的合作方式,为B端客户量身打造产品的软硬件一体的方案。


最后,戴帅湘现场发布2018智能车载战略——智慧互联车生活。在智能车载场景下,车主用户不但可以对汽车进行语音控制,还可以快速高效地享受到云端的各种服务。


10.jpg


9.jpg


MorUI作为一个高效的决策引擎,能利用大数据为用户做用户画像以及个性化推荐,并在用户发出指令时,第一时间为用户提供最优、最适合的解决方案。蓦然认知将MorUI同时置入家居、车载智能硬件设备,实现车家互联,用户不但可以在车上随心控制家里的各种智能硬件,还能在家中对汽车进行控制实时监测。


具体产品将分为两块:车主App、车机产品。但由于和主机厂正在共同推进该项目,目前关于产品的具体形态还不能过多透露,不过他向我们展示了车机演示过程。




《AutoR智驾》与蓦然认知CEO戴帅湘进行了一对一的交流,聊一聊这家初创公司的所思所想。


2016年5月,从百度离任的戴帅湘创立了蓦然认知,那一年是他在百度做自然语言处理(NLP)担任主架构师的第九个年头。

 

初创企业的老板们都喜欢讲故事,但戴帅湘没有太多提及在百度的过往,只是表示:“九年里,我在Query语义理解研究上积累了不少经验。”


当时在百度,戴帅湘就是负责整个搜索的Query理解,运用自然语言处理的底层算法分析文字的语义,帮助搜索引擎提供智能的搜索结果。


术业有专攻,蓦然认知一头扎进了AI蓝海之中,准确地说是语音交互的语义理解部分,这是戴帅湘的老本行,与他一同创业的初始团队也基本都是在百度做语义理解的前员工。


戴帅湘.jpg


在2017年汹涌的人工智能大潮中,语音交互逐渐成了资本抢食的香饽饽。近些年,海内外发力语音的科技公司可以说是数不胜数,进入这一领域的巨头,国外有亚马逊、谷歌、微软,国内有语音起家的科大讯飞、思必驰和后入局的BAT以及被资本追逐的众多初创企业。


蓝海已渐成红海,语音识别的行业竞争已呈水火之势。


和大多数希望提供语音交互全套解决方案的企业不同,戴帅湘另辟蹊径All in语义理解,也就是语音交互应用的最末端:决策。

 

这是语音交互领域的,最难攻克,也是能带来更大想象空间的领域,做语音处理的大脑,攻克机器对人类语言从识别到理解的跨越。

 

市场缝隙中求生存,专注小而精

 

今天主流公司的语音识别成功率已经达到98%。

 

整个行业开始正进入语义理解与决策语音交互中最难逾越与攻克的部分,戴帅湘表示这一部分正是自己的团队专注的领域。在蓦然认知成立当年,蓦然认知完成了智能语音对话系统的开发,并接入30+对话交互的垂直场景,开始探索AI语音交互技术的商业化应用。

 

这款被称为小蓦Mor的产品已经具备了一定的语音交互决策能力。

 

Mor可以为汽车、家居、手机等硬件设备提供流畅的人机对话及决策服务;替代部分人工服务如前台、导游、助理等客服工作,是一个可快速移植、实时学习,多场景融合的智能交互决策解决方案。

 

戴帅湘告诉《AutoR智驾》:“我们不做简单的语音识别,这些工作会有第三方伙伴去做。蓦然认知的核心技术在自然语言交互、知识表示及推理等方面,这是我们的技术壁垒。”而目前在语音交互发展之中,多轮对话、知识推理、类人学习这些正是行业的普遍痛点,各家也都正在这些方面寻求突破,包括这一领域的头部企业科大讯飞、思必驰等。

 

NLP也就是实现对人类语言理解与决策自然语言处理技术大致包含三个层面:词法分析、句法分析和语义分析,三者之间既递进又相互包含。而词义消歧是NLP技术的最大瓶颈。

 

比如“小Mor,先给我放一首谢霆锋前妻的歌”,“然后…帮我找几个五道口附近评价比较好的日料店。”,“这里面最便宜的是哪个?”,“从这开车过去多久?”

 

4.jpg


戴帅湘在这一领域深耕多年,在自然语言处理、语义搜索、自动问题求解等多个领域拥有20多项专利技术。他对自己的产品表现出极度的自信,他说:“MorUI引擎语义理解的能力要强于科大讯飞这样的老牌厂商,他们业务大而全,但很难着力一点,而我们更专注,小而精。”

 

“论完整的语音识别产业,初创的蓦然很难与巨头抗衡,但在语义理解这样的细分环节,蓦然认知的技术则更为成熟。随着大公司们纷纷涌入语音交互,比如降噪、云识别这些工作逐渐成为重复劳动,创业公司反而省力不少,这些基础工作很多都已经开源甚至宣布免费。”

 

软件技术落地硬件产品 为物联网入口打好第一战

 

不过第一代产品Mor的产品形态还局限在软件层面,戴帅湘深知这远远不够。

 

“对话即应用”是戴常常挂在嘴边的一句话,也是他创立的蓦然认知的企业理念。他向《AutoR智驾》解读了其中的含义:“跨越软件边界,让语音交互应用于不同场景和设备。”

 

简单理解即是软硬结合,让语音交互技术在硬件设备上落地,在不同场景下,让机器听懂人类语言,做出恰当的决策动作。

 

从语音切入,从这一入口出发布局物联网时代,为万物赋声,所有智能硬件都可以开口说话,并对人类的指令产生回应。


目前Mor语音交互决策引擎已经在暴风电视上落地,年底将大量出货。在Mor的赋能下,电视开始可以为用户做查天气、找喜欢的电影等等这些洞察用户的小心思。实现语音基础功能的同时,让语音交互更聪明,让产品越用越好用,这就是Mor引擎的价值所在。

6.jpg


但现阶段语音交互落地产品方向的选择首要考虑一点:用户时间。

 

“用户花时间最多的地方,就是我们要走的方向,需要注意的是这里的时间并不是碎片化的时间。一个人呆的最多的地方是哪儿呢?家里、办公室里和车里。”

 

最初,戴帅湘选择了手机。今天手机基本覆盖了人们生活的所有场景,几乎可以说是最好的载体。


但也正因如此,用户数据也是手机厂商最敏感的地带,与手机厂商合作意味着不停地谈判、而处处受限:“可以说是烦不胜烦,太多的妥协不利于我们的技术进步,我们想做的是语音技术的推动者而不是简单的服务提供商。”

 

与手机厂商的合作让让戴帅湘感觉有劲儿使不上,非常难受。

 

最终,戴帅湘可以说是毅然放弃了手机,转投了相对开放的电视,迈向了智能家居:“我们现在做的就是跟手机抢时间。”

 

两条腿走路,进军智能车载

 

但在智能家居之外,戴帅湘早已将视野悄悄转向了汽车行业,这一正激发无数资本与创业者聚集的领域。

 

“我们要做车机语音交互的Tier1,也就是一级供应商。”戴帅湘没有因为蓦然认知仅成立一年多时间而降低公司在汽车产业链的定位,他显得雄心勃勃。

113.jpg


在2018年下半年,一款搭载Mor产品的自主品牌汽车将量产上市。


“我们不是没想过先做二级供应商。”戴帅湘说,在公司成立之初,蓦然认知即和四维图新这样的老牌儿Tier 1达成了战略合作,但也正是这一层合作关系让蓦然认知同样有种束手束脚的感觉。

 

今年啃下至少一家标杆性车企,进入供应商目录,是戴帅湘给蓦然认知立下的目标。

 

2018年汽车行业在语音交互将会是转折之年,今年的广州车展上市发布的众多20万元以上的车型已配备了语音交互功能,未来几年语音交互将成为汽车的基本配置。

 

今天的汽车设计生产周期仅有两到三年,技术迭代也呈加速之势。这样的时间节点对于蓦然认知是一次难得的的机遇。

 

“我们有成熟的框架,可以快速变成电视系统,音箱系统或者车载系统。”经过一年多的研发工作,Mor在学习和分析能力上得到了长足的提升。



1、GUI与VUI的融合,打造多场景下最自然的交互



现在车机应用虽然丰富,但并不好用。蓦然认知推出的MorUI 2.0从交互层面既包含GUI(图像交互),也包含 VUI(语音交互),双方不是对立的,而是互补,这就是所谓的智能UI。

 

如果用户想看诺兰的黑暗骑士,传统的GUI交互至少需要多步复杂的操作才能找到结果,而面对支持VUI的交互的产品,你只需说“诺兰的黑暗骑士”便可直触结果。在复杂条件搜索下,VUI具备更加高效的交互能力。

 

蓦然认知坚定地认为,语音入口并不是抛弃GUI交互而独立运作的,而是符合人类感官的自然交互。人类的感官决定交互是多模态的,因此人机交互的方式也不能只停留在语言的层面上。

 

同样以购买电影票为例,电影院+电影+时间地点等多维度的搜索更适合用VUI去实现,而在列表条件下或者是选座页面时,用户会下意识地选择点按等GUI的交互方式。

 

戴帅湘说希望通过MorUI2.0上GUI与VUI的融合,让人机对话更高效更便捷,给用户带来最自然的交互。

 

戴帅湘还提到,MorUI2.0将实现各个设备之间的场景联动,比如在家中正要下单一杯咖啡,但又着急驾车出门, powered by MorUI 2.0的多个设备便可实现此操作。从单一场景下多交互方式的自由切换,到场景间的自然过渡,再到支持场景联动的多设备调度,都是为了让用户的交互方式最自然。



2、深度学习,通过用户习惯让Mor越用越灵



与此同时,Mor具备深度学习能力,也就是“越用越聪明”,可以分析用户习惯,进而理解用户的真实需求,做出最贴近用户意愿的决策。

 

“当你第一次定咖啡时,可能需要告诉Mor不加奶和糖,订过几次之后,Mor就会记住你的习惯。下一次它会直接推荐不加奶和糖的咖啡,你直接下单就可以了。”

 

7.jpg


MorUI 2.0会根据对应设备智能判断所需场景,如果开车时说“我要吃饭”,Mor会为您推荐周边餐馆并提供导航服务,如果在家说同一句话,Mor会自动跳转至订外卖的场景;用户说“我要去上海出差”,Mor就变身行程小助手,会引导用户进行机票/火车票、酒店、日历关联提醒等一系列的操作。


这如同我们使用输入法和百度搜索一样,根据你的习惯机器会联想出你想要的内容。文字理解相对简单,而语义理解则要费力地多,但两者原理相同即依托大量的数据。

 

进入汽车就是为了数据,有了数据,人工智能的价值才会凸显。

 

但进入车内空间,相对而言,新造车势力的视野与理念更开放,与他们合作会相对容易,但戴帅湘选择了相对难走的路,更多与传统车企合作:“相对于新造车势力,传统车企存量车更多,能够提供到蓦然认知的样本数据也就更多,这是我们迫切需要的。”

 

车内交互是一个很好的学习场景,蓦然认知要解决的问题就是让具备深度学习能力的语音决策系统为车主提供不止于现有的地图导航这样简单的功能,车内还可以具备多种应用的空间,譬如行车过程中根据车主语音所反应的心情推荐适当的音乐,在临近目的地时自动推荐停车场等等。

 

简单来说,就是Mor会根据用户的历史行为依托蓦然认知强大的语义识别能力去理解用户一句话里的多个指令,给出相关做出最佳决策。 



3、定制化服务,让每一台车都有自己的个性



MorUI 2.0为B端客户提供了标准化和定制化的开放服务,蓦然认知希望为客户提供最简洁的接入服务。戴帅湘认为,很多B端客户在GUI的探索上仍有不足。以视频公司为例,其视频播放资源充足,但缺乏基于视频演员信息的知识图谱。

 

蓦然认知会将完善的内容数据框架融入GUI,为B端提供更加丰富的GUI展现层次。而针对想要突出自己特色的客户,蓦然认知还提供定制化的服务,基于Mor的完善内容数据打造更具吸引力的产品。

 

例如最近比较火的袁立,专注视频的B端客户可能会提供《演员的诞生》的播放资源,而接入了MorUI 2.0的内容数据,还能将演员信息以及相关八卦一起呈现出来。

 

2.jpg


同样这些定制化服务也将在车机上落地,譬如语音个性名称唤醒、UI交互界面、特有的交互习惯等等都可以定制。

 

彼时有媒体曝出阿里和上汽组建斑马智行表面看似温和,但内部暗潮汹涌。戴帅湘认为互联网公司和传统车企的分歧由来已久,双方各有所求无法达成妥协,他曾经也走过这样的弯路。

 

而今天的蓦然认知团队则希望通过自己的定制化能力去服务车企,“想主机厂之所想与未想”。这也是蓦然在上海专门设立汽车部门的原因,该部门兼具了汽车行业以及软件算法的人才。戴帅湘表示:“我们希望将最好的技术给到车企,定制化程度可以细分到不同车系甚至品牌。”

 

发掘新商业模式,构筑真正壁垒

 

不久前,百度宣布语音技术接口永久免费开放,提供语音识别、语音合成、语音唤醒多平台SDK。语音交互市场在BAT巨大进入后,曾经反复上演的圈地运动似乎也将要在语音交互领域上演。


出身百度的戴帅湘并没有感到威胁。


他说:“语音交互三大核心是语义理解,对话系统,学习系统。这三部分无论是BAT这些互联网公司还是传统语音技术公司都没有做到绝对成熟,开源或者免费都无从谈起,免费的只能是简单的识别技术,各家此刻也正是为核心技术建立壁垒之时。”

 

目前语义理解决策是蓦然认知所掌握的核心技术,但戴帅湘却认为蓦然认知的核心竞争力不能仅局限于技术,在他看来,随着技术进步很难存在长期的壁垒,而一家公司能在市场上立足,真正的壁垒是技术产品与商业模式的结合。蓦然认知希望通过语音交互在车载多场景化服务中为用户带来好的体验,为服务商带来流量,从产业链的角度让语音交互实现价值最大化。蓦然认知希望提供的是全链路的服务。

 

“从为硬件厂商提供以对话为核心的一站式解决方案,以此为入口连接线上、线下服务,再到落地语音服务闭环,更好地服务C端用户,并衍生数据服务。”这是戴帅湘为语音交互设想的应用场景与商业化前景。

 

站在未来看现在,戴帅湘对物联网时代有着自己的展望,对话即应用的愿景将随着物联网时代的到来显得意义深远,而汽车和智能家居作为这张网上的两大节点变成了蓦然认知团队通过语音交互切入未来的重要载体。

x

收藏 1
打赏
相关标签:
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信