汽车启动语音播报功能怎么关闭_汽车启动语音播报功能
1.试驾长安欧尚Z6 智电iDD,现实版“汽车人”来了
2.如何从零设计车载语音软件功能
3.宝马导航语音播报设置
4.比亚迪汉辅助驾驶语音播报是什么意思
5.汽车导航没有语音提示是怎么回事
当汽车没有或者说汽车本身的地图没有更新时候,我们经常会使用手机地图,这时就会遇到手机声音较小,不好辨识的问题,这时就需要让车载语音导航播放手机地图语音,下面就以手机高德地图为例,来说明让车载使用蓝牙播放导航语音的方法:
1.先在手机中打开高德地图。
2.接着在高德地图里,点击你的个人头像。
3.点完头像后,再点击右上角的设置图标。
4.在设置里点击导航设置。
5.接着在导航设置里点击辅助功能。
6.最后将从蓝牙电话通道出声的开关打开就可以了。
扩展资料:
语音导航是腾讯公司2014年1月推出的首款关注行车安全及绿色出行的驾驶伴侣:腾讯路宝,提供驾驶行为评测,油耗评估,拥堵、执法、管制、事故超丰富的实时路况、智能路线规划、省油路线推荐、免费语音导航等全方位的出行服务。同时,还加入社交、UGC等元素,满足用户更多需求。
1、导航过程中全程语音播报,目前国内主流车机已经全部应用了此方案;
2、语音控制的声控导航;
1)、以语音识别、语音编解码为代表的智能语音技术。缺点:由于此项技术语音识别软件语音识别率还不高,市场成品应用率极低;
2)、真人秘书服务声控导航;
a、蓝牙一键通声控导航,优势:直接利用手机蓝牙和车载导航主机连接,蓝牙首次连接后,后续会自动连接。信号稳定,品质可靠;
b、外加通讯盒声控导航;缺点:外加通讯盒,其信号接收模块和几千元的手机信号接收模块是无法比拟的,当信号不好区域,手机有信号而车载导航未必会有信号,造成较多客户投诉。另相对于蓝牙一键通还需加配通讯盒及电话卡,很麻烦;
参考资料:
百度百科-语音导航
试驾长安欧尚Z6 智电iDD,现实版“汽车人”来了
第一个是唤醒速度快,也就是说完“你好小P”后可以秒响应,被称为极速唤醒。但是视频中有信息提到极速唤醒的延迟是700ms,从数字看这个指标不好,当前稍微好一点的车载语音产品基本都能达到这个要求。11月17号关于小鹏语音的官方推文中从语音结束到界面动画小于300ms,希望之后能实车体验确认一下。
第二个是指语音指令响应速度快,是指从用户说完话之后到小P开始执行指令的时间。从视频的对比中可以发现,当前的极速版本把语控响应延迟从原来的1.5s缩减到0.9s左右。对于车载语音产品,0.9s是一个比较优的数字。当前的车载语音产品一般就是1.5s左右,好一点的可以做到1.2s。
除此之外每个视频中都强调了多意图指令理解的能力,不过这个是P7的已有功能。体验比较好的一点是目前针对多意图指令的TTS回复也是综合答复,不是逐条播报每个指令执行情况。
全时对话
打开全时对话开关后,小P会进行持续收音,任何时候都不需要唤醒(不用喊你好小P),就可直接说出指令并执行。目前只支持部分指令,猜测主要是车控类的指令。在全时对话的过程中,对于不支持的指令车机不会响应,但是用户可以5s内补充说一个“小p”,这样小p就可以把刚才不支持的指令识别出来并执行。通过这个产品设计很巧妙的解决了全时对话只支持部分领域引入的体验割裂问题,并且只需要说“小p”而不是“你好小p”。个人认为这是此次G9最出彩的功能更新。就像你让人帮忙做事情,如果他没动,可以在喊一下他的名字,把“你好小p”缩短为“小p”两个字也更加自然。
在视频展示中,可以看到G9上联合oneshot的交互方式,将“你好小p”的四字唤醒词缩减为“小p”两个字,实现了唤醒词字数减倍的巨大进步。当前两个字的唤醒词技术非常不成熟,单独使用会引入大量的误报,将其和指令连在一起以oneshot的形式推出两个字唤醒词,很好的缓解了这个问题。两个字的唤醒词相比于四个字更加自然使用也更加方便,一定程度上可以缓解唤醒词给用户带来的尴尬。百度智能健身镜上也应用了该设计,据说苹果也将采用该设计将“hi siri”缩短为“siri”。
打开全时对话开关后,默认只支持主驾的全时对话。此处小P的眼睛动画有变动,可以看出产品设计细节,用户体验比较好。
多人对话
同时打开多人对话和全时对话后,四个位置都可以使用全时对话功能,并且四个位置的用户可以交替说或者同时说,不会相互干扰,满足多人对话需求。
G9上实现了跨音区多轮对话,不同的音区使用同一个多轮状态进行维护,主驾说完“打开座椅加热”,副驾只需要说“我也要”就可以打开副驾的座椅加热。主要是针对音区绑定相关功能点进行的多轮对话继承优化。
四个位置asr的结果分别在四个角的位置显示并且会在屏幕上会展示回复内容,并且会锁定音区回复(有时不会进行TTS回复)。在视频中强调了此处一些产品细节的设计。
图2 四路全时对话屏幕展示
功能分析
极速对话
简单来讲,语音交互技术的永恒追求可以浓缩为两个字:快和准。快且准的语音交互技术是打造出真正让用户满意的语音交互产品的必要条件。极速对话的目标就是实现语音交互的“快”。
图3 语音交互数据流图
图3展示了从用户说话到车机执行并给出的答复的一个简化流程。**部分的录音模块是负责数据采集,蓝色部分是对采集到的语音数据进行处理来理解用户的意图,紫色部分是根据理解的指令回答用户,橙色部分是车机执行。一般意义上讲,用户感受到语音速度快就是从录音到指令执行的这段时间,这其中涉及到硬件、算法等多个模块。事实上一个完整的语音交互产品内部的模块以及交互逻辑要远比此处展示的复杂的多。对于如何优化语音交互速度,可以从以下三个方面进行分析:交互链路,算法,系统与硬件。
1、交互链路
交互链路优化是指在交互逻辑设计时缩短数据的传输路径或者优化数据的传输速度,使得的反馈结果更快的流向用户。可能的方案包括:
使用离线方案,优化离在线融合的逻辑。
采用流式处理,减少各个算法模块的绝对等待时间。
算法模块的并行处理,找出实现数据传递的最短路径。
算法模块合并,缩短数据传递的链路。
2、算法
语音交互技术的链条中包含了很多模块,试想如果每个算法模块都有几十毫秒的延迟,可能累积起来大几百毫秒就没了。因此要提升语音交互速度,各个算法模块的优化打磨是必不可少的。对于做产品落地的算法工程师而言,每个人面临的终极问题就是:怎么精简算法可以在不降低算法性能、不增加算力(CPU/NPU)占用的条件下尽可能的提升速度。成为一个带着镣铐在刀尖上翻腾的舞者,这可能是对做产品的算法工程师的最高要求。算法模块的优化不仅与产品体验息息相关,而且精简的算法可以直接降低硬件的成本。在语音技术链条中,对语音交互速度有直观影响的几个模块有:
信号处理:包含aec、分离、降噪三个核心算模块,此外还会有音区定位、人声隔离等。
VAD:VAD算法本身的延迟一般比较小,核心在后处理策略方面会造成比较大的延迟,这个和产品设计有关,需要在延迟小和其他体验方面做tradeoff。
ASR:引入延迟的部分包括模型打分需要累积的数据、对未来信息的依赖、CTC等算法的尖峰后移、剪枝搜索策略等。
3、系统和硬件
硬件是基础,系统是支撑。一个流畅的底层系统是优秀的软件产品的必要条件。语音交互系统不仅依赖硬件和系统,其本身也要对车身硬件或者系统进行控制。如果车机系统本身就容易卡顿,语音交互算法优化的再好也没有用。影响到语音交互体验的硬件和系统包括:
录音硬件和录音驱动
语音相关进程的优先级以系统资源分配策略
控制车身硬件的响应速度
车机系统的响应速度
G9的极速对话功能将语控延迟从1.5s降低到了0.9s左右。能做到如此大的提升,各个体验视频中强调的两点原因是:
将云端语音方案替换成离在线融合的方案,去掉云端方案中数据上传和下载的流程,从而缩短交互时间。
支持流式理解,ASR和NLU可以并行处理,缩短NLU的等待时间。
但是现在都是5G时代了,网络延迟真的会这么大吗?抱着怀疑的态度,笔者根据体验视频做了详细的分析,从语音结束到第一个字上屏、语音结束到全部识别结果上屏、识别结果到车机开始响应这三个关键时间段的数据统计来看,得到了如下结论:
极速对话中,识别结果提前了0.15s但是首字上屏结果却变慢了此处的提升大概率和离线的asr算法方案有关,网络延迟在里边占的比重比较小。
极速对话的巨大提升大概率来源于vad后处理策略改进和流式理解的离线NLU算法的改进。
因为网上的体验视频会有后期处理,可能与真实体验会有差异。因此之后会根据实车体验再做一次分析校正。对速度优化感兴趣的同学可以跳转的附录查看分析过程。
全时对话
全时对话是一种颠覆性的交互方式,打破了自iphone 4s 推出siri以来语音交互系统必带唤醒词的传统。根据语音交互逻辑的发展,可以从两个方向推导出全时对话的演化方式,其本质都是为了提升交互效率,让人机语音交互更自然更便捷,更符合人与人的对话逻辑。
图4 全时对话演进图
众所周知,唤醒词相当于语音系统的开关,打开则开始录音,关闭则停止录音。全时对话中去掉了唤醒词,语音识别系统就要做到一直进行收音。在失去开关的控制后,意味着语音交互系统的隐私性、安全性等会受到更多的关注。为了做好全时对话功能,必须做好以下几个方面:
1、采用离线语音方案
离线语音方案具有以下优势:
数据全部在本地处理,保护用户隐私。此处的数据不仅仅是包含生物特征的语音数据,语音识别出的文本内容中也包含了大量的用户隐私。
数据不需要上传云端,节省流量费用。
所有工作在本地完成,节省云端服务的成本。
G9上精心打磨的离线语音方案为实现全时对话功能提供了可行性。
2、做好人声分离和隔离
人声分离的目标是把目标人和其他人声分离开,人声隔离的目标是剔除非目标人声,只把目标人声送入语音识别引擎进行识别。G9上采用的是分布式四麦克风的硬件配置,从硬件上降低了人声分离和人声隔离的难度。但是算法上依然要努力做好这两方面,尤其是要做好目标位置不说话其他位置说话时的漏音问题。
3、做好误报控制
误报控制是全时对话中最难的也是最关键的部分,直接决定了全时对话功能的用户体验。做语音的同学应该都知道语音唤醒也有误报,每个语音唤醒从业者要解的80%的badcase可能都是误报的优化。全时对话的误报和语音唤醒的误报本质上都是不该被响应的语音被车机系统错误的响应了。但是全时对话的误报又和唤醒的误报有明显的不同。首先,误报对用户的影响不同。唤醒词仅是一个开关,发生误报的时候无非就是小P应答了一声并且转头看看你。但是全时对话中每一句话都是有实际动作的语控指令。试想你下雨天开着车正在和老婆打电话说路上堵车了晚点到家,这时候天窗莫名其妙的打开了。此时的你会不会口吐芬芳,如果你知道是全时对话作祟肯定会立马关了不会在打开了,如果你不知道是全时对话误报了,第一次可能莫名其妙,第二次估计就会开到4S店要求检修了。其次,误报发生的频率和控制的难度不同。唤醒词是确定的4个字,目标相对确定,但是依然非常难把误报控制做好,只有一个确定的词都这么难做,更何况全时对话中的数百个功能点,数千种说法。这种误报其实在现在的延迟聆听中也会存在,只不过因为延迟聆听一般只有几十秒,误报的可能性在时间维度上被大大的压缩。全时对话的误报可以分为两类。第一类是因为算法识别错误导致得指令误识别,比如asr把无关的语音识别成了有效指令,或者nlu把无关的文本解析成有效指令。解决该类的最好的方法就是无限提升算法性能,还有就是通过一些策略对这些错误指令进行检测屏蔽。第二类问题是人机对话和人人对话的区分。比如你在和朋友聊天的过程中提到的某一句话本身就属于一条可以触发车机动作的指令,但实际上你是在和朋友聊天而不是向车机下达指令。该类问题估计是全时对话中最难解决的问题。
4、避免用户体验的割裂感
从安全设计以及当前技术的成熟度出发,很长一段时间内全时对话支持的功能点只是全部语音功能点的子集,这会造成用户的学习成本上升,因为用户是不知道哪些功能支持哪些功能不支持的,会造成用户体验的割裂感。笔者认为小鹏G9对这个问题的处理非常好,小鹏的产品和工程师们使用后置唤醒的方式很优雅的解决了这个问题。个人猜测后置的“小p”应该是使用asr实现的而不是做了一个专门的两字的唤醒系统。目前了解到除了G9以外还有两款车支持全时对话。第一款是吉利的星越L,在系统里被设置为极客模式,打开后可以使用全时对话。但是这款的车的体验非常糟,基本上属于无法使用状态,因为一旦打开后,随便说一些话就会触发语音功能。第二款是奇瑞瑞虎8 pro,在系统中默认上线了全时对话功能,在该车宣传中称为全时免唤醒功能。该方案是由地平线提供,是业界第一款的基于全离线方案打造的全时对话系统,也是目前市面上体验最好的。希望早日体验到G9的全时对话功能,也希望G9能够后来居上,进一步推动全时对话功能的发展。
多人对话
G9中的多人对话功能主要有两点:一个是不同位置的人可以同时使用语音,相互独立互不干扰;第二个不同位置的人的对话可以相互继承。从技术上讲,多人对话相对于极速对话和全时对话会简单一些。
1、多人并行使用功能
要实现多人并行使用功能需要做好两点。第一点是强大的信号处理功能,特别是人声分离和人声隔离的能力,目前基于分布式四麦的前端信号方案相对比较成熟,有比较好的解决方案,但是也存在一些困难场景需要继续突破。第二点是算力大,能够支撑4路语音交互系统的并发,核心是4路asr和4路nlu的并发。
2、多人多轮对话功能
该功能的核心是做好多音区内多轮状态的继承,属于对话管理的范畴,业内也有比较好的解决方案。
总结
根据体验视频,笔者总结了G9上两种交互逻辑。(只是个人猜想)
图5 以“你好小P”发起的语音交互内部算法模块逻辑示意图
图6 全时对话语音交互内部算法模块逻辑示意图
小鹏P7的上市将车载语音助手推向了一个新的高度,成为众多车厂对标追逐的对象。希望G9能够将车载语音推向一个新的高度,给用户带来更多的便利,也给众多的语音从业者创造更多的机会和发展空间。最后希望能早日体验到G9的全部功能。
附录:延迟分析
在体验视频中,笔者选取了一个“打开车窗”的例子,通过分析录像视屏的方式,对比语音和视频中文字上屏状态以及指令执行状态,整理分析出了各个关键事件的时间点。
图2-1 关闭极速对话,各个关键时间的时间点
图2-2 打开极速对话,各个关键事件的时间点
根据识别结果上屏事件可粗略的把语音交互的延迟分为两个TD1和TD2两个部分,每部分的详细定义和说明可以参考表格。此外因为语音结果实时上屏也会影响到用户的感受,因此把语音结束到第一个字显示到屏幕上记为TD3。
名称 模块 说明 包含模块分析 关闭极速对话 打开极速对话(提升比例)
TD1 识别结果上屏延迟 从语音结束到屏幕上显示出完整指令文字的时间 1.录音延迟;2.前端信号处理延迟;3.vad算法延迟;4. 数据网络传输延迟(云端方案);5. asr算法延迟。 0.608s (9.732s ~ 10.340s) 0.467s(23.2%) (21.0s ~ 21.467s)
TD2 从文本到指令执行的延迟 从屏幕上显示完整指令文字到车机开始执行的时间 1. vad策略延迟 ;2.nlu算法延迟;3.指令解译、硬件启动等系统延迟。 0.947s (10.340s ~ 11.287s) 0.407s(57.0%) (21.467s ~ 21.874s)
TD3 识别结果首字延迟 从语音结束到第一个指令文字上屏的时间 1.录音延迟;2.前端信号处理延迟;3.vad算法延迟(数据积累延迟);4.数据网络传输延迟(云端方案);5. asr算法延迟。 0.335s (9.732s~10.067s) 0.367s(-9.5%) (21.0s ~ 21.367s)
注:只是使用一条语音的参考意义一般,还需要一定的数据来证明有效性。根据统计结果对极速对话中速度提升原因进行推测:
模块 极速对话中是否会有优化 说明
录音延迟 录音偏底层,打开极速对话前后应该没有变化
信号处理延迟 信号处理本身就是运行在端侧,估计没有变化
vad算法延迟 vad算法本身就是运行在端侧,估计没有变化 vad模型打分数据积累、对未来信息的依赖等
asr延迟 会有变化,TD1的提升大概率是和离线ASR算法方案有关。一方面是模型层面的优化,另一方面是本身搜索空间小,解码速度会快。 asr模型打分数据积累、对未来信息的依赖、解码延迟、ctc尖峰后移等
网络传输延迟 根据TD3的结果,感觉影响不大 云端方案中语音数据上传和识别结果下发
vad后处理策略延迟 影响比较大。 vad后处理一般会根据算法输出向后扩展一定时间,方式语控指令的提前截断
nlu算法延迟 针对“打开车窗”的指令,理论上不论云端还是端侧大概率的规则引擎实现,理论上二者在速度上的差异应该影响很小。结合流式语义理解会有提升
指令解译、硬件启动等系统延迟 不会有变化,硬件、系统层面不会有差异
传统的语音交互流程中为了保证语音识别不被提前截断(比如用户说话停顿、或者vad算法不鲁棒等)会在vad的算法输出后添加后处理策略,一般会在算法输出的基础上向后扩展一定的时间,这就会在很多场景下引入大量的延迟。如下图所示,虽然在t3时刻虽然拿到了完整的识别结果,但是由于vad段没有解码完成就不会送给nlu进行文本解析,直到t4时刻才会将asr结果给到nlu进行解析。引入流式语义理解后,asr的识别文本实时送给nlu进行解析,在t7时刻就可拿到nlu的解析结果,无论是继续等到t4时刻进行结果确认还是直接只用t7时刻的结果都会大幅度降低延迟。其实有意思的一点是,不打开极速语音时,从t3到t6时刻竟然用了0.947s,假设系统的vad后处理向后扩展了0.6s,硬件执行消耗0.1s,那nlu部分居然消耗了0.247s,针对“打开车窗”的这条如此简单的指令感觉很不可思议。只能说提升巨大全靠上一代衬托。
如何从零设计车载语音软件功能
今天我们要试驾的这台是长安欧尚Z6智电iDD(下文简称欧尚Z6 iDD),从15.58-17.58万元的售价不难看出,其在品牌中属于高端产品,并搭载了iDD混动技术。那么作为一款拥有150km纯电续航里程的插电式混动车型,它的表现究竟如何?
蓝鲸iDD混动加持,兼顾性能和燃油经济性
随着新能源转型之路的开启,搭载混动技术的插混车型,成为目前燃油向新能源过渡的首选方案,欧尚Z6 iDD就是众多搭载混动技术的插电式混合动力车型之一。它不仅拥有纯电续航能力,同时在蓝鲸iDD混动的加持下,有着不错的燃油经济性。据官方资料显示,欧尚Z6 iDD纯电续航里程为150km,满油满电状态下,综合续航里程可以达到1200km。短途城市代步用纯电,长途出行油电混动也足够使用。
欧尚Z6 iDD的iDD混动和市面主流的混动技术略有区别,像比亚迪DM-i、长城柠檬混动DHT、奇瑞鲲鹏DHT、吉利雷神Hi·X等混动技术都采用的是驱动电机+发电机的双电机布局,可以实现纯电模式、串联模式(发动机带动发电机发电,电动机进行驱动)、并联模式(发动机、电动机共同驱动)、发动机直驱模式等不同驱动模式。蓝鲸iDD混动则采用单电机布局来承担驱动和发电功能,优点就是少了一台电机,可以塞下6挡三离合电驱变速器,混动模式平顺性和燃油经济性能够得到保障。缺点则是驱动和发电不能同时进行,无法实现串联模式(发动机带动发电机发电,电动机进行驱动),也就是增程模式,同时身兼两职的电机在功能转换速度以及耐用性方面更需要接受时间考验。
欧尚Z6 iDD整套插电式混合动力系统由1.5T发动机、单电机(驱动+发电)、6挡三离合电驱变速器、电控系统、电池包等组成,并拥有纯电、混动两种驱动模式,以及舒适、运动、经济、赛道四种驾驶模式,方向盘助力、制动踏板响应速度等都可按个人喜好自行调节。1.5T发动机最大功率122kW,最大扭矩255N·m;电动机综合功率110kW,综合扭矩330N·m,百公里加速时间7.4s。欧尚Z6 iDD动力系统平顺性表现不错,得益于电动机的加持,日常驾驶时很难察觉6挡三离合电驱变速器的换挡动作。
在试驾过程中,我们分别对纯电模式、混动模式进行了体验,驾驶模式以舒适模式为主,能量回收标准。纯电模式下,欧尚Z6 iDD起步轻盈,完全能够胜任城市出行使用。当电量低于20%时会触发驻车发电功能,车辆在停止时,发动机启动并带动电机进行发电。日常上下班城市通勤,纯电模式完全够用。
我们着重体验了这台车的混动模式,起步和低速行驶时,车辆以纯电模式为主。随着电池电量降低,车辆在滑行、急加速时发动机介入频次会增多。在滑行过程中,除了动能回收之外,发动机也会带动电机进行发电,此时轻踩油门,发动机还会兼顾动力输出。需要急加速时,发动机与电机共同驱动车辆,发动机工作时的振动和声音可以清晰地传递给驾驶者。在高速路段,我们体验了欧尚Z6 iDD全油门动态,在纯电模式下保持80km/h时速,此时将加速踏板踩到底,车辆会在80km/h车速下保持1秒左右,随后发动机开始介入,车辆重新获得动力开始全力加速,动力输出有一定的迟滞。
底盘方面,欧尚Z6 iDD采用的前麦弗逊式独立悬挂+后多连杆式独立悬挂的组合,悬挂整体调校会更偏舒适一些。欧尚Z6 iDD底盘很有特点,它可以清晰地将路况传递至车内,同时又保证了驾乘的舒适性。方向盘助力有轻便、标准、稳重三个选项,轻便模式下方向盘转向力度轻盈,在城市拥堵路段会更容易操控一些。如果追求人车合一的运动感,可以选择稳重模式,超重的转向力度,驾驶起来会更有乐趣。
现实版“汽车人”
欧尚Z6 iDD在设计方面基本延续了燃油版造型,在细节方面进行了调整,很有汽车机器人的科幻感。前中网采用类似无边框设计,凹凸不平的沙漏状贴片,相当有个性。前大灯组采用分体式设计,上方不规则形状的LED灯带集成了转向灯功能,在车外语音功能中,也会跟随机器人话语进行节奏变化。左右两侧雾灯区域为三角形导流槽,其内镶嵌了蓝色饰板,以表示其“新能源”车的身份。
欧尚Z6 iDD车身侧面造型突出了运动型SUV的设计风格,上扬的肩线缩小了车窗比例,较大的车门占比,看起来也会更战斗。车身尺寸方面,新车长宽高分别为4699mm、1890mm、1660mm,轴距为2795mm。厚重的尾部造型同样以运动元素为主,包括双段镂空的扰流板、高位刹车灯、假排气装饰件等。分段式的尾灯造型同样很有个性,在夜间行驶时,有着很高的辨识度。
作为现实版的“汽车人”,除了车外科幻的设计风格外,车外语音才是欧尚Z6 iDD的最大亮点。我们可以通过“你好Z6”,来激活车外语音功能,并实现打开后尾门、灯光秀、车外自动泊车入位、自动泊出车位等功能。同时还可长按车钥匙自动泊车按键激活车钥匙控制车辆功能,来控制车辆进行前进和后退。油箱盖解锁按键同样拥有“车外语音”播报功能,在按下方向盘油箱盖解锁按键后,“Z6”车外语音助手会播报“你好,我是汽车机器人Z6,92号汽油请加满”。
内饰方面,欧尚Z6 iDD中控台的10.3英寸液晶仪表、12.3英寸多媒体中控屏和9.2英寸智慧小欧屏共同组成智慧座舱系统,其搭载的是欧尚OnStyle5.0车机系统,并拥有八核芯片,在功能丰富程度和反应速度方面都有不错表现。三块屏幕具备三指飞屏功能,以导航界面为例,通过三指滑动,可以将导航界面“飞到”任意一个显示屏内。
功能方面,12.3英寸多媒体中控屏拥有在线音乐、在线导航、在线视频以及两大亮点功能——KTV和欧尚健身。同时,欧尚Z6 iDD车内同样有语音助手,可以通过“你好小欧”进行唤醒,空调、车窗、座椅加热通风、休息模式等都可通过语音进行控制。
车内乘坐空间表现良好,在调整好前排座椅后,后排乘客头部和腿部空间都很充裕,全平的后排地台,一定程度保证了后排中央乘客的乘坐舒适性。欧尚Z6 iDD后排座椅靠背支持按比例放倒,放倒后可实现全平,后备厢空间的实用性和可拓展性表现出色。虽然这是一台插电式混动车型,但欧尚Z6iDD在后备厢地台盖板下方还是保留了非全尺寸备胎,这点值得点赞。
写在最后
总的来说,欧尚Z6 iDD有很多好玩的功能,包括车外语音助手、KTV、欧尚运动等等。除此之外,其在外观内饰设计、智能座舱、自动驾驶辅助系统等方面,在国产同级别车型中,都属于优秀水平。同时,装配单电机的蓝鲸iDD混动技术,也能够保证150km纯电续航以及1200km的综合续航里程。如果你对现实版“汽车人”的个性功能感兴趣,同时还对省油有需求,不妨来试试欧尚Z6 iDD。
本文来自易车号作者太古里声浪,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关
宝马导航语音播报设置
随着车载智能硬件的联网普及,越来越多的车辆配装了语音识别功能。目前,在车载系统最重要的功能莫过于车载语音了,个人接触车载语音功能多年,在这里想给大家分享一下从语音服务集成方的角度,如何从零规划设计车载语音的功能,欢迎大家一起交流讨论。
车载市场语音技术方案公司主要有:科大讯飞、Nuance、百度、思必驰、云知声等等。由于腾讯的语音服务在车载领域推广范围和力度均较小,因此腾讯的语音服务在服务和质量上比市场上的主流方案商要差一些,后续不排除发力的可能。阿里的语音服务主要应用在AliOS,目前主要量产在荣威车型上。
语音识别能力——注:乘用车,车速低于80KM/H,在密闭空间内的识别率都可以保持在95%以上
语音合成能力——注:TTS播报的高拟人化体验是比较考验研发投入情况的,各家的实际体验效果差别较大
方言口语理解——注:高鲁棒性是关键,否则语音功能就是鸡肋
语义识别——注:在线服务整合,各家的资源服务整合能力基本相同,稍有差异
多轮对话——注:个别厂家支持特定场景多轮对话,实话说目前的体验都不是很好
市场竞争激烈,迄今为止没有一条很明确的商业模式,大家都是处于资本投入的阶段。每家功能都在逐渐趋同,也在从纯技术提供商转向技术平台化,通过提供整体解决方案商的角色进行转变。
蔚来汽车的NOMI语音助手
对于开发能力一般,定制化要求不高的车载项目,在接入语音服务的时候,基本都会采用方案商提供的集成化较高的语音SDK进行二次开发,或是采用服务商的APK进行简单的定制和适配工作。这样的好处是可以节省大量的开发成本,也可以保证核心语音服务模块的质量。
智能车机: 高度集成的系统平台,可以更好的支持语音使用场景,让语音、系统和车辆三位一体,产生更好的联动效果;
智能后视镜: 一般以后装形式配装为主,相对智能车机来说智能后视镜的系统稍微轻量化一些,着重把更多的系统资源给到行驶记录功能,语音功能只会负责一些简单的任务处理;
智能HUD: 核心资源聚焦驾驶过程中的车辆、道路、安全等信息的投射,比较注重视觉呈现的质量,语音功能作为一个重要功能辅助操作;
车载音箱伴侣: 不管是在车载还是家居音箱上,语音服务都是音箱产品最核心的功能,而车载音箱更多的是针对车内空间的场景,主要聚焦在用户多轮次的交互对话体验和车生活服务的丰富度
业务架构图
这里面会牵涉到自建TSP平台、语音服务提供商、硬件厂商、互联网服务提供商、三方硬件等多方角色。整个业务架构是以硬件为载体,服务平台化集成的形式,整体打包后提供给终端车主用户。
车主用户出发语音操作,主要逻辑点在于判断自建平台还是三方平台,需要对数据进行筛选,对应的准备服务资源,并执行返回结果。
如果没有定制化的自建服务资源平台的话,可以对业务流程做适当的裁剪,此流程图仅供大家参考。
车载语音主要分为以下几个功能模块,不含定制语音语义功能,对业务部分已作相应裁剪。
我们都知道,语音启动的方式主要分为两种,界面点击和语音唤醒。
我们在设计语音唤醒功能点的时候,都会在启动步骤判断并记录语音唤醒方式,语音服务调起后会呈现提示信息和语音录取状态的反馈,在识别过程的主要会判断语音录入是否正常,如果是正常的录入信息则会请求后台,并返回对应的识别结果,如果有打断的情况需要重新开始语音流程。
车载语音的语义的丰富度,直接影响到语音功能的直接使用体验。支持的语义少,会让用户觉得语音功能过于简单,未能满足用户的场景需求,从而丧失对产品功能的好感度,放弃使用语音功能。如何定义用户满意度和语义完整度之间的映射关系,这需要针对实际工作过程中对于用户的调研分析和经验总结得出需求与产品之间的对应关系。
导航场景
音乐/电台场景
电话场景
系统控制类
车辆控制类
定制化服务类
如下图所示(针对业务需求部分已进行裁剪处理,请勿生搬硬套),可以对相应的场景再进行进一步的细分。当然语义的场景非常多,针对车载的场景核心功能场景已覆盖,更多的场景需要根据车型的市场客户需求去进行定制化开发。我们可以参考马斯洛需求层次理论,基于驾驶场景的去分类场景需求,从而来指导我们语义设计策略。
帮助: 提示的场景主要有2种,第一是在语音唤醒首页(语音非全局显示的不推荐),第二是在语音使用失败或是等待时给出提示信息,帮助引导用户正确使用语音功能。
设置: 这里面主要会对语音的基础功能使用进行设置操作,比如常用的免唤醒开关、唤醒词、语音的音源逻辑、语音主题包的变更设置等。
作为与用户交互流程的最后一步,语音播报的功能可以说是与用户息息相关。TTS(Text To Speech)语音播报主要是通过AI技术把文本信息进行智能化合成,转述成语音信息播报给用户,从而给用户一种智能拟人化的交互体验。
目前行业方案的AI合成音更多的是基于录制的基础语音素材进行二次加工,本质上还无法脱离基础语音素材录制这个制约条件,所以语音包的种类数量和质量提升都比较慢。因此,由于TTS功能在产品设计上受制于服务商的综合能力,所以在产品功能集成上,我们会更加聚焦如何更好的提升语音交互对话的体验。
人机对话的主要诉求是信息的交换,其次是对话在交互体验上能够让用户感觉到愉悦,最后,在完成整个对话阶段,有良好的引导和错误规避策略,这样可以保证在满足用户需求的时候可以提供更多的赋能,而在无法满足用户需求的时候可以通过迂回策略来降低用户的不良体验。
就目前语音功能整体情况来说,车载语音产品整体的状态和表现都不是很成熟,人工智能的应用更多的还是停留在初级应用的阶段,如何更好的利用AI技术提升服务质量,如何通过NLP技术提升多轮次交互体验,如何更好的丰富平台内容资源,这些都是需要更多的资源投入和大量的时间来慢慢完善的。
本文更多的介绍车载语音软件的主要功能设计和使用场景分析,主要是想帮助大家更好的认识车载语音。如何让语音功能更有效的提升用户使用体验和满意度,则需要针对每个业务的实际需求和目标用户群体特征去进行更深入的差异化研究和设计。
比亚迪汉辅助驾驶语音播报是什么意思
在控制显示屏上设置一种同样受语音输入系统支持的语言,以便可以识别需要发出的命令。设置语言步骤:a、设置b、语言 (Language) / 单位c、语言 (Lang.)d、选择所需的语言。
宝马(BMW),中文全称为巴伐利亚发动机制造厂股份有限公司,德国汽车品牌,宝马的车系有i、X、Z、纯数字4个车型,1、2、3、4、5、6、7、8等几个系列,还有在各系基础上进行改进的M系(宝马官方的高性能改装部门),宝马公司创建于1916年,总部设在德国巴伐利亚州慕尼黑。
BMW的蓝白标志宝马总部所在地巴伐利亚州州旗的颜色,百年来,宝马汽车由最初的一家飞机引擎生产厂发展成为以高级轿车为主导,并生产享誉全球的飞机引擎、越野车和摩托车的企业集团,名列世界汽车公司前列,其全称为die Bayerischen Motorenwerke (Bavarian Motor Works)。
语音导航是以语音识别、语音编解码为代表的智能语音技术,应用在车载领域。车内语音声控操作,可改变汽车现有的人机信息交流方式,解放出驾驶者的双手和双眼,使汽车更具备人性化魅力和个性化特色。
语音通知可将通知的文本信息使用语音播报的方式传递给用户,可广泛应用于会议通知、物流通知、系统通知等通知类业务场景,通知方式安全保密,及时有效。
汽车导航没有语音提示是怎么回事
英汉结合的辅助语音播报。比亚迪汉辅助驾驶语音播报是比亚迪汽车上的一项智能语音系统。比亚迪汉辅助驾驶语音播报指的是这款汽车上的汉语英语的辅助语音播报,主要就是为了坚决开车的人在不方便的时候,可以呼叫汽车的辅助语音播报,也就不会出现任何的情况。
手机导航没有语音播报的原因有:
1、可能是手机处在静音或者振动状态,确认手机音量是否打开;
2、车载导航仪一体机的音量没有开启;
3、车载蓝牙与手机没有配对连接上。
解决方法:
1、首先手机、车载蓝牙设自备要建立配对关系。分别开启手机、车载蓝牙设备的蓝牙功能,并将手机蓝牙设置中设为“所有人可百见”;
2、然后在手机中搜索蓝牙设备,查找到之后选中进行配对连接,配对密码为:0000,完成配对后则连接成功。
3、车载蓝牙与手机蓝牙配对连接成功后,可以拨打和接听电话。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。