人类的交互通道有眼耳鼻舌口等器官,他们充当着外在世界信号的“接收器”,将范围内的信号接收并传递给“大脑”。在机器世界里,从过去鼠标键盘转变成当下的触控、语音、手势、视觉等,多模态人机交互技术正在彼此融合。

目前智能语音具备兼顾老人、儿童以及地方方言的能力,语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。国内专业的对话式AI企业思必驰,结合全链路语音交互技术及自研计算机视觉技术推出多模态交互技术方案,落地白电、黑电智能终端,满足用户智能化需求。

机器的“眼耳鼻舌口”

机器能够听懂人类说话,产生对话并提供服务,大大增强了物联网设备实际使用价值。越来越多搭载语音交互平台,能够实现对话的物联网设备,从电视、冰箱到家居设备,各种终端不胜枚举。

在实践过程中发现,语音交互的物联网设备缺乏主动服务的能力,只是换了操作方式,用户体验没有本质提升。这种缺乏主动服务的人机关系怎么改变呢?答案也许是让机器除了能听和说之外,还要能看,能感觉,能将五感联系到一起进行思考。

在智能语音交互发展的过程中,多模态交互是一个必经阶段。拥有各种传感器的智能设备,除了能听(耳)会说(嘴),同时还利用摄像头(眼)观察、底盘云台(脚)移动等,从而全面的理解用户、与用户进行沟通,从而满足用户的需求。

这个交互过程模拟了人与人之间的交互方式,使交互更自然、更切合用户意图。这一交互方式打破了传统的键盘输入和智能手机的点触式交互方式,符合“机器人”类产品的形态特点和用户期待,定义了下一代智能产品和人的专属交互模式。

三方面加持,深化多模态交互

智能经济时代,人机交互将全面智能化并带来一系列的深度变革。需要不断升级产品、内容、服务,才能更好地适应用户在未来智能化终端上的需求和习惯。

思必驰作为国内专业的对话式人工智能平台公司,从信号处理、识别到理解到交互,思必驰拥有全面的智能语音语言技术。思必驰多模态交互技术的应用,主要为以下三个方面:

多模态VAD

根据视觉和音频特征,通过多模态融合的方式识别出说话人的语音内容,拒识其他说话人的声音,从而实现辅助降噪、拒识

人脸识别&人脸对比

人脸识别:人脸关键点、头部姿态角、人脸与摄像头距离角度、性别、年龄、口罩等;

人脸对比:首先进行人脸注册,提取注册人脸的特征;对需要对比的人脸提取特征,并与注册的人脸特征进行对比,识别出该人脸是否注册及其FaceID;

手势识别

当用户说了一天的话,坐在沙发上想看个电视却找不到遥控器换台,他抬手在面板前,用手势切换台;

用户在听音乐,此时电话来了,他用手势示意面板将音乐暂停;

从智能家居,到“多模态”开花

依托智能语音行业深耕多年的经验及关键技术优势,结合全链路语音交互技术及自研计算机视觉技术,思必驰的多模态交互技术方案已经落地众多智能终端产品,满足用户智能化需求。

智能家居领域,针对空调、冰箱、炉灶等白电产品,思必驰推出智能白电 AI 交互解决方案。根据智能白电的不同组网模式(中控/分布式/单机),思必驰提供正面唤醒、就近唤醒、语义唤醒以及多模态综合唤醒方案。

黑电领域,智能电视作为「客厅经济」中的核心代表产品,占据客厅场景最大的流量入口。思必驰为智能电视打造流畅自然的语音入口+输出,同时背靠DUI平台,打通了超过300家第三方资源接口,为用户提供全屋家居控制、交通出行、新闻资讯、生活娱乐等各领域内容服务。

针对周边嘈杂干扰大、多人密集同时交互的情况,比如多位用户在激烈的玩电子游戏、亲朋好友聚会等。思必驰多模态交互技术方案,根据视觉和音频特征,通过多模态融合VAD分离出说话人的目标语音,拒识其他说话人的声音,实现辅助降噪、提高声源定位的精准度,即使说话人在移动状态下也不受影响。

另外,思必驰多模态交互技术方案还可以应用在会议大屏、商场显示大屏、地铁购票机等商用带屏显示设备中,目前此技术已在全国多个地区地铁的购票设备中落地。

随着思必驰旗下深聪智能第二代AI芯片发布,思必驰在多模态方面的演进路线更加明朗。语音、图像、手势等交互方式的交融能够极大程度降低用户的AI体验门槛,未来,思必驰将继续发挥优势并持续打造更多满足AI应用场景的产品,为智能经济时代提供向上引擎。