开发一个好的应用标准是,要么你能帮别人省钱,要么你能帮别人赚钱。

我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。

我们自己也想做得好一点,总要超越昨天的自己。

这些年我们一直在做尝试,做别人没有做过的应用,就是当时技术还支撑不了的,我们突破了这个技术然后把它做了出来。

我们作为科研单位就要努力解决从零到一的问题,做出一个产品然后在所有行业复制,这些代表性应用会对整个行业起到牵引作用。

在CNCC大会前的专访中,颜永红说出上面的金句。

第十八届中国计算机大会(CNCC 2021)将于10月28日在深圳国际会展中心举行,CNCC由中国计算机学会(CCF)主办,国家超级计算深圳中心承办(深圳云计算中心),香港中文大学(深圳)协办,是中国计算机领域最宏大的年度盛会。

大会将举办100多场技术论坛,爱数智慧借助此次大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。中科院声学所研究员、博士生导师颜永红担任论坛主席并做《智能语音技术商用价值与应用前景》的主题报告。

在论坛正式开展前,主办方爱数智慧采访了演讲嘉宾颜永红,以下为采访整理,希望给大家带来启发。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

颜永红:中科院声学所研究员、博士生导师

以下为采访正文:

创办世界一流实验室

爱数智慧:您来到中科院声学所后,创建了中科信利语音实验室,是什么契机推动您建立这一实验室?当初要实现什么样的目标?可以说一说语音实验室现在的发展情况吗?

颜永红:当时中国科学院找我回来,正好我之前的同事想做实验室,然后他们就推举我办中科信利语音实验室,所以当时没有多想就组建了实验室,没想到一干就干了20年。

当时实验室有个目标,将其建设成世界一流的实验室。现在实验室总人员大概230多人,超编了400%,其中工作人员160多人,研究生大概70人。

现在来看,实验室可能是全世界最大的语音实验室。从实验室的经费、每年培养的博士生数量,以及正高的人数,基本上在国内占据了科研院所的半壁江山。

爱数智慧:我们爱数智慧创始人兼CEO张晴晴也是从您创办的这个实验室出来的。

颜永红:对,晴晴是我的博士生,她当时在实验室工作过一段时间。晴晴是我们实验室最年轻的副高,北邮通讯学院600多个学生里第七名保送到实验室来的,她做得非常优秀。

科研就要解决从零到一的问题

爱数智慧:通过声学所网站一篇早期关于您的报道,我们了解到,您曾经带着年轻的团队获得授权发明专利20项,软件著作权登记40项,在国内外各种学术会议和刊物发表200多篇高质量的学术文章。到现在已经远远不止这个数量了吧?您作为一名资深科研工作者,您和您的团队如何保持如此高频率的科研创新节奏的?

颜永红:现在实验室授权发明专利100多项,发表文章大概500多篇。

关于创新主要有三个方面,一方面实验室最初成立带点理想主义色彩,目标是冲击世界一流实验室,规模上现在已经是世界一流。但是从原创成果来讲,我们尚需努力。

一方面是在招人上,我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。还有一方面是竞争压力。过去十几年语音技术发展很快,重大的创新基本还是来自美国公司,整个行业快速发展客观上逼迫我们跑得快一点。

我们自己也想做得好一点,总要超越昨天的自己,所以我们的团队是很努力的。

爱数智慧:刚才听您说在努力寻找一些有趣的方向做研究,在您看来什么方向算是有趣的方向?

颜永红:实验室作为一个科研单位,要解决的问题就是从零到一的问题。

过去十几年国内主要的语音识别应用,大部分是我们实验室第一个做的,然后卖给了头部企业。由于我们平常不太宣传,所以外面对此了解很少。

比如2004年中国第一个手机助手就是我们做的,在网上被网友自发评为十大必装软件之一。用户可以对该软件喊个名字,手机就能拨打电话或者发送短信。这个软件是装在夏新手机上的,那时候夏新手机可是中国智能手机的No.1。

2006年我们做了中国第一个电信级的语音识别引擎,包括前六大省用的点歌的语音引擎。这几年人工智能热大家都说可以做个考试系统,实际上2006年我们就做出当时全中国最早的考试系统。

当年国家语委给香港人出了普通话的标准,我们按照这个标准做的系统,通过了国家语委鉴定。香港人现在如果拿国家语委的普通话证书,还需通过该系统进行颁发。

后来我们通过技术改造,将系统做成教孩子学英语的工具,就是步步高和诺亚舟。电子词典中哪里不会点哪里的技术是我们做的。

同时,我们做了当时中国第一个语音语言解决方案,把软件和工具做好后卖给百度。掌上百度语音搜索上线的时候就是用的我们的语音引擎。后来我们又做了中国第一个语音输入法,用在腾讯的QQ语音输入法上。

前几年大家都在讲机器人,事实上2013年我们做了中国第一个虚拟机器人的语音识别,然后卖给了阿里。淘宝支付宝的客服上线时,所用的语音识别引擎都是我们的。

在2014年,我们跟美国公司亚马逊同步推出远场交互解决方案,亚马逊把它用在音箱上,我们把它用在海信电视上。因为麦克风是装在电视上的,你看着电视通过语音命令就可以换台和挑选节目等。

2015年以后,我们尝试把语音技术和自然语言理解、数据分析融合,做出中国第一个智能客服的智能质检,用在广发信用卡上,这是金融行业首例。

2015年开始我们开始专注于智能客服也就是虚拟机器人研发,到2016年就用在了中国移动10086上,2017年把它推广到中国电信的10000号后面。

所以,这些年我们一直在做尝试,做别人没有做过的应用,过去没有的技术,我们突破了这个技术然后把它做了出来。

我们作为科研单位就要努力解决从零到一的问题,做出一个产品然后在所有行业复制,这些代表性应用会对整个行业起到牵引作用。

2017年谷歌人工智能发布,基本针对客服的是虚拟机器人。事实上我们早在2013年的时候已经在做了,并且在阿里、中国移动、中国电信这种超大型的应用上都部署了。

语音产业化  要做出“杀手级”的应用

爱数智慧:听您讲完之后,感觉就是整个语音界的这种第一全都是在咱们声学所出来的,从声学所的实验室里从零到一孵化出来的,而且是跟美国基本同步的。

颜永红:对,是的,因为我本人以前在美国工作,美国博士毕业以后工作了十年,我一直就是做语音的。

爱数智慧:刚才说到技术,跟您讨论一下技术问题。语音技术产业化过程中遇到的泛化性差,迁移能力弱,您认为如何从技术研发和产业布局上发力解决?

颜永红:这完全是两个层面的问题。技术层面,我们过去五年技术研究的着力点或者进展就是在努力解决这些问题。现在无论语音行业,或者是更宽广一点的人工智能行业,它的一个显著特征就是大数据、大模型、大计算。它把各种各样的数据放在一起训练,然后提炼出一个模型来,这种预训练的模型,再加上少量的训练数据就可以把应用做好。这个跟过去比,对数据量的要求实际是在减少,这是技术进步带来的结果。

从产业角度讲,我认为需要有一个Killer APP,推出一个大家真正需要的应用。因为做应用肯定用到所有人工智能相关技术,这时存在一个冷启动的问题。一开始需要一些真实场景的数据,也就是前面讲到的迁移能力泛化性问题。所以,要从做产业的角度来讲,我们做出来的应用要考虑是不是大家真的想要的。

爱数智慧:语音技术对于广泛的声信号处理会有何启发和促进?

颜永红:现在这一代语音技术实际上迁移了好几代,最早从DTW即模板匹配到走向统计,从80年代到2010年之前,统计方式即混合高斯方式比较流行,2012年以后开始转到神经网络的方法。

它实际上主要还是底层的变化,是通讯成本和计算成本不断下降的一个产物。现在是基于深度学习,是因为现在有了云计算,获取数据更容易,存储也很便宜。从研究层面,基本所有都可以用学习的方法来解决。所以,诸如IT、ICT技术的变化对声音声信号处理大有帮助。这种变化对所有的行业来说,是一个研究范式的变化。

在过去,我们是对物理现象进行观察,然后总结出规律,写一个数学公式来逼近这个规律,然后通过实验的方法把公式参数定下来,不断的削减它的误差,这是过去传统的研究方法。

而现在不需要写数学公式了,通过大量的数据,用学习的方法把参数和数学公式都给学出来,相当于用数据来反演这些规律。

现在深度学习的发展变革了整个声音信号处理方法。例如传统的语音消噪、把叠音分开和阵列信号处理,过去用信号处理的方法做,现在只要有足够的数据和先验知识,通过学习的方法就可以很好地得到解决。

数据标注将更加精细化

爱数智慧:语音技术经历了多次起伏,您是如何评价最近十年语音技术取得的研究与产业成就,以及语音技术的下一步发展趋势?

颜永红:语音技术过去十年进展很大,主要原因还是IT、ICT技术的发展。语音应用从用户体验的角度,过去语音识别基本上是不能用,现在最起码凑合着能用,在很多场合底下,大家觉得也够用了,是这样的趋势。

从技术上,我觉得这几年整个行业有比较显著的两个特征:一是开源工具的大量出现,包括一部分的开源数据,降低了从业的门槛。

另一个趋势是大模型提供了一个很好的初始状态,然后通过一些跟场景结合的数据,很少的数据就能裁剪出来一个能用的模型。我觉得大概的进步就是这些。

爱数智慧:刚才您在说就是大模型加小数据,就是说未来对数据量的一个需求会慢慢减少,但是不是也需要像您刚才讲的要有更精准的数据给到机器学习?

颜永红:是的,以后人工智能训练的数据不再是粗放式的,而是像爱数智慧这样让数据精细化和有针对性,算法公司会寻找更有针对场景的数据进行训练,让模型裁剪得更好更快。

爱数智慧:您在最近的一次采访中曾说过,与文字搜索相比,音视频搜索门槛更高,未来利用AI技术对海量音视频进行快速精准搜索将是重要的发展方向之一。那么,AI在音视频搜索上整个行业现在已经做到哪种程度了?未来是怎样的?

颜永红:我认为媒资管理上,在海量媒体库里寻找某个电影或者视频片段的搜索技术,现在已经基本成型了。

音视频搜索和文字搜索相比成本较高。文字搜索不耗费计算量,但对音视频基于内容的检索,需要对内容进行解析,计算成本比文本高好几个数量级。

技术发展的下一步就是更精准的搜索,需要在算法上去提升。另外就是半导体成本还在不断地下降,还要等待半导体技术的发展。

要么帮别人省钱要么帮别人赚钱

爱数智慧:关于智能语音技术商用价值与应用前景如何,谈谈您的看法?

颜永红:人工智能前景很广阔,它好比人的五官,语音技术对应耳朵和嘴,很多应用等待去发掘。但是,如何发掘到真正符合市场需求的应用需要时间,所以道路也是曲折的。

但是现在也出现了一些符合市场需求的应用,比如用于大型服务行业的智能客服。

以后的趋势是,计算机处理问题能力越来越强,IT技术的成本一定是比人工成本低。所以我觉得,开发一个好的应用标准是,要么你能帮别人省钱,要么你能帮别人赚钱。

爱数智慧:颜老师,您的实验室一直在做前沿的技术,作为我们这些应用层的公司,您能预测5年以后什么样的应用可能是最Popular的?

颜永红:我不好去预测,一个市场真正需要的应用也许一开始并不那么Sexy,但随着时间推移,可能被验证是对的。

例如我们实验室做的智能客服,服务人次达到数十亿计,服务于中国移动、中国电信、上海上汽集团、阳光保险、苏宁等。我们做的这个应用切中了市场的需求,爱数智慧同样如此,创始人张晴晴懂语音的和这个行业,也在开发市场真正需要的数据产品,因为符合市场需求的产品才能够真正持久地做下去。

爱数智慧:爱数智慧今年也是在转型,我们除了做数据采集和标注,也推出了Annotator® 5.0 智能化标注平台,平台分为私有化部署版和SaaS免费版,然后给我们服务的五大行业的客户使用。现在已经有一些企业机构和我们签署合同,然后私有化部署到他们的企业后台。

我们公司的另外一个核心就是拥有更细分化的数据集,就是我们靠什么去做更细分化处理,更细分应用的数据集,给到您刚才讲的这种大模型里面去做训练,然后帮助能够这些企业省钱和降本增效。

颜永红:对,我觉得爱数智慧推出的标注平台就很好。事实上国家开始认识到数据安全的重要性,大型的政企客户和服务型行业的数据是不能出内网的,只能私有化部署。爱数智慧在标注平台上通过不断的技术迭代,让客户标注成本不断降低,我认为是很符合市场需求的。

爱数智慧:希望未来我们可以把标注平台智能化的程度提升,比如从90%提升到95%甚至更高,这也是我们公司的一个目标。

颜永红:是的,我觉得挺好。

爱数智慧:最后,谢谢颜老师百忙之中抽时间和我们一起交流。

颜永红:不客气。

论坛主旨报告安排

CNCC2021【人机交互技术的机遇与挑战】技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,爱数智慧创始人兼CEO张晴晴担任论坛主席,中科院声学所研究员、博士生导师颜永红担任共同主席。本次论坛分为主旨报告和颁奖仪式两个主要环节。以下为参会嘉宾的报告内容:

日程.jpg

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

分享嘉宾:颜永红,中科院声学研究员、博士生导师

题目:智能语音技术商用价值与应用前景

随着智能语音在各场景的应用落地,智能语音交互核心技术在关键行业领域的商业应用前景和价值也越来越大,将成为引领新一轮产业集群开发与传统企业升级的核心认知。报告将深度评估与解析全球及我国在智能语音领域关键性技术并给出前瞻的应用创新建议。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

分享嘉宾:张晴晴,爱数智慧创始人兼CEO

题目:多语种对话式AI技术及语料库建设

如今对话式AI成为人工智能行业发展的重要方向,在各大行业场景中得到广泛的应用。但人工智能要想与人实现更自然的对话,还需克服很多难题。人机对话面对较为复杂的场景,其中多语种混杂现象愈发频繁,如何提升机器识别多语种混合表达的能力?报告从对话式AI出发,探讨对话式口语交互为语音识别带来哪些挑战,通过双语声学建模、发音词典如何构建双语识别系统,解决非母语发音的插入语问题。同时,多语种语料库建设对AI识别率提升起到积极的作用。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

分享嘉宾:向江旭,美的集团 loT 副总裁兼CTO

题目:多模感知和人机交互在智能家居的应用探索

AI与IoT的结合已经是行业趋势,AI根据人机交互技术和对海量不同场景数据的学习,进行对未来的预测和洞察,而多模感知将大量的数据“采集起来”,由IoT将这些数据“分发”到AI的交互技术当中,实现世界的“AI大脑”端到端的链接。智能家居是离消费者最近的AIoT场景,报告将分享美的多模感知技术、人工智能技术与物联网在智能家居的应用中的落地融合。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

分享嘉宾:田彪,阿里巴巴达摩院语音实验室

题目:多模态语音交互的技术实践及发展趋势

随着5G和AIoT技术的快速发展,语音和视觉等多模态技术的融合逐步加深,在新型人机交互入口中的作用越来越明显,本报告以阿里巴巴在智能交通领域的「地铁多模态语音售票机」和协同办公领域的「钉钉智能无人前台」的产品研发实践为基础,介绍声学设计、麦克风阵列处理、远场语音对话、人脸检测与识别等多模态技术的设计思想与方案架构,在多模态数据的助力下,如何在公众嘈杂场景进行多模态融合从而给用户带来更好的产品体验。同时结合产业落地情况与研究进展介绍下一代的产品和技术演进趋势。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

分享嘉宾:宋彦,香港中文大学(深圳)数据科学学院教授

题目:面向领域的中文自然语言处理面对的数据挑战及机遇

自然语言处理作为人工智能的核心板块,承载着大量针对大规模以文本为载体的数据处理的需求,近年来发展出了各类基于大数据的处理方案(例如预训练模型等),对数据的数量和质量提出了较高的要求。与通用领域相似,面向特定领域的文本处理任务,从基础的例如分词、命名实体识别等,到复杂的例如阅读理解、机器翻译等,都需要大规模高质量数据的支持。然而,与英文相比,目前中文特定领域的数据建设尚不成熟,不论是可用于训练预训练模型的高质量未标注文本,还是针对特定任务的高质量标注数据,都十分稀缺。这些数据的稀缺使得目前难以训练高性能的中文文本处理模型,进而导致中文特定领域目前仍缺少公开的、被广泛使用的高质量的基础文本处理工具。因此,大力发展中文领域内数据建设,是一项长期且具有重大意义的工作,能够为未来中文文本处理在各个行业的深度发展提供基石,以至于成为自然语言处理发展下一个阶段的重大且实际的机遇。

NLP大赛颁奖典礼

论坛最后,还将举办“中文临床医学文本分词与命名实体挑战赛”颁奖仪式,获得该比赛奖项的参赛者将获得相应证书和奖金。该赛事由爱数智慧和香港中文大学(深圳)联合主办。从9月1日正式启动到10月28日截止,持续近两个月的赛程集结了中科院自动化所、复旦大学、南京大学、华为、平安等高校和企业超过45个团体的热情参与。

本次NLP竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动NLP技术创新,努力扩展到更多应用场景。来自爱数智慧和香港中文大学(深圳)、英特尔OpenVINO中文社区的专家组成竞赛组委会,全程给予了答疑支持和指导。

本次竞赛分三个赛道:临床医学文本分词、临床医学文本NER和OpenVINO 推理。参赛团队可同时选择多个赛道参赛,最高可获得总额11,000元奖金。获奖团队将在本次论坛上进行现场成果演示。

CNCC论坛主办方爱数智慧专访颜永红:开发好应用标准要么帮别人省钱要么帮别人赚钱

CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图灵奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。

CNCC 2021大会以“计算赋能加速数字化转型”为主题,特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所YolandaGil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。今年的技术论坛多达111个,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。