从研发到产品 微软是如何打造AI的?
据外媒报道,光有杰出的研究人员和一大堆受欢迎的产品是不够的。你必须拥有一个或多个系统,以便将科技融合到产品和服务中,从而为企业和消费者带来不同的体验。微软就是这样来打造AI的。
为了探寻微软对人工智能感兴趣的根源,你需要追溯到亚马逊、Facebook和谷歌出现之前的时代。
比尔-盖茨(Bill Gates)于1991年创立了微软的研究部门(MSR),而人工智能从一开始就是一个研究领域。
三年后,当时的销售主管史蒂夫-鲍尔默(Steve Ballmer)在西雅图举行的全美人工智能大会上发表演讲,强调了微软对人工智能发展潜力的信念,并表示他希望有一天软件能足够聪明,能够驾驶一辆汽车。(他一到会场外的停车场就撞坏了自己的车。)。
从一开始,微软研究部门就雇佣了很多计算机领域最有远见、最有成就的科学家。在很长一段时间里,它一直努力将自己的创新成果转化为客户想要的功能和产品,并因此而闻名。
例如,在20世纪90年代,笔者还记得当时感到非常困惑:为什么微软在语音识别等领域的雄心勃勃的计划没有对其Windows和Office产生深远的影响?
在萨提亚-纳德拉(Satya Nadella)担任微软首席执行官五年后,这种耻辱已不复存在。纳德拉的个人决心肯定起到了作用。
微软的人工智能和研究执行副总裁哈里-舒姆(Harry Shum)说:“纳德拉迫切需要将更多的技术应用到我们的产品中。这对我们微软研究部门的每一个人来说都是非常鼓舞人心的。”
这也是属于很多人的快乐:效力于MSR部门的1000多名计算机科学家,包括在微软雷德蒙德总部以及波士顿、蒙特利尔、北京、班加罗尔和其他地方的办事处工作的员工。
首席执行官的决心本身只能做到这一点。微软擅长于确定在哪些产品中使用哪些研究成果,鼓励分散在各地的员工在这方面进行合作。
必须指出的是,舒姆认为以前的微软未能利用其研究人员的突破性研究成果,这是不公平的。但他并不否认微软在他所说的“以产品部署驱动研究”方面比过去要好得多。“现在的关键是我们能以多快的速度实现这些事情。”他说。
从笔者最近参观微软园区的情况来看,微软正在以一种不断加速的速度来转化研究成果。笔者和舒姆及其同事们谈到了该公司迅速而广泛地拥抱人工智能的过程。结果笔者发现,这不是一个过程,而是一堆过程。
思想交流会议
在最基本的层面上,确保微软AI不断创新,从而让微软客户受益,这确保了研究团队和产品团队不会各自为战。这意味着鼓励团队相互交流。微软现在正以一种大的、有组织的方式进行交流。例如,每六个月左右,就会有一个叫做ROC的活动专门用于研究团队和Office产品开发团队之间进行互动交流。
“我们会有为期两三天的研讨会,让微软研究部门的50人和Office部门的100人聚在一起进行交流。”舒姆说。每个人都分享他们正在进行的工作,整个事件以一次黑客马拉松活动结束。
另一个正在进行的思想交流会议——杰出工程领导讲座系列——把负责产品的管理人员请到微软研究部门所在的99号大楼。
“我说,‘你们需要进来帮我做三件事。’”舒姆说,“首先,告诉我你们的产品路线图。第二个问题是列出你们需要微软研究部门帮你解决的10件事。第三点是,在你们离开大楼之前,要确定一两个我们将共同努力的项目。”
当然,让人们谈论问题和解决方案只是开始。AI改进Office日常任务(如格式化文档或将数据插入电子表格)的潜力是巨大的。
但我们也不难发现,自动化技术的帮助让人感觉被冒犯,而不是感觉有帮助。例如,Office 97的Clippy智能助理,它仍然是令人讨厌的、不受欢迎的科技代言人。
在Office根除Clippy十多年后,它仍然试图检测你是否正在执行可能用得上AI的任务。它只是希望这种体验是微妙的,而不是冒犯性的。正如Office的首席产品规划经理罗纳特-劳伦斯(Ronette Lawrence)所说的,“我们的核心原则之一就是确保人类永远是英雄。”
劳伦斯说,微软最近为Office添加的几乎所有东西都有人工智能和机器学习的元素。例如,在PowerPoint中,该公司希望AI成为“在云端为你工作的设计师”。如果你使用的配有手写笔的电脑,例如微软自己的Surface,PowerPoint可以将你手写的文字和画的图形转换为抛光的文本块和对象。如果软件注意到你正在输入一系列的日期,它就会意识到把它们安排成时间轴的样子。
然而,劳伦斯说:“我们会小心地确保这些建议是小声的建议,而不是强行向你灌输你并不想要的建议。”
Design Ideas功能会分析你的演示文稿,并在幻灯片右侧显示调整的缩略图(例如,一系列日期进行时间轴排列)。这样做既便于你借鉴它,也容易让你忽略它。
尽管许多Office功能依赖于微软研究部门的最新工作,但有些研究项目比其他项目更容易走出实验室。
“有些感觉就像科幻小说一样虚无缥缈。”劳伦斯谈到人工智能的形式时说,“有些则感觉更已可以转换为产品。”
在Office产品团队和微软研究团队召开的一次专题研讨会上,人们通常回先在Word文档中拟出梗概,然后再填上详细内容——或者让同事来填充内容。如果Word也想来做这件事呢?
一个新的待办事项功能旨在通过扫描文档中的占位符(如“TODO:获取最新的营收数据”或“在此处插入图表”),并在侧栏中列出这些占位符,以便让你记住要处理它们。微软计划扩展该功能,以便让你的同事通过回复电子邮件来提供你需要的信息,而不是在你的文档中翻找待办事项。它还打算利用人工智能提供相关内容。
首批获得这个初级版待办事项功能的Office用户是Windows和Mac用户,他们已经注册了Office早期使用者计划。(它将在今年年底前正式发布。)
然而,在通常情况下,新的AI功能首先出现在Office基于网络的应用程序中,比起传统等待Office发布下一版本,微软现在更容易迅速面向许多人推出更新版本——并进行学习和优化。
劳伦斯说:“对我们来说,倾听反馈信息,看看人们如何使用它,这对我们训练模型很重要、这属于微软新时代的新做法。当你发布新功能的时候,重要的不仅仅是关于功能的可用性。网络为我们提供了反馈机制。”
当前的一系列在线广告致力于表明Office 365服务具有一系列便捷的功能,这些功能在Office 2019(该套件的一次性付费版本)中并不具备。所有这些功能都利用了人工智能,但广告没有提到这一点。毕竟,人类应该是英雄。
改变游戏
人工智能是什么时候开始对视频游戏业务产生影响的?如果你问微软Xcloud RD的合伙人兼总经理凯文-加米尔(Kevin Gammill),他会追溯到四十年前,提出早期的计算机控制的竞争对手,比如Atari公司的Asteroids街机游戏中的飞碟。他说:“我认为,只要游戏存在,人工智能就已经存在了。”
2019年,人工智能在游戏中的潜在应用远远超出了帮助坏人作弊的范畴。微软是一家罕见的公司,在游戏和计算机基础研究方面都投入了大笔资金,它有很好的条件来探索这些问题。
这包括有用的东西,可以使游戏玩家的生活变得更好,而不是让他们尖叫“嘿,人工智能!”例如,研究表明,当两个玩家水平差不多的时候,在线竞争最有益。
加米尔解释说:“如果你进入一场比赛,你只是被屠杀,这可能不是一个好的经验。如果每个人都太过轻松,这可能也不是一个好的体验。”
Xbox Live长期以来一直使用一种名为TrueSkill(最近已更新为TrueSkill 2)的算法来帮助确保玩家既不会感到无聊,也不会被对手屠杀。
管理Game Pass服务的阿什莉-麦克斯西克(Ashley McKissick)说,另一项实用人工智能的灵感来自于这样一个事实:“多年来,微软从游戏玩家那里响亮而明确地听到,他们更愿意花更多的时间玩游戏,而不是下载游戏。”
该公司试图让玩家借助于某种系统在游戏下载完成之前可以开始玩游戏。因为该系统需要游戏发行商进行一些繁重的工作,因此并未得到普遍采用。
从去年夏天开始,微软用一项名为快速启动(FastStart)的AI技术取代了人们感到不满的手工劳动。它利用机器学习来确定首先下载游戏的哪些部分,让游戏玩家开始玩的速度达到原来的两倍。
麦克斯西克说:“我们并没有真正改变这里的物理定律,但它确实让你的下载活动变得更灵活。”
微软正越来越多地将那种帮助在游戏中整合AI的协作方式正规化。与名为Roc的MSR/Office会议类似,名为Magneto的会议旨在促进MSR和游戏公司之间的对话。微软XCloud COGS的合作软件工程师经理塔米尔-梅拉米德(Tamir Melamed)表示,除了这两个与会者,“那里还有必应(Bing)的人,那里有Windows的人,还有Azure云服务的人。因为我们认为我们有很多技术可以进行分享。”
在微软公司一年一度的黑客马拉松活动中,出现了一个联合项目。2017年,这家游戏行业正在努力应对管理Mixer的挑战。Mixer是一种游戏流媒体服务——使用与Twitch相同的Zip代码,但更具交互性——微软旗下的Beam初创公司收购了这项服务。
Mixer的总经理查德-吉布森(Chad Gibson)表示:“我们发现自己的在线观看量比我们预期的要多得多。因此,我们试图回答这个问题,‘我们如何才能提供新的、独特的方式,让《绝地求生》(PlayerUnknown’s Battlegrounds)或《堡垒之夜》(Fortnite)的优秀玩家被发现?’”
就在Mixer团队问自己这个问题的同时,一些微软研究部门的员工赢得了黑客马拉松的胜利,他们设计了Watch For人工智能系统,用于分析实时视频流,并识别其中的特定事件。(微软对这项技术的商业潜力感到印象深刻,以至于它宣布了团队的胜利,但没有透露它到底创造了什么。)
这两家公司合作使用Watch for作为HypeZone的基础,HypeZone是Mixer的一项功能,可以让观众直接观看正在在线播放的游戏中最高潮的部分。
吉布森说:“这让我们可以进行我们原以为不可能的新发现。”
只要游戏存在挫败感,AI就应该提供新的方法来减轻它。最近,加米尔在第一人称射击游戏《彩虹六号:围攻》(Rainbow Six Siege)中与三个朋友进行了激烈的竞赛。然后,其中一位选手的网络连接被卡住了。
“我们三个人跑来跑去,一个僵死的角色站在那里。”他说。一个僵化的角色除了被砍倒之外什么都做不了。
更好的情景是游戏可以使用AI来确定一个玩家已经被断网,然后临时控制相应的角色——并以与那个人相同的方式玩游戏。加米尔说:“现在,我们已经非常接近于这样的场景了,这些场景实际上已经实现了。”
拥抱AI需要从芯片开始
史蒂夫-乔布斯(Steve Jobs)喜欢说,苹果是唯一家打造“整个小部件”的电脑公司——包括软件或硬件,而且两者都集成得很好,以至于形成了无缝衔接的体验。近年来,这一理念已经达到了极致。苹果甚至设计了自己的iPhone和iPad处理器,并为运行苹果软件对它们进行了优化。
对智能手机或平板电脑有意义的纵向集成,实际上对数据中心也是有意义的——比如为微软Azure云服务提供支持的那些数据中心。微软设计了一种定制硬件加速器Brainwave——使用了英特尔的现场可编程门阵列(FPGA)——主要是为了加速在Azure云服务中运行的AI。
微软为优化AI而设计自己的硬件的举动并不是唯一的。出于类似的原因,谷歌(Google)和亚马逊(Amazon)也都在从软件领域向芯片领域拓展。
但微软并不仅仅是加入了一股时髦的潮流。Brainwave计划是道格-伯格(Doug Burger)十年前的思考的最终产物——起初,他自己完成了这项工作。“我在2010年开始这项工作,然后在大约一年后向管理层汇报。”伯格回忆说。他当时是MSR部门的一名研究员。
传统的芯片知道如何执行其程序中的计算指令,并且永远不能为其他目的再接受培训——例如高效地运行新的机器学习算法。相反,伯格说,FPGA就像变色龙。他解释说:“FPGA允许我们快速打造产品,并将其投入生产,然后以非常快的速度进行升级。所以说,这种变色龙的颜色变化真的很快,而且每次改变颜色都会变得更好。”
FPGA技术使微软能够提供高效的深度学习服务,以满足客户的特定需求。“他们想要解决的很多问题都与图像分析有关。”Azure机器学习算法的高级项目经理泰德-韦(Ted Way)说。
“‘我想看看我的制造缺陷。’‘我想看看(产品)是否缺货。’‘我想看看有没有人在我的加油站抽烟,因为我怕火。’道格的团队能够扭转这一局面,并在短短六个月左右的时间内构建出这些在FPGA上超快运行的卷积神经网络。”
按照硅芯片的标准,这样的速度是很快的。
当伯格在2010年开始他对FPGA进行个人研究时,人们还不清楚——至少对那些不是有先见之明的计算机科学家来说——AI能以多快的速度成为主流,更不用说把它打造成一项服务。
对微软这样的公司来说,这将是一项战略要务。很快,微软明白了他的创意能给Azure带来的价值。去年7月,Brainwave项目走出实验室后,伯格和他的团队也离开了实验室。今天,他们作为Azure部门而不是MSR部门的一部分,继续着他们的工作。
这样的情景并不少见。伯格说:“关于微软文化的一件事是,研究和产品之间的界限已经模糊了很多。产品小组中有许多人以前是研究人员,正在开发新的东西。研究不仅有做研究的人,也有打造产品的工程师。这更像是一个连续统一体。”
他补充说,纳德拉“在推动这种创新方面做得很好。”
聊天机器人
有了Azure,微软正在与亚马逊和谷歌展开竞争,为各种类型的企业提供人工智能和其他高级计算功能,如按需服务。这不仅对外部公司有利,微软内部也有一些团体可以从预先打包的人工智能和机器学习中获益。
一个典型的例子是Codie,这是一个多语言聊天机器人,旨在提供有关编码的信息。这是微软目前的一个内部实验项目,而不是一个商业产品。
它源于这样一个认识:对于潜在的软件工程师来说,一个主要的障碍就是获得有关Python编程语言中的命令和SQL数据库查询语法等信息。对于以英语为母语的人来说,这个问题尤为严重。
马特-费舍尔(Matt Fisher)是Office365和微软365的高级数据分析经理,也是Codie的创建者之一。他将这个多语言聊天机器人描述为“Cortana的怪人小兄弟”。
它来自微软的Garage项目,这是鼓励员工研究他们感兴趣的东西,并给予他们资源的项目,不管他们的这些兴趣是否完全符合其工作职责。
创建这个机器人的团队中有15名背景各异的员工,包括开发人员、设计师和营销人员。它击败了767个其他项目,赢得了该公司的雷德蒙德科学博览会奖,并在该公司的包容性挑战中的5875个参赛者中脱颖而出,取得了第二名。
使用基于文本的输入,Codie通过从微软的必应搜索引擎和科技建议网站Stack Overflow中获取信息来回答编码问题。在微软商店(Microsoft Store)工作的软件工程师阿夫琳-拉赫曼(Afreen Rahman)表示:“48小时后,我们就打造出了这个机器人,它操五种不同的语言,并可以从一个庞大的信息数据库中提取信息。当你就可以用西班牙语问它一个编码问题时,你就会得到一个用西班牙语回答的答案。”
虽然Codie的创造者为企业带来了各种各样的技能,但他们中没有一个人一开始就对AI有那么多的了解。“我们使用了现成的工具,这些工具是微软提供的AI套件中的一部分。”拉赫曼说,“作为开发者,我们可以在短时间内拿到文档,然后就可以开始工作了。”
费舍尔滔滔不绝地说出了微软为Codie提供的云服务:“我们使用了从Azure机器学习服务到LUIS语言理解等各种服务。QNA Maker、必应图谱、微软图谱、Azure机器人框架、Azure 语音插件。”
那里包含着微软的很多人工智能专业知识。对于Codie和人们想要打造的其他东西来说,这已经足够了。
就利用人工智能来从事鼓舞人心的目的而言,Codie已经取得了成功。建造它的人正在考虑升级——显而易见的一个问题就是让用户说话而不是打字——以及如何使它获得广泛使用。
费舍尔说:“我们的目标是将它推广到微软之外。我们正在努力做相应的准备工作。我们得到了Garage这一可爱团队的支持。但在许多情况下,这是我们的第二或第三份工作。”
真正的问题,真正的研究
微软打通研究和产品团队的新方法并不只是让产品受益。AI对数据有着贪得无厌的欲望,它需要这些数据来训练机器学习算法。
微软,作为世界上最大的科技公司之一,拥有大量的匿名数据。这意味着,如果有一天,它的研究工作切断了与人类的联系,那么它的研究就完蛋了。
“现在,要做很多令人兴奋的AI研究。你需要发现真正的问题,需要访问大量数据。”舒姆说,“这正是你与产品团队合作的地方。你构建新的模型,培训新的模型,然后调整新的模型。现在你已经进一步推进了你的基础研究。一路上,你永远不会知道你是否会有突破性的进展。”