百度获MEDIQA 2021医学放射报告摘要国际评测冠军 9项测试指标均排名第一
人工智能技术的发展,促进了自然语言处理与知识图谱技术在生物医学领域的应用。近日,国际计算语言学学会(ACL)旗下的顶级国际学术会议NAACL 2021正式举行,百度夺得MEDIQA 2021医学放射报告摘要国际评测冠军。
MEDIQA 2021评测以生物医学文本摘要(Radiology Report Summarization)为主题,由NAACL的BioNLP研讨会组织开展。在医学语言理解和知识图谱领域深耕已久的百度以主指标ROUGE-2超出第二名近3个百分点的绝对优势夺冠,同时包揽全部9项测试指标的第一名。据了解,本次评测吸引了来自IBM研究院、卡内基梅隆大学、斯坦福大学、阿里巴巴、腾讯等全球知名企业和机构参与。在众多实力选手中脱颖而出,再次彰显百度不俗的AI技术实力。
百度斩获MEDIQA 2021评测医学放射报告摘要冠军
(评测排行榜链接:https://www.aicrowd.com/challenges/mediqa-2021/problems/mediqa-2021-radiology-report-summarization-rrs/leaderboards?challenge_round_id=742)
聚焦医学放射报告等摘要任务,MEDIQA助力医疗智能化水平提升
MEDIQA(Medical NLP & QA)是近年来国际生物医学语言处理(BioNLP)研讨会设立的技术评测。BioNLP研讨会是生物医学自然语言处理领域最权威的国际研讨会之一,从2002年至今已成功举办20届,受到全球广泛关注。今年以生物医学文本摘要为主题的MEDIQA 2021评测,下设医学问题摘要、答案摘要和医学放射报告摘要三种任务。
(官方报告地址:https://www.aclweb.org/anthology/2021.bionlp-1.8.pdf)
其中,医学放射报告是指临床放射性检查后形成的影像报告,通常包括患者和检查的基本信息、影像表现和诊断印象这三部分。诊断印象可以为后续的医疗决策提供重要依据,是放射报告中最为关键的部分。在传统的诊疗流程里,诊断印象由放射科医生根据读片后的影像表现人工总结形成,耗时耗力。而放射报告的自动摘要则是根据影像表现并结合患者的基本信息,自动生成诊断印象,可以极大地解放人力,提升医疗智能化水平。
除了任务形式的新颖性之外,本届MEDIQA放射报告摘要任务还有一大特点:测试数据与训练数据来自于不同的医疗机构,在患者分布、行文风格等方面都存在巨大的差异。这无疑对参评系统的迁移和泛化能力提出了进一步挑战。
提升AI模型文本摘要能力,推动解决基层医疗难题
自然语言处理及知识图谱作为从医学报告等文本中摘取有用信息的关键技术,已经成为学术界深入研究的热点和难点。为了提升模型的文本摘要能力,同时提升其迁移和泛化能力,百度团队在参赛系统的设计上进行了多种创新。
从系统架构上来看,百度采用编码器-解码器框架,通过“预训练-微调”范式,实现生成式文本摘要。在预训练阶段,以文本摘要生成为预训练目标,最大化模型的文本摘要能力。在微调之后,进一步利用不同源数据对模型进行领域适配,提升其对新数据的迁移和泛化能力。此外,百度借助模型集成、文本规范化等技术,进一步提升摘要生成的质量。
最终,百度以绝对优势超越其他参赛机构获得冠军,充分证明了其在生物医学语言理解及知识图谱领域深厚的技术积累和领先的技术实力,更进一步体现了AI在临床医疗领域中的应用价值。
百度参评系统整体架构图
医疗资源不均、医生供需缺口大、临床工作压力持续增加已经成为当前我国医疗卫生事业面临的突出问题,利用AI技术实现临床辅助具有重要的现实意义。
百度以循证AI为理念,推出AI医疗品牌——灵医智惠。灵医智惠依托百度自然语言处理与知识图谱技术的深厚积累,构建了涵盖医学自然语言理解、医学知识体系、医学认知计算三大核心技术在内的循证医学认知引擎,并在此基础上构建医疗AI中台、医疗知识中台和医疗数据中台,面向医疗场景提供临床辅助决策、眼底筛查、智慧病案、智能审方、慢病管理、医疗大数据服务等AI医疗解决方案。
目前,灵医智惠在AI医疗领域的产品和解决方案已触达29个省市自治区、300多家医院、1500多家基层医疗机构,服务数万名医生,惠及千万患者。未来,百度还将持续推动自然语言处理及知识图谱等技术在生物医学领域的技术创新,用科技的力量提升基层医疗水平,为更多人提供更高效、更优质的医疗服务。