探索 AI 和医学结合更多的可能性,是医疗机器智能增长的一个关键命题。
AutoML 作为近年来备受瞩目的场景参数概念之一,被视为解决运算规则工程师来提高训练模型效率的模型一个工具,在工业、量更类准农业、确率零售等诸多场景中均有被使用。港科更高
而随着 AI 在医学影像分析、大褚医疗决策、晓文下的小分个人就诊助手等场景领域的医疗广泛应用,AutoML凭借其智能化、场景参数自动化等特性,模型也引发了越来越多研究团队开始思考:如果将其放置在医学场景下,量更类准是否也能获得不错的结果?
褚晓文,香港科技大学(广州)信息科学与分析学域正教授,由他所带领的团队也是这条探索路上的分队之一。
近日,褚晓文将在 IEEE x ATEC 科技思享会上进行题为《 AutoML 在基于胸部 CT 影像的 Covid-19 辅助鉴别中的应用》的主题演讲,解析 AutoML 的基本概念和核心工艺,并通过他们近两年的相关工作,介绍 AutoML 在医疗影像领域的潜在应用。
通过强大的算力解锁复杂场景信息,AutoML 能够极大地减轻医生工作量,实现更加智能化的计算机辅助鉴别,提供更准确的商场自拍流出未删减决策依据,在一定程度上提高了诊疗效率,精准节省医学成本。
AutoML + 医学
从病症辅助鉴别诊疗、慢病风险预测,到广泛的亚健康智慧康养,AI 工艺的出现和广泛应用,驱动传统医疗研究迈进了全新的阶段。作为「AI +医学」的一个关键研究方向,「AI +医学影像」的工艺日趋成熟,在覆盖病种数量、鉴别速度和准确性等方面也不断地实现突破。
图注:褚晓文
褚晓文,1999年于清华大学计算机科学与工艺系获得学士学位,2003年博士毕业于香港科技大学计算机科学系。2003年到2021年,他在香港浸会大学计算机科学系任职助理教授、副教授、正教授,现任香港科技大学(广州)信息科学与分析学域正教授。
他研究兴趣包括 GPU 计算、分布式机器学习、云端服务和无线网络等,在各种国际学术期刊和会议中发表论文200余篇,谷歌H指数为46,论文引用7900余次。曾获得 2021年 IEEE INFOCOM、2021年 DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom等国际会议的最佳论文奖,是IEEE资深会员和ATEC 2021高级咨询委员会专家。
褚晓文和研究团队从2018年开始对 AutoML 调研,使用 AutoML 应用于医学场景下的研究。
2019年年末,一场突如其来的疫情席卷了全球, Covid-19 的出现给人们的生活按下了暂停键。Covid-19 的检测鉴别方法主要包括了核酸检测和基于医学影像的人工鉴别,二者各有利弊,核酸检测耗时较长、且又需要专用的测试盒,而基于医学影像的人工鉴别则十分依赖专业知识,分析耗时较长并且还难以发现隐匿病变。
褚晓文和研究团队开始考虑是否可以通过使用 AutoML 来辅助鉴别 Covid-19 检测,提高检测效率。随着X射线图像和计算机断层扫描图像信息集的相继提出,褚晓文与香港浸会大学的博士研究生贺鑫在已有图像和信息集的基础上构建基于深度学习的 Covid-19 检测鉴别模型,总结 Covid-19 检测鉴别的主流影像信息集和相关评价指标。
此外,在论文“Survey of Studies of COVID-19 Diagnosis Based on Deep Learning”中,褚晓文和研究团队从模型任务和影像信息类型两个角度出发,还介绍了现有的 Covid-19 检测鉴别模型,并对骨干网络、信息集、影像类型、性能表现、分类种类和开源情况六个维度进行比较与分析。
目前,深度学习在基于胸部影像的 Covid-19 辅助鉴别中得到广泛应用,各种人工设计的深度学习模型在不同的 Covid-19 信息集上表现各异,缺乏一种通用的适用于不同信息集的神经网络结构,同一个模型在不同场景中的适用程度也不相同。
AutoML 在 Covid-19 辅助鉴别中的应用,旨在给定信息集上自动搜索一个高效的神经网络模型,可以大大减少繁复的人工设计和调优过程,将科学家们解放出来去做更有意义的事。
为了解决基于权重共享的网络搜索策略中的稳定性问题,褚晓文和研究团队提出一种有效的进化多目标结构搜索框架。此外,针对信息集匮乏的问题,他们还提出了一种集成自动信息增强和自动网络搜索的新框架,这一框架在三种公开 Covid-19 信息集上均取得了优异的性能。
为了进一步理解褚晓文教授在 AutoML 的研究工作,AI 科技评论同他进行了一次深入对话。
对话褚晓文
AI 科技评论:在 Covid-19 的辅助鉴别中,您使用的是开源的点工具还是平台?目前预测效果如何,在哪一个任务的应用效果更好?
褚晓文:我们基于微软亚洲研究院开发的 NNI(Neural Network Intelligence)早期版本搭建了自己的分布式AutoML框架,重构了一些基础模块,使得各个模块复用性更好。后面一些研究工作也都是基于这套框架完成的。
目前,我们主要是在CT信息集上进行了图像分类的任务,实验结果显示,使用 AutoML 搜索到的深度学习模型不仅参数量更小,而且分类准确率也比流行的卷积神经网络更高。此前 NVIDIA 研究团队利用 AutoML 在医疗影像分割任务上也取得了很好的效果。
AI 科技评论:Covid-19 的特点是其快速传播能力,这也意味着使用 AutoML 研究的图像集也在不断扩大,训练信息集需要不断地扩充。对于这一点,您和团队是怎么解决的?如何提高模型的泛化能力?
褚晓文:AutoML可以看成是超参优化(HPO,Hyper-paramter optimization),神经架构搜索(NAS,Neural architecture search),信息增强(DA,data augmentation)等方法的集成,但目前我们更多聚焦在 NAS 方面的研究,也即是使用 NAS 针对特定信息集或任务、去自动搜索模型的结构和超参数。
但医疗信息集比较特殊,涉及到隐私问题,所以前期信息集的大小和数量都不是很充足,并且还存在类别不均衡的问题。Covid-19 信息集规模扩大,反而能更好地帮助我们搜索更优的模型。目前,我们也在尝试将 DA 和 NAS 结合起来进行搜索,希望得到更好的模型泛化能力。
AI 科技评论:针对信息的噪声和不一致性等难点,您和团队是怎么保证运算规则的准确性和高效性呢?
褚晓文:此前,我们的工作主要是基于 Covid-19 3D CT信息集,其常见的信息噪声表现包括切片中不包含肺、切片顺序错误或者重复等。对于这些信息噪音,我们主要采用人工的方式来修正。自动化信息清理本身也是一个关键的研究课题,但关于这方面的研究我们还没有开展。
针对信息不均衡的情况,我们采用的是信息增强和调整采样频率的方式来解决。
而在信息不一致方面我们发现,信息集的质量对识别精度的作用甚至要高于模型本身的作用。通常要找一个人工设计的深度学习模型去适配所有信息集很难,因此我们觉得,利用 AutoML 工艺针对某个特定的信息集,例如来自同一诊所同样设备及同一地域病人群体的信息集,去搜索同信息集相对应的模型,会是 AutoML 一个很好的应用场景。
AI 科技评论:目前在系统的部署环节上难度如何?考虑到更大规模和多个病人的鉴别需求,您此前在分布式机器学习(联邦学习)上的研究有没有带来哪些灵感?
褚晓文:目前,由于缺乏和医疗机构之间的合作,我们还没有在真实场景中去测试模型性能。但在公开信息集的实验中我们发现,AutoML 能够搜索到参数量更小而且分类准确率更高的模型。
我们也尝试研究过联邦学习在 Covid-19 鉴别上的应用,模拟在几个信息孤岛上进行联邦学习,结果显示,质量较差的信息孤岛的确能够受益于联邦学习,但高质量的信息孤岛却很难有性能提升,甚至有可能被其他信息集所拖累。这是一个非常有趣的课题,我们将来也会更加深入地去研究。
AI 科技评论:您的主要研究方向是什么?取得过哪些突出成果?
褚晓文:目前我主要的研究方向是高性能机器学习系统。得益于我在 GPU 计算和分布式计算领域的研究经验,我们是较早关注大规模分布式机器学习的团队之一,2016年研发了世界上最早开源的深度学习基准测试系统之一 DLBench ,在学术界和工业界都引起较为广泛的关注。
之后,我们团队又和一些企业合作研发了系列分布式训练的原创性工艺,于2018年使用2048张 GPU 在 ImageNet 信息集上实现了图像分类任务的全球最快训练速度。
此外还设计和实现了多种分布式机器学习训练的通信优化方法,在国际会议 IEEE INFOCOM、IEEE ICDCS 和国际期刊 IEEE TPDS 发表过多篇学术论文,并获得 IEEE INFOCOM 2021年的最佳论文奖。
AI 科技评论:您从什么时候开始使用 AutoML 做研究的?期间一共经历了哪几个研究阶段?
褚晓文:2018年,我们开始对 AutoML 调研,它最具吸引力的地方就正如其名——自动机器学习,这是一个非常美好的期许,可以把科研工作者和工程师从枯燥的调参过程中解放出来,去做更有意义的事。
目前我们在 AutoML 方面大概经历了几个阶段:
第一,通过调研现有的 AutoML 相关工艺,我们参考300多篇相关文献完成了一篇 AutoML 的综述论文,它是国际著名期刊 Knowledge-Based Systems 近三年来引用和下载最高的论文之一,对AutoML的普及起到了一定的促进作用。
第二,在正逢 NAS 研究热度高的时候,我们在不同的任务上验证了 NAS 的有效性,包括医学图像分类和生成对抗模型。
在那之后我们还做了一些工作,尝试去更本质地认识模型结构对性能的作用,另外也尝试从系统设计的角度去提高 AutoML 的效率和可扩展性。
AI 科技评论:医学场景是您的第一选择么,最初面向的是哪一个医学场景或哪一种人体病症?
褚晓文:我们团队尝试医学场景的研究始于2018年。当时,香港发生了一起由皮肤病引起的社会悲剧,我从媒体上了解到,香港的公立医疗体系内只有30多位皮肤科专科医生,但同一时间的轮候病人却达到5万多人。这个对我的触动非常大,也正因如此,我开始思考是否可以通过机器智能的方法来解决皮肤病鉴别的问题。
后面我们从互联网上搜集了很多相关的信息,也取得了一些初步成效。但受限于图片的版权问题,目前我们已搜集和清理的信息集无法对外公开,这个方面的研究也停留在学术层面。
AI 科技评论:当前医学场景对 AutoML 提出了怎样的要求,研究难点是什么?
褚晓文:由于医学信息比较敏感和隐私,所以通常很难拿到大量的信息集;与此同时,有经验的医生时间成本很高,这也导致高质量的信息标注工作非常困难,如何在有限的信息集上使用 AutoML 搜索到泛化性能好的模型是一个不小的挑战。
另外,我们还需要避免信息隐私泄露,例如 Model Inversion Attack 能够逆向获取原始信息,因此,使用 AutoML 搜索出更保障的模型也是未来一个值得关注的方向。
AI 科技评论:当前 AutoML 在医学场景中的应用距离临床阶段还有多远?
褚晓文:AutoML 是一个新兴的工艺,增长很快,但其本质上还是属于机器学习和深度学习的范畴,只是利用了新的优化方法和大量的计算资源来取代传统的人工设计和调参,离部署到实际应用中还有一定的距离,并没有拉长或缩短机器学习和临床阶段的距离。
由于 AutoML 是多个流程组成,但目前大多数研究往往只是针对单个流程,比如 NAS 或者 DA 。其原因在于,当使用多个流程一起搜索时,会导致搜索空间的指数级增长,如何在巨大的搜索空间中高效搜索到优秀的模型和信息增强策略仍是一个不小的挑战。
此外,如何厘清机器智能医疗器械相关的法律和伦理问题,也是一个富有挑战性和迫切性的课题。
AI 科技评论:您之后是否有计划将 AutoML 使用在其他领域或场景的研究中?
褚晓文:目前,我们团队已经开始把 AutoML 工艺使用在智能驾驶场景的感知问题中,希望能够搜索出既满足模型精度要求,又满足推理实时性要求,同时还能符合硬件约束的轻量级模型。
(雷峰网雷峰网(公众号:雷峰网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
历经去年持续一年之久的百模大战后,今年伊始,落地应用开始成为大模型的主流叙事方式。本以为,在月之暗面、智谱、MiniMax、百川、零一万物等一众明星企业之后,关于通用大模型的格局既定,没想到,平静水面
全报融资快报Groq 获贝莱德 3 亿美元投资,最新估值 22 亿美元Groq 创始人Jonathan Ross,毕业于纽约大学,曾在谷歌 X 实验室参与多个项目,包括 Tensor Processing
风台秀来源标题:千年古都的时代华章,《城市风华录》走进文明城市洛阳洛阳,一座拥有5000多年文明史、4000多年建城史和1500年建都史的古都。作为华夏文明的重要发祥地,这里既是丝绸之路的东方起点,也是隋唐
事榜今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内,已经完成了三轮融资,总金额达数亿元人民币,天使轮投资方为源码资本、高榕创投和
风谈讯今日融资快报AI手术平台Caresyntax获1.8亿美元C+轮融资caresyntax致力于促进特定医疗环境如外科手术、介入放射检查及产科)更加智能和安全。其推出的解决方案利用物联网、数据分析和人工
风事乐Copyright © 2018-2023 聚焦吃瓜坊- 关注生活,分享精彩故事 All Rights Reserved. XML地图聚焦吃瓜坊- 关注生活,分享精彩故事