人工智能发展跳出三要素?加入“知识”后,医疗AI发展还将面临哪些新问题?

虽是老生常谈,但 人工智能 终究绕不开算法、算力、数据三要素。这些要素环环相扣,紧紧握住了 人工智能 技术的命脉。而医疗场景的 人工智能 产品越来越丰富,毫无疑问也离不开这三个要素的快速发展。

为了再度探索医疗 人工智能 技术发展及产业未来趋势,在前不久举行的全球 人工智能 和机器人峰会(CCF-GAIR 2020)上,包括南京大学计算机系主任 周志华 、华西医院副院长龚启勇、 腾讯 天衍实验室主任郑冶枫、平安集团首席医疗科学家谢国彤、联影智能联席CEO沈定刚在内的医疗 人工智能 顶级专家,对这个三元问题又提出了新的理解。

神经放射科的新需求

华西医院副院长龚启勇同时也是一名放射科医生,他认为,要解决人类神经类疾病,AI的介入必不可少。

在龚启勇对于精神分裂症患者的脑MR影像研究之中,他发现疾病的发展会带动患者脑部结构发生变化,患者多个脑区会因此便膨胀或缩小。如果能够通过影像的方式量化这一类变化,医生就有可能对患者的精神分裂、抑郁症、强迫症等神经疾病进行详细分类。

他在峰会上提到过去的一项研究成果:“一位医生曾发现她的患者在犯强迫症时,某一特定脑区的电波会变得异常活跃,因此她尝试用电极对该区域进行刺激。而后,患者的病症有了明显的改观。”

遗憾的是,该结果在后续的大量实验中并没有表现出绝对的效果,对此,龚启勇认为:“由于人脑的结构非常复杂,想要通过二维的影像准确判断脑部病变位置非常困难,我们无法判断医生在操作时是否准确的刺激了标记区域,因此,我们需要AI技术对脑部进行快速准确的建模,辅助定位。”

“如果我们能够通过AI准确或许患者脑部信息及病变情况,后续的治疗研究或许也将因此受益。”

小样本学习 或能满足AI新需求

龚启勇院长的研究似乎预示着AI确实能够在辅助神经放射学的发展,推动神经类疾病诊断、治疗的进行。但在实际之中,这里存在的数据缺乏问题无疑是挡住研究进展的大山。

通常而言,受制于高昂的费用,疑似精神病病患在检查时并不会直接进行MR诊断,通过患者的实际表现与部分精心设计的量表,医生可以很快完成患者的初诊,进而直接选择通用的治疗方案。这导致精神病患脑MR影像难以收集。

龚启勇院长也提出了多中心协同的临床研究以解决数据问题,通过联合多家医院精心标注的脑部数据,样本量的确能够获得扩充,但仍难以达到AI训练所期望的大数据。

这时,一些新的方法应运而生。

小样本学习 是推动 深度学习 发展的新方向,也是现阶段 腾讯 天衍实验室研究的重点方向之一, 腾讯 天衍实验室主任郑冶枫在会上介绍了两个 小样本学习 算法,用于将来解决医疗影像数据量不足的问题。

第一个方法是 迁移学习 ,即将某个任务(源域)上训练好的模型迁移到另一个任务(目标域)。通过这种方式,我们能够通过源域上的大量数据辅助目标域的小样本数据进行学习,具体表现为“预训练+微调”的模式。

郑冶枫以一个有趣的例子对 迁移学习 的原理进行了表述:“假设你想做一个‘识别老虎’的 计算机视觉 项目,但你却没办法经常接触它,观察它。不过,若你能够养一只橘猫,便能在与它的朝夕相处中,捕捉它进食、玩耍、休憩等过程中的一些特征,进而用于老虎的识别。”

第二个方法是无监督域 自适应学习 ,用以解决域偏移问题。在这个方向上, 腾讯 天衍实验室提出了新型无监督域自适应(UDA)的方法,来缓和域偏移所导致的性能下降,该方法仅仅需要源域的数据、标注以及目标域的部分图像,无需新的标注,即可实现两个领域的自适应。

算力重塑人工智能

不过,仅是对算法进行调整,能够解决医疗 人工智能 中的问题吗?其实,算法本身也有优化的空间。

南京大学计算机系主任 周志华 以当前最大 人工智能 模型“GPT3”为例,谈到了当前 机器学习 中的暴力美学。这个模型用到了45TB训练数据,1750亿参数模型参数,整个模型大小700GB。基于这个模型,很多困难的 自然语言处理 问题都取得大幅度进展。

如此来看,模型、数据的扩张确实能够有效改善模型的质量,但对于医学 人工智能 影像而言,同样会面对数据的问题。

假设医生能够标注足够多的影像,谁来负担高昂的运算费用呢?GPT3一次运算所耗费的算力大概价值1300万美元,即便是模型中存在BUG,也没人愿意对其修改,再耗费巨资跑上一遍。

对于这一问题, 周志华 与郑冶枫给出了不同的解题思路。

周志华 在演讲中表示:“这样的模型能够解决很多问题,带来很大的性能提升。但是如此高昂的成本,也给我们从事 人工智能 研究的人带来了新的挑战,特别值得让学术界从事 人工智能 研究的学者思考一个问题:昂贵的成本必须换来效益回报,模型性能提升,在工业界能提升经济效益,有时哪怕性能提升一两个点,带来的回报可能足以弥补投入。但学术界如果花这么大成本,怎么能带来足够的回报?”

“把对‘ 性能’的追求交给工业界,学术界不必过多地关注“性能”,因为模型性能提高那么几个点,对于学术界并没有多大的意义,仅仅是发表几篇论文的话,对不起这么巨大的投入。那么学术界做什么呢?回到本源,做学术界该做的工作:探路、思考未来”。

与之相反,郑冶枫在接受采访时告诉动脉网:“1%的效率提升对于企业而言意义不大,而学术界应该精益求精,追求更完美的结果。”

谁是更好的路径?现在下定论还太早,但从AI的发展来看,工业与学业的合作,或许才是当下最有可能的发展方向。

三元问题引入“知识”新要素

人工智能 诞生至今已经近70年历史,研究者仍未跳出三要素的影响范围,但随着技术逐渐成熟,要追求下一代的 人工智能 周志华 认为必须引入“知识”这一要素。

如何将“ 机器学习 “与“ 逻辑推理 ”结合,是 人工智能 领域的“圣杯问题”,以往的努力有的是“重推理”,有的是“重学习”,偏重任何一侧都不能充分发挥AI的力量。 周志华 提出了“反绎学习”,希望在一个框架下让 机器学习 逻辑推理 二者能更均衡更充分地发挥效用。

“从现在来看,‘ 机器学习 ’与‘ 逻辑推理 ’结合方式主要有两类,第一类,我们可以看到它是把 机器学习 逻辑推理 中引,但是后面主体还是通过推理来解决问题,所以我们称它是推理重而学习轻。第二种做法基本上是反过来,它把 逻辑推理 的技术往 机器学习 里面引,但是后期主要的问题是靠 机器学习 来解决,所以我们称它是学习重而推理轻。总是一头重一头轻,这就意味着有一头的技术没有充分发挥威力。”而“反绎学习”则是两者的融合。

对于 周志华 的观点,郑冶枫也表示非常认同,但他也提出了其中实现的困难:“在 人工智能 的初期,我们便尝试将 先验知识 融入AI算法模型。但由于不同的知识在融入的过程中必须遵循不同的方式,而没有一种通法。此外,当时我们的模型跑起来并不如大量数据支持的黑箱模型有效,这其实有点打击人。不过,如今时代已经不同,知识的加入或许能够彻底改变当前的 人工智能 。”

AI大有可为

无论是算法、算力、数据,还是可能加入的知识,一切都将服务于医生,服务于具体的场景,只有场景是AI的试金石。

对此,在平安集团首席医疗科学家谢国彤看来,AI的发展必须要借助生态的力量,医疗科技的付费是企业、医保、患者三方的角逐。

他在采访中这样谈到:“卫健委很信任我们,因为我们有保险生态,其激励便是让患者健康、长寿,以控制保险风险。因此,我们与卫健委的利益是一致的”

另外,他也表示:“其实影像只是医疗体系中很小的一个科室,AI在领域之中的应用非常有效,是大势所趋。即使有同行者在前行路上倒下,这也很正常。错误的经验也是经验,一切积累,将帮助我们走得更远。

动脉网
动脉网

专注医疗产业服务平台

产业 医疗AI AI 人工智能