-
背景
文章介绍了在临床任务中因为标注医学图像的成本高昂,几乎不可行,所以少样本学习(Few-shot learning)变得尤为重要。以往研究采用医学图像预训练模型以获得特定领域先验知识,但这些工作依然需要大量医学图像进行预训练。然而,随着在自然图像中取得显著成功的视觉基础模型的出现,直接用这些模型适应少样本的临床任务变得具有很大的潜力。 -
已有的工作 既有的研究依然需要大量的数据进行微调,尤其在极端的少样本情况下,医学领域的模型和自然图像领域的模型之间存在着显著的域差异。这就需要研究一个有效的方法,来将自然图像中的视觉基础模型适应到少样本临床任务中去。
- 提出了一个基于大型语言模型的标签上下文化方法
-
挑战1:域内差异及极少样本 文章指出,目前的适应方法可能因为领域巨大的差距以及非常有限的样本量而性能下降严重。论文解决这个问题的方法是通过冻结原始模型的若干浅层,仅微调剩余的层。
-
挑战2:有效的语义指导 研究者发现,仅使用类别名称进行模型训练时可能会导致所有类别之间的高度相似性,因而无法准确刻画类别间关系。为了解决这个问题,提出使用大型语言模型进行标签的上下文化,从而显著提高不同类别之间嵌入的区分度。
-
作者们提出的方法在NeurIPS 2023 MedFMC挑战赛中取得了第一名的成绩。与标准微调方法相比,论文提出的部分冻结微调简化变体在少样本适配中显著提高了效率,并且在所有不同环境设置下均展现出高性能,甚至超越了如LoRA和Visual Prompt Tuning等先进技术。此外,论文提出的利用大型语言模型的标签上下文化方法使得在1-shot设置中相较于常用的one-hot标签以及其他语义指导方法,能提高3%-5%的模型性能。
本文提出了一个在少样本的医学图像分类中通过冷冻一部分网络层进行高效的微调方法,并且引入了大型语言模型来上下文化标签,以提供有效的语义指导。方法在挑战赛中取得了优异的成绩,表明在处理少样本场景下自然图像模型到医学图像任务的适配问题时具有很高的有效性。