ICLR 2023杰出论文奖得【dé】主分享:适【shì】配任意密集预【yù】测【cè】任务的通【tōng】用小样本【běn】学习器

2024-9-21 11:28:23来源:新智元

国际学习表【biǎo】征会【huì】议 ICLR(International Conference on Learning Representations),被公认为当前最具影响【xiǎng】力的机器学习国际学【xué】术会【huì】议之一。

在今年的 ICLR 2023 大会上,微软亚洲【zhōu】研究院【yuàn】发表了在机器学习鲁棒性、负责【zé】任【rèn】的人工智能【néng】等【děng】领【lǐng】域的最新研究成果【guǒ】。

其中,微软亚【yà】洲研【yán】究【jiū】院与韩国科学技术院(KAIST)在双方【fāng】学【xué】术【shù】合作框架【jià】下的科研合作成果,因出色的清晰【xī】性、洞察【chá】力、创造力和【hé】潜在的持久影响获评 ICLR 2023 杰出【chū】论文奖【jiǎng】。


(相关资料图)

论文地【dì】址【zhǐ】:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密集预测任务是计【jì】算机【jī】视【shì】觉领域的一类重要任务,如语【yǔ】义分割、深度估计、边缘检测和关键点检【jiǎn】测等。对于这【zhè】类任务,手【shǒu】动标注像素级标【biāo】签【qiān】面临着难以承受【shòu】的巨额成本。因此,如何【hé】从少量【liàng】的标注数据中学【xué】习并作出准确预测,即【jí】小样本学习,是该领域备受关注的【de】课【kè】题。近年来【lái】,关于小【xiǎo】样【yàng】本学【xué】习的研究不断【duàn】取得突破【pò】,尤其是一些基于元学习和【hé】对抗【kàng】学习【xí】的方法,深受学术【shù】界【jiè】的关注和欢迎。

然而,现有的计【jì】算机【jī】视觉小样【yàng】本学习方法一般针对特【tè】定的【de】某类【lèi】任【rèn】务【wù】,如分类【lèi】任务或语义分割【gē】任【rèn】务。它【tā】们通常在设计模型架构和训练【liàn】过程中利用特定于【yú】这些【xiē】任务的先【xiān】验知识和【hé】假设,因此不【bú】适合推广到任意的密集预测任务。微软亚洲研究院的研究【jiū】员【yuán】们希望探【tàn】究【jiū】一【yī】个核心问题:是否存在一种通用【yòng】的小样本学习器,可以从少量标记图像中学习【xí】任意段未见过的密集预测任务。

一【yī】个密集预测任务的目【mù】标是学习【xí】从输入图像到以像素为单位注释的【de】标签的【de】映【yìng】射,它可以被定【dìng】义为:

其【qí】中 H 和 W 分别是图像的高与【yǔ】宽,输入图像【xiàng】一般包含 RGB 三个通道,C_Τ 表示【shì】输出通道的数目。不【bú】同的密集预测任务可能涉及【jí】不同的输出通道数目【mù】和【hé】通道属性,如语义分割任务【wù】的输出是多【duō】通【tōng】道二值的,而深度估【gū】计任务【wù】的【de】输出是单【dān】通道连续【xù】值的。一个【gè】通用的小样本学习器 F,对于任何【hé】这样的任务 Τ,在【zài】给定少量标记样本支【zhī】持集 S_Τ(包【bāo】含了 N 组【zǔ】样本【běn】 X^i 和标注【zhù】 Y^i)的情况下,可【kě】以为未见过的查询图像【xiàng】 X^q 产生预测,即:

如【rú】果【guǒ】存在适配任【rèn】意【yì】密集预测【cè】任务的通用小样本学习器,那么必须满足【zú】以下【xià】期望:

首先【xiān】,它【tā】必须具备 e 统【tǒng】一的体【tǐ】系结构。该结【jié】构能【néng】够处理任意密集预测【cè】任务,并共【gòng】享大多【duō】数任务所需的参【cān】数,以便获【huò】取可【kě】泛化的知识,从【cóng】而【ér】能以小量【liàng】样本学习任意未见过【guò】的任务。其次,学习器应该灵活地调整【zhěng】其预【yù】测机【jī】制,以【yǐ】解【jiě】决具有各【gè】种语义的未见过【guò】的任务,同时足够高效,以防止过度拟合。

因此,微软【ruǎn】亚【yà】洲【zhōu】研【yán】究院的研究员【yuán】们【men】设计并实现了小样【yàng】本学习器视觉token匹配 VTM(Visual Token Matching),其可用于任意的密集预测【cè】任务【wù】。这是首个适配所有密集预测任务的小样本学习器,VTM为计算机视觉中密集【jí】预测任务的【de】处理以及【jí】小【xiǎo】样本学习方法打开了全【quán】新的思【sī】路。该工作获得了ICLR 2023 杰出论文奖

VTM 的【de】设计灵感源于【yú】类比人类的思维过程:给定一【yī】个新任务的少量示【shì】例,人类可以根【gēn】据示例【lì】之【zhī】间的相似性快速将类似的输出【chū】分配给类似【sì】的输入,同时【shí】也【yě】可以【yǐ】根据给定的【de】上下文灵【líng】活变通输【shū】入和输出【chū】之间在哪些层面相【xiàng】似。研究员们【men】使【shǐ】用基于图像块(patch)级别的【de】非参数匹【pǐ】配实现了密集预【yù】测的类比【bǐ】过程。通过【guò】训练【liàn】,模型被启发出了捕捉图像块中【zhōng】相似性的能【néng】力。

给定一【yī】个新任务的少量标记示例,VTM 首先会根据给定的示例【lì】以及【jí】示例的标签【qiān】调整【zhěng】其对相【xiàng】似性的理解【jiě】,从示【shì】例【lì】图像块中锁定与待预【yù】测【cè】图像块相似的图【tú】像块,通过组合它【tā】们的标签来预测未见过【guò】的图像块的标【biāo】签。

图1:VTM 的整体架构

VTM 采用分层的编码器-解【jiě】码器架构,在【zài】多个层次【cì】上实现了基于图像块的非【fēi】参【cān】数【shù】匹配。它【tā】主要由【yóu】四个【gè】模块组【zǔ】成,分别为【wéi】图像编码器 f_Τ、标签编码器 g、匹配【pèi】模块和标【biāo】签解码器 h。给定查【chá】询图像和支持集【jí】,图【tú】像编码器【qì】首先会独立【lì】地【dì】提取每个查询和支【zhī】持图像的【de】图像【xiàng】块级表达【dá】。标签编【biān】码【mǎ】器也会类似地提取【qǔ】每个支持标签的标【biāo】记。在每个层次的标记给定后,匹配模块【kuài】会执行非参【cān】数匹【pǐ】配,最终由标签解码器推断出查询图像的【de】标签。

VTM 的【de】本质是一个元学习方【fāng】法。其训练【liàn】由多个 episode 组成,每个 episode 模拟一个【gè】小样【yàng】本学习问题。VTM 训练运用到了元训【xùn】练数据集 D_train,其中包含多种有标【biāo】签【qiān】的密集预测任务示例。每个训练 episode 都会模拟数【shù】据集中特【tè】定任务 T_train 的小样本学习场景,目标是在给定支【zhī】持集的条件【jiàn】下,为查询图像产【chǎn】生正确的标签。通过多个小【xiǎo】样本学习的经验,模型【xíng】能【néng】够【gòu】学习到通【tōng】用的知识【shí】,以【yǐ】便【biàn】快【kuài】速【sù】、灵活【huó】地适应新的【de】任务。在测试【shì】时,模【mó】型需要【yào】在训练【liàn】数据【jù】集 D_train 中未包含【hán】的【de】任意任【rèn】务 T_test 上【shàng】进【jìn】行小样本【běn】学习。

在处理任意任务【wù】时,由于元训练【liàn】和测试中的每个任务【wù】的输出维度 C_Τ 不同,因此使【shǐ】得为所有任【rèn】务【wù】设计【jì】统一的通【tōng】用模型参数成为了巨大挑战【zhàn】。为了【le】提供【gòng】一个简单而普适的解【jiě】决【jué】方案,研【yán】究员们将任务【wù】转换【huàn】为 C_Τ 个单通道子任务【wù】,分别学习每【měi】个通道【dào】,并使用共【gòng】享的模型 F 独【dú】立地对每个子任务进【jìn】行建模。

为了测【cè】试 VTM ,研究员们还特别构建【jiàn】了 Taskonomy 数据集的一个变种,从而模拟未见过【guò】的【de】密集预测任【rèn】务的【de】小样本【běn】学习。Taskonomy 包【bāo】含各种标【biāo】注过【guò】的室内【nèi】图【tú】像,研究员们从中选择了【le】十个具有不同【tóng】语义和输出维度的密集【jí】预【yù】测任【rèn】务,将其分为五部分用于【yú】交叉验证。在每【měi】个拆分方式中,两个任务【wù】用于小样本评估(T_test),其余八【bā】个任务用【yòng】于训练(T_train)。研【yán】究员【yuán】们仔细【xì】构造了分区,使得训练和【hé】测【cè】试任务彼【bǐ】此有足够【gòu】的【de】差异,例如【rú】将边【biān】缘任务(TE,OE)分组为测试任务,以便对新语义【yì】的任务进行评估【gū】。

表1:在 Taskonomy 数据【jù】集【jí】上的定量比【bǐ】较( Few-shot 基线【xiàn】在训【xùn】练了来自其他分区的任务后,在需测试【shì】的分【fèn】区任务上【shàng】进行了 10-shot 学【xué】习,其中【zhōng】完全监督的基线在每【měi】个 fold(DPT)或所有 fold(InvPT)上训练和评估了任务【wù】)

表1和【hé】图【tú】2分别定量【liàng】与定性地【dì】展示了 VTM 和两类【lèi】基线模型在十个密集预测任务上的【de】小样本【běn】学习性能【néng】。其中【zhōng】,DPT 和 InvPT 是两种最先进的监督学习方法,DPT 可独立地针对每个单【dān】一任【rèn】务进行训练,而 InvPT 则可以联合训【xùn】练所有【yǒu】任务。由于在 VTM 之前【qián】还没有针对通【tōng】用密集预测任务开【kāi】发的【de】专【zhuān】用小样本方法,因此【cǐ】研究员们将 VTM 与【yǔ】三种最先【xiān】进【jìn】的小样本分割【gē】方法,即【jí】 DGPNet、HSNet 和 VAT,进行【háng】对【duì】比【bǐ】,并把它们拓展到处理密集【jí】预测任务的【de】一般标签空间。VTM 在训练期【qī】间没有访问测试【shì】任【rèn】务 T_test,并且仅在测试【shì】时使用了少量(10张)的标记图像,但【dàn】它却【què】在所有小样本基线【xiàn】模型【xíng】中表现得最【zuì】好,并且在【zài】许多任务【wù】中的【de】表现都具备与全监督基线模【mó】型比较的竞争力。

图2:在 Taskonomy 的十个密集预【yù】测任【rèn】务中,在新任【rèn】务上【shàng】仅提供【gòng】十张标记图像的小样本学习【xí】方法【fǎ】的定性比较【jiào】。在其他方法【fǎ】失败的情况下, VTM 成【chéng】功地学习了所有具【jù】有不同语义和不【bú】同标【biāo】签表示的新【xīn】任务。

在图2中,虚线上方的【de】分别是真【zhēn】实标签和两种监【jiān】督学【xué】习方【fāng】法 DPT 和 InvPT。虚线下方的是小样本学习方法。值得注【zhù】意的是,其他小样本【běn】基线在【zài】新任【rèn】务上出现了灾【zāi】难性的【de】欠【qiàn】拟合,而 VTM 成功地学【xué】习【xí】了所有任务。实【shí】验说明,VTM 可以在极少量的标记示例【lì】(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用于任意密【mì】集预测任【rèn】务,因为匹配算法本质上包含所【suǒ】有任务【wù】和【hé】标签【qiān】结构(例如,连续或离散)。此外,VTM 仅引入了少量【liàng】的【de】任务特定参数,就【jiù】能具备抗过拟合性与灵活性【xìng】。未来研究员【yuán】们希望进一【yī】步探究预训练过【guò】程中【zhōng】的任务【wù】类型、数据量、以【yǐ】及【jí】数【shù】据分布对模型泛【fàn】化【huà】性能的影响,从而【ér】帮助我们构【gòu】建一个真【zhēn】正普适的小样本学习器。

为你推荐

最新资讯

股票软件