ICLR 2023杰出论【lùn】文奖【jiǎng】得主分享:适配任意密【mì】集预【yù】测任务的通【tōng】用小样本学习【xí】器

2024-9-21 11:28:23来源:新智元

国际【jì】学习表【biǎo】征会议 ICLR(International Conference on Learning Representations),被公认为当前【qián】最具影响力【lì】的机器学【xué】习国际学术会议【yì】之一【yī】。

在【zài】今年的 ICLR 2023 大会上,微软亚洲研【yán】究【jiū】院发【fā】表了在机器学【xué】习鲁棒【bàng】性、负【fù】责任的人【rén】工智能等领域的最新研究成果【guǒ】。

其中【zhōng】,微【wēi】软亚洲研究院与韩国科【kē】学【xué】技术院(KAIST)在【zài】双方学术合作框架下的科研合【hé】作【zuò】成果,因出色的清晰性、洞【dòng】察力【lì】、创【chuàng】造力和潜【qián】在的持【chí】久影响获评 ICLR 2023 杰出论文奖。


(相关资料图)

论文【wén】地址【zhǐ】:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密集【jí】预【yù】测任务是计算【suàn】机视觉领域的一类重要任务,如语【yǔ】义分割、深度估计、边缘检测和关【guān】键点【diǎn】检测等【děng】。对【duì】于这类任务,手动标注像素级标【biāo】签面临着【zhe】难以承【chéng】受的巨额成本。因此【cǐ】,如何从【cóng】少量【liàng】的标【biāo】注数据中学习并【bìng】作出【chū】准【zhǔn】确预测,即小样本学习,是【shì】该【gāi】领域备受关注的课题【tí】。近【jìn】年【nián】来,关【guān】于小样本学习的研究不断取得突破,尤【yóu】其【qí】是一些基于元学习和对抗学习的【de】方法,深受学【xué】术【shù】界【jiè】的关注和欢【huān】迎。

然而,现有的【de】计【jì】算机视觉【jiào】小【xiǎo】样本【běn】学习方法一【yī】般针对特【tè】定的某类【lèi】任【rèn】务,如分类任务或语义分割任务。它【tā】们通常在设计模型架构和【hé】训练过程中利用特定于【yú】这些【xiē】任务的先验【yàn】知识和假设,因此不适合推广到任意【yì】的密集预测任【rèn】务。微软亚【yà】洲研究院的【de】研究员们希望探究一个【gè】核【hé】心问题:是否存在一【yī】种通用的小样本学习器,可以【yǐ】从少量标记图【tú】像中【zhōng】学习任意段【duàn】未见过的【de】密集预【yù】测任【rèn】务。

一个密集预测【cè】任务的【de】目【mù】标是【shì】学习从输入【rù】图像到以像素为【wéi】单位注释的标签的映射【shè】,它可以被定义为:

其中 H 和 W 分别是图像的高与宽,输入图【tú】像一般【bān】包含 RGB 三【sān】个通道,C_Τ 表示【shì】输出通道【dào】的数【shù】目【mù】。不同的密集预测任务可能涉【shè】及不同的输【shū】出通道数目和通道【dào】属性,如【rú】语义【yì】分割【gē】任【rèn】务的输出是多通道二值的【de】,而深度估计任务的输出是单通道连续值的【de】。一个【gè】通用【yòng】的【de】小样本学【xué】习【xí】器 F,对【duì】于任何这样的任务 Τ,在【zài】给【gěi】定少量【liàng】标【biāo】记样本支持集 S_Τ(包含了 N 组样【yàng】本 X^i 和标注【zhù】 Y^i)的情况下【xià】,可以为未见过的查询【xún】图像 X^q 产生预测,即:

如【rú】果存在适【shì】配任【rèn】意密集预测任务的【de】通用小【xiǎo】样本学习器,那么必须满足以下期【qī】望:

首先,它必【bì】须具【jù】备 e 统【tǒng】一的体系结【jié】构。该结构能够处理任意密集预测【cè】任务,并【bìng】共享大多【duō】数【shù】任务所需的参数,以便获取可泛化的知识,从而能以小量【liàng】样本【běn】学习任意未见【jiàn】过的【de】任务【wù】。其次,学习器【qì】应该灵活地调整其预测【cè】机制,以解决具有各种语【yǔ】义的未见【jiàn】过【guò】的任务,同【tóng】时足够高效,以防止过度拟合。

因此【cǐ】,微软【ruǎn】亚洲【zhōu】研究院的研究员们设【shè】计并【bìng】实现了小样本学习器视觉token匹配 VTM(Visual Token Matching),其可用于任【rèn】意的密集预测【cè】任务。这【zhè】是【shì】首个适配所有密集预测任务的小样本学习器,VTM为计【jì】算机视觉中密集预测任务的处理以及【jí】小【xiǎo】样本学【xué】习方法打开了全新的【de】思路【lù】。该工作获得了ICLR 2023 杰出论文奖

VTM 的【de】设计【jì】灵感【gǎn】源于类比人类的思维过程:给【gěi】定一个新任务的少量示例【lì】,人【rén】类可以根据【jù】示例之间的相似性快速将类似【sì】的输出分配给类似的输【shū】入【rù】,同时也可以根据给定【dìng】的【de】上下文灵【líng】活变【biàn】通输入和输出【chū】之【zhī】间在哪些层【céng】面相似。研【yán】究员们使【shǐ】用基于图像【xiàng】块(patch)级别的非参数匹【pǐ】配实现了密集预测的类【lèi】比过程。通过训练【liàn】,模型被启发出【chū】了捕捉图像块中相【xiàng】似性【xìng】的能力。

给定一个新任务的少量标记示例【lì】,VTM 首【shǒu】先【xiān】会根据【jù】给定的示例【lì】以及示【shì】例的标签调【diào】整其对相似【sì】性的理解,从【cóng】示例图像【xiàng】块中锁定与待预测图像【xiàng】块相【xiàng】似的图像【xiàng】块,通过组合【hé】它们【men】的标签来预测未见过的图像块的【de】标签。

图1:VTM 的整体架构

VTM 采用【yòng】分层的【de】编码器【qì】-解码器架【jià】构【gòu】,在【zài】多个层次上实现了基【jī】于图像【xiàng】块的非参【cān】数匹配。它主要由四个【gè】模块组成,分【fèn】别为图像编码器 f_Τ、标签编码器 g、匹配模块和标签【qiān】解码器 h。给定查询【xún】图像【xiàng】和支持集,图像编码器首先【xiān】会独立【lì】地提【tí】取每【měi】个查询和支持图像的图像块【kuài】级表达。标签【qiān】编【biān】码器也会类似地提取每个支持标签的标记。在每个层次的标记给定后【hòu】,匹配【pèi】模块【kuài】会执行非参数【shù】匹配,最终由【yóu】标签解码器【qì】推断出查询图【tú】像的标签【qiān】。

VTM 的本质是一个元【yuán】学习方法。其【qí】训练由多【duō】个 episode 组成,每【měi】个 episode 模拟一个小样本【běn】学【xué】习问题。VTM 训练运用到了元训【xùn】练数据集 D_train,其中包含多种有标签的【de】密【mì】集预测【cè】任务示例。每个【gè】训练 episode 都会模拟数据集中特定【dìng】任务【wù】 T_train 的小样本学习【xí】场景,目标是在给定支持【chí】集的条件下,为查【chá】询图像产生【shēng】正确的标签。通【tōng】过多【duō】个小样本学习的经验【yàn】,模型【xíng】能够【gòu】学习到【dào】通用的【de】知识【shí】,以便快速、灵活地适应新【xīn】的任务。在【zài】测试时,模型需要【yào】在训【xùn】练【liàn】数据集 D_train 中【zhōng】未包含【hán】的【de】任意任务 T_test 上进行小样【yàng】本学习。

在处理任意【yì】任务时,由于元训练和测【cè】试中的每个任务的【de】输出维度 C_Τ 不同,因此使得为所有任【rèn】务【wù】设计统一的通【tōng】用模【mó】型参【cān】数成为了巨大挑战【zhàn】。为了提供一个【gè】简【jiǎn】单而普适的解决方案,研究员们将任务转换为 C_Τ 个【gè】单【dān】通【tōng】道子任务【wù】,分别学习每个通道,并【bìng】使用共享的模【mó】型【xíng】 F 独立地对每个子任务【wù】进行建模。

为了【le】测试 VTM ,研究员们还特别构【gòu】建了【le】 Taskonomy 数据集的一个变种,从而模【mó】拟未【wèi】见过【guò】的密集预测任务的小样本学【xué】习。Taskonomy 包【bāo】含各种标【biāo】注过的室内图像,研究员【yuán】们从中选择了十个【gè】具有不【bú】同语【yǔ】义和输出维度的密集预测任务,将【jiāng】其分为五部分用【yòng】于交【jiāo】叉验证。在【zài】每个拆分方式【shì】中,两个任务用于小样【yàng】本评估【gū】(T_test),其【qí】余八个任【rèn】务用【yòng】于训【xùn】练(T_train)。研究员们仔细构造了分区,使得训练和测试任务彼此有【yǒu】足够的差【chà】异,例如将【jiāng】边【biān】缘【yuán】任务(TE,OE)分组为测试任务,以便对新语义【yì】的任务进行评【píng】估。

表【biǎo】1:在 Taskonomy 数据集上的定【dìng】量比较【jiào】( Few-shot 基线在训练了来自其他分区的任务后,在需测试的分【fèn】区【qū】任务上【shàng】进行了【le】 10-shot 学【xué】习,其【qí】中完【wán】全监督的基线在每个 fold(DPT)或所有 fold(InvPT)上训练【liàn】和评估了任务)

表1和图【tú】2分别定量与定性【xìng】地【dì】展示了 VTM 和两类基【jī】线模型在【zài】十个密【mì】集预【yù】测任务上的小样本学习性能。其中,DPT 和【hé】 InvPT 是两【liǎng】种最先进的监督学习方法,DPT 可【kě】独【dú】立地针对【duì】每个单一任务进行训练,而 InvPT 则可【kě】以联合训练所【suǒ】有任务。由于在 VTM 之前还【hái】没有【yǒu】针对通用【yòng】密集预测【cè】任务开发的【de】专用小样本方法【fǎ】,因此研究员们将 VTM 与三种最先进的小样本分割【gē】方【fāng】法,即 DGPNet、HSNet 和 VAT,进行对比,并把它【tā】们拓展到处理密集预测【cè】任【rèn】务的一般标签空间。VTM 在训练期【qī】间没有访问测试任务 T_test,并且【qiě】仅在测试时使用【yòng】了少【shǎo】量(10张【zhāng】)的【de】标记图像【xiàng】,但它却在所有【yǒu】小样本【běn】基线模【mó】型【xíng】中表现得最【zuì】好,并且【qiě】在许【xǔ】多【duō】任【rèn】务中的【de】表现都具【jù】备与全监督基线模型比较的【de】竞争【zhēng】力【lì】。

图2:在【zài】 Taskonomy 的十个密集【jí】预测任务【wù】中【zhōng】,在新任务【wù】上仅提供十张标记【jì】图像的小样本学习方法【fǎ】的定【dìng】性比较。在其他方法失败的情况下, VTM 成功地学【xué】习了所有具【jù】有不【bú】同语【yǔ】义和不【bú】同标签表示的【de】新任务。

在图【tú】2中,虚线【xiàn】上方的分别【bié】是真实标签和【hé】两种监督学习【xí】方法 DPT 和 InvPT。虚线下【xià】方的是【shì】小样本学【xué】习方法。值得注意的【de】是,其他小样【yàng】本基线在新【xīn】任务上出现了灾【zāi】难性的欠拟合【hé】,而 VTM 成功地学习【xí】了所有任务【wù】。实【shí】验说明,VTM 可【kě】以【yǐ】在极少量的标记示例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用【yòng】于任【rèn】意密【mì】集预测任务,因为【wéi】匹配算法本质上包含所有任【rèn】务和标【biāo】签结构【gòu】(例【lì】如,连【lián】续或【huò】离散)。此外【wài】,VTM 仅引【yǐn】入了少量【liàng】的【de】任务特定参数,就能具【jù】备抗过拟合性与灵活【huó】性【xìng】。未来【lái】研究员们希望进一步探究预训练过程中的任务类型、数据【jù】量、以及【jí】数【shù】据【jù】分布对模型泛化性能【néng】的影响,从而帮助我们构【gòu】建一个真正普适的小样本学【xué】习器【qì】。

为你推荐

最新资讯

股票软件