当前位置：首页 > news >正文

密云网站开发有哪些网站系统

news 2025/10/17 23:59:28

密云网站开发,有哪些网站系统,球鞋定制软件,wordpress 标签调用文章目录摘要1、简介2、相关工作3、ADAUTOMIX3.1、深度学习分类器3.2、生成器3.3 对抗增强3.3.1 对抗损失 3.4 对抗优化 4、实验4.1、分类结果4.1.1、数据集分类4.1.2、精细分类 4.2、校准4.3、鲁棒性4.4、遮挡鲁棒性4.5、迁移学习4.6、消融实验 5、结论附录AA.1 数据集信息A.… 文章目录摘要1、简介2、相关工作3、ADAUTOMIX3.1、深度学习分类器3.2、生成器3.3 对抗增强3.3.1 对抗损失 3.4 对抗优化 4、实验4.1、分类结果4.1.1、数据集分类4.1.2、精细分类 4.2、校准4.3、鲁棒性4.4、遮挡鲁棒性4.5、迁移学习4.6、消融实验 5、结论附录AA.1 数据集信息A.2 实验超参数细节A.3 实验实现细节A.4 其他MiXUP实验的细节A.5 校准结果A.6 各种MiXUP方法在遮挡图像集上的准确度A.7 效率与准确性的曲线A.8 AdAutoMix模块实验A. 9 AdAutoMix与Adversarial方法训练的ResNet-18的准确度A. 10 与其他对抗性数据增强的比较摘要 https://arxiv.org/pdf/2312.11954.pdf 数据混合增强已被广泛应用于提高深度神经网络的泛化能力。最近自动混合方法逐渐取代了手工制作和基于显著性信息的混合方法等离线数据混合增强方法。通过以端到端的方式最小化两个子任务即混合样本生成和混合分类AutoMix显着提高了图像分类任务的准确性。然而由于两个子任务的优化目标是一致的这种方法容易生成一致而不是多样化的混合样本导致目标任务训练出现过拟合。本文提出了AdAutomixup这是一种对抗性的自动混合增强方法通过交替优化分类器和混合样本生成器来生成具有挑战性的样本以训练出稳健的图像分类器。AdAutomixup由两个模块组成混合样本生成器和目标分类器。混合样本生成器的目标是生成具有挑战性的混合样本以挑战目标分类器而目标分类器的目标是学习从具有挑战性的混合样本中提取的稳健特征以提高泛化能力。为了防止图像固有意义的崩溃我们进一步引入了一个指数移动平均EMA教师和余弦相似度以端到端的方式训练AdAutomixup。在七个图像基准上的大量实验一致证明我们的方法在各种分类场景中优于现有技术。源代码可在以下链接中找到https://github.com/JinXins/Adversarial-AutoMixup 1、简介由于其强大的特征表示能力深度神经网络模型如卷积神经网络CNN和转换器已成功应用于各种任务例如图像分类Krizhevsky等2012Li等2022b2023ba、目标检测Bochkovskiy等2020和自然语言处理Vaswani等2017。其中一个重要的原因是它们通常利用大型训练数据集来训练大量网络参数。然而当数据不足时它们容易发生过拟合并做出过度自信的预测这可能会降低测试样本的泛化性能。为了缓解这些缺点提出了数据增强DA来生成样本以改善下游目标任务的泛化性能。MixupZhang等2017是一种最近的数据增强方案由于它可以通过简单地将成对样本及其标签的凸组合来生成虚拟混合样本从而有效地训练深度学习DL模型因此受到了越来越多的关注。针对图像分类而提出的数据增强方法Li等2021Shorten和Khoshgoftaar2019Cubuk等20182020Fang等2020Ren等2015Li等2020可以大致分为三类1基于手工制作的数据增强方法其中一张图像的区域被随机剪切并粘贴到另一张图像上。后者的真实标签与前者的标签按替换区域的面积成比例混合。代表性的方法包括CutMixYun等2019、CutoutDeVries和Taylor2017、ManifoldMixupVerma等2019和ResizeMixQin等2020。CutMix和ResizeMix如图1所示通过随机将一张图像中的一块区域替换为另一张图像中的区域来生成混合样本2基于显著性信息的数据增强方法根据图像显著性地图生成高质量样本通过保留最大显著性区域。代表性的方法Uddin等2020Walawalkar等2020Kim等2020Park等2021Liu等2022c通过最大化显著性区域来学习最佳混合策略3基于自动混合的数据增强方法学习一个模型例如DL模型而不是策略来自动生成混合图像。例如提出了一个AutoMix模型用于数据增强该模型由目标分类器和生成网络组成通过交替优化目标分类器和生成网络来自动生成混合样本以训练一个鲁棒的分类器。然而手工制作的混合增强方法会随机混合图像而不会考虑它们的上下文和标签。因此目标物体可能会在混合的图像中被忽略导致标签不匹配问题。基于显著性信息的混合增强方法可以缓解这个问题因为图像会与监督信息即最大显著性区域结合。这些混合模型与上述前两类模型共享相同的学习范式由随机或可学习的混合策略生成的增强训练数据集和用于图像分类的深度学习模型。由于图像生成与目标任务即分类没有直接关系因此由人类先验知识即基于显著性的指导生成的图像可能对目标网络训练无效。此外不可能为目标训练生成所有可能的混合实例。因此随机选择的合成样本可能无法代表分类任务最终导致分类器泛化能力下降。此外这样的生成样本将被输入目标网络多次导致长周期训练中不可避免地出现过拟合。为了克服这些问题基于自动混合的增强方法通过一个具有良好复杂度-精度权衡的子网络生成增强图像。这种方法包括两个子任务一个混合样本生成模块和一个分类模块这两个模块通过最小化端到端的分类损失进行联合优化。由于这两个子任务具有一致的优化目标然而生成模块可能无法得到有效的指导因此可能会产生简单的混合样本以实现这一目标这限制了样本的多样性。因此使用此类简单示例训练的分类器容易受到过拟合的影响导致在测试集上的泛化性能较差。另一个限制是当前的自动混合方法仅在图像生成时将两个图像混合在一起没有有效地利用丰富且具有区分性的信息。为了解决这些问题我们在这篇论文中提出了AdAutomixup这是一种对抗性的自动混合增强方法通过端到端的方式自动生成混合样本如图2所示。首先我们研究了基于注意力机制的生成器以从与相应混合标签相关联的样本对中动态学习具有区分性的像素。其次我们将基于注意力机制的生成器与目标分类器相结合构建一个对抗性网络其中生成器和分类器通过对抗性训练进行交替更新。与AutoMixLiu等2022d不同我们的生成器通过生成对抗性样本来增加目标网络的训练损失而分类器则从困难样本中学习更稳健的特征来提高泛化能力。此外我们的生成器可以将任何图像集作为输入进行混合图像生成而不是仅限于两个图像这使得混合样本更加多样化。我们的主要贡献总结如下。 (a) 我们提出了一种基于对抗学习策略的在线数据混合方法该方法通过端到端训练自动生成混合样本。 (b) 我们提出了一种对抗性框架以联合优化目标网络训练和混合样本生成器。生成器的目的是产生困难样本以增加目标网络损失而目标网络通过训练此类困难样本学习稳健的表示以改进分类。为了防止图像内在意义的崩溃我们采用指数移动平均EMA和余弦相似度来减少搜索空间。 © 我们探索了一种基于注意力机制的混合样本生成器该生成器可以组合多个样本而不是仅限于两个样本来生成混合样本。由于其架构不会随着输入图像的增加而改变因此该生成器具有灵活性。 2、相关工作基于手工制作的混合增强技术 MixupZhang 等人2017年是第一个混合数据增强方法通过从任何两个样本及其独热标签中减去来生成混合样本。ManifoldMixupVerma 等人2019年将此混合从输入空间扩展到特征空间。为了利用其空间局部性CutMixYun 等人2019年裁剪出一个区域并用另一张图像的补丁替换它。为了改进 MixUp 和 CutMixFMixHarris 等人2020年使用从频率空间中采样的低频图像应用阈值获得的随机二进制掩码。RecursiveMixYang 等人2022年迭代地调整输入图像补丁的大小并将其粘贴到当前补丁中。为了解决由 CutMix 引起的强烈的“边缘”问题SmoothMixJeong 等人2021年基于软边缘混合混合图像并相应地计算训练标签。基于显著性引导的混合增强技术 SaliencyMixUddin 等人2020年、SnapMixHuang 等人2020年和 Attentive-CutMixWalawalkar 等人2020年基于由 Class Activation MappingCAMSelvaraju 等人2019年或显著性检测器检测到的显著区域生成混合图像。类似地PuzzleMixKim 等人2020年和 Co-MixupKim 等人2021年提出了一种优化策略通过最大化样本显著性区域来获得最佳掩码。然而这些方法缺乏样本多样性因为它们总是确定性地选择具有最大显著性的区域。为了解决这个问题Saliency GraftingPark 等人2021年通过缩放和阈值化显著性图来考虑所有显著区域以增加样本多样性。受到VitDosovitskiy 等人2021年Liu 等人2021年在计算机视觉领域的成功启发基于自适应混合策略的注意力图例如 TransMixChen 等人2021年、TokenMixLiu 等人2022a年、TokenMixupChoi 等人2022年、MixProZhao 等人2023年和 SMMixChen 等人2022年被提出以生成混合图像。基于自动混合的增强方法前面两类中的混合方法允许在精确的混合策略和优化复杂性之间进行权衡因为在训练过程中图像混合任务与目标分类任务不直接相关。为了解决这个问题AutoMixLiu 等人2022d将混合分类分为两个子任务混合样本生成和混合分类并提出了一个自动混合框架其中两个子任务以端到端的方式联合而不是独立地进行优化。经过训练后生成器直接产生混合样本而目标分类器保留用于分类。近年来对抗性数据增强Zhao 等人2020年和生成对抗网络Antoniou 等人2017年被提出用于自动生成用于数据增强的图像。为了解决域偏移问题Adversarial MixUpZhang 等人2023年Xu 等人2019年被研究用于合成混合样本或特征以进行域适应。虽然自动混合的工作很少但后者将成为未来的研究趋势。 3、ADAUTOMIX 在本文中我们介绍了AdAutoMix的实现它由目标分类器和生成器组成如Fig.2所示。首先我们介绍了混合分类问题并定义了损失函数。然后我们详细介绍了基于注意力机制的生成器该生成器可以动态地学习图像生成时的增强掩码策略。最后我们展示了目标分类器和生成器如何以端到端的方式进行联合优化。 3.1、深度学习分类器假设 S { x s ∣ s 1 , 2 , … , S } \mathbb{S} \{x_{s} \mid s 1, 2, \ldots, S\} S{xs∣s1,2,…,S} 是一个训练集其中 S S S 是图像的数量。我们从 S \mathbb{S} S 中选择任意 N N N 个样本得到样本集 X { x 1 , x 2 , … , x N } \mathbb{X} \{x_{1}, x_{2}, \ldots, x_{N}\} X{x1,x2,…,xN}以及对应的标签集 Y { y 1 , y 2 , … , y N } \mathbb{Y} \{y_{1}, y_{2}, \ldots, y_{N}\} Y{y1,y2,…,yN}。让 ψ W \psi_{W} ψW 是一个特征提取模型例如 ResNetHe et al., 2016其中 W W W 是一个可训练的权重向量。分类器将示例 x ∈ X x \in \mathbb{X} x∈X 映射到标签 y ∈ Y y \in \mathbb{Y} y∈Y。一个深度学习分类器 ψ W \psi_{W} ψW 被实现来预测后验类别概率并且 W W W 通过最小化分类损失即 Eq.(1) 中的交叉熵 (CE) 损失进行学习。 L c e ( ψ W , y ) − y log ⁡ ( ψ W ( x ) ) (1) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}, y\right)-y \log \left(\psi_{W}(x)\right) \tag{1} Lce(ψW,y)−ylog(ψW(x))(1) 对于样本集 X \mathbb{X} X 中的 N N N 个样本我们通过 Eq.(2) 计算平均交叉熵 (ACE) 损失。 L a c e ( ψ W , Y ) ∑ n 1 N ( L c e ( ψ W ( x n ) , y n ) ∗ λ n ) . (2) \mathrm{L}_{\mathrm{ace}}\left(\psi_{W}, \mathbb{Y}\right)\sum_{n1}^{N}\left(\mathrm{~L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{n}\right), y_{n}\right) * \lambda_{n}\right) .\tag{2} Lace(ψW,Y)n1∑N( Lce(ψW(xn),yn)∗λn).(2) 其中 * 表示标量乘法。在混合分类任务中我们将与混合比率 λ 相关的任意 N 个图像输入到生成器 G θ ( ⋅ ) G_{\theta}(\cdot) Gθ(⋅) 中该生成器输出混合样本 x m i x x_{mix} xmix如第 3.2 节中的 Eq.(8) 所定义。同样这种混合图像 x m i x x_{mix} xmix 的标签是通过 y m i x ∑ n 1 N y n ⊙ λ n y_{mix} \sum_{n1}^{N} y_{n} \odot \lambda_{n} ymix∑n1Nyn⊙λn 获得的。 ψ W \psi_{W} ψW 通过 Eq.(3) 中的平均混合交叉熵 (AMCE) 损失进行优化 L amce ( ψ W , Y ) L c e ( ψ W ( x m i x ) , y m i x ) (3) \mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{m i x}\right), y_{m i x}\right)\tag{3} Lamce (ψW,Y)Lce(ψW(xmix),ymix)(3) 同样我们通过 Eq.(4) 计算混合交叉熵 (MCE) L mce ( ψ W , y m i x ) L c e ( ψ W ( ∑ n 1 N ( x n ∗ λ n ) ) , y m i x ) (4) \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)\mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(\sum_{n1}^{N}\left(x_{n} * \lambda_{n}\right)\right), y_{m i x}\right)\tag{4} Lmce (ψW,ymix)Lce(ψW(n1∑N(xn∗λn)),ymix)(4) 3.2、生成器如第2节所述现有的方法大多通过手动设计策略或自动学习策略混合两个样本这导致训练样本为数据增强提供的监督信息可能没有被充分利用。在我们的工作中我们提出一个通用生成框架将两个图像的混合扩展到多个图像的混合。为了学习一个鲁棒的混合策略矩阵我们利用自注意力机制提出了一个基于注意力混合样本生成器如图3所示。如第3.1节所述 X { x n ∣ n 1 , 2 , … , N } \mathbb{X} \{x_{n} \mid n1,2, \ldots, N\} X{xn∣n1,2,…,N} 是一个样本集其中 N N N 是原始训练样本的数量 Y { Y n ∣ n 1 , 2 , … , N } \mathbb{Y} \{Y_{n} \mid n1,2, \ldots, N\} Y{Yn∣n1,2,…,N} 是相应的标签。我们定义 λ { λ 1 , λ 2 , … , λ N } \lambda \{\lambda_{1}, \lambda_{2}, \ldots, \lambda_{N}\} λ{λ1,λ2,…,λN} 为图像的混合比率集它们的和被约束为等于1。如图3所示图像集中的每张图像首先被映射到一个特征图上通过编码器 E ϕ E_{\phi} Eϕ 进行编码该编码器通过目标分类器的指数移动平均值进行更新即 ϕ ^ ξ ϕ ^ ( 1 − ξ ) W ′ \hat{\phi} \xi \hat{\phi} (1-\xi) W^{\prime} ϕ^ξϕ^(1−ξ)W′其中 W ′ W^{\prime} W′ 是目标分类器的部分权重。在我们的实验中现有的分类器 ResNet18、ResNet34 和 ResNeXt50 被用作目标分类器 W ′ W^{\prime} W′ 是目标分类器中前三个层的权重向量。然后混合比率被嵌入到结果特征图中使生成器能够学习图像混合的掩码策略。例如给定第 n n n 张图像 x n ∈ R W × H x_{n} \in R^{W \times H} xn∈RW×H其中 W W W 和 H H H 分别表示图像的宽度和高度我们将它输入到一个编码器中并从其第 l l l 层获取特征图 z n l ∈ R C × w × h z_{n}^{l} \in R^{C \times w \times h} znl∈RC×w×h其中 C C C 是通道数 w w w 和 h h h 分别表示地图的大小。然后我们构建一个大小为 w × h w \times h w×h 的矩阵其中所有值都等于 1乘以相应的比率 λ n \lambda_{n} λn 以获得嵌入矩阵 M λ n M_{\lambda_{n}} Mλn。我们通过将 λ n \lambda_{n} λn 与第 l l l 个特征图进行连接来以简单而有效的方式嵌入 λ n \lambda_{n} λn即 z λ n l concat ⁡ ( M λ n , z n l ) ∈ R ( C 1 ) × w × h z_{\lambda_{n}}^{l} \operatorname{concat}\left(M_{\lambda_{n}}, z_{n}^{l}\right) \in R^{(C1) \times w \times h} zλnlconcat(Mλn,znl)∈R(C1)×w×h。嵌入的特征图 z λ n l z_{\lambda_{n}}^{l} zλnl 通过三个具有 1 × 1 1 \times 1 1×1 核的 CNNs 进行映射以获得三个嵌入向量如上文所述。因此我们为第 n n n 张图像 x n x_{n} xn 获得三个向量 q n , k n , v n q_{n}, k_{n}, v_{n} qn,kn,vn。请注意为了节省计算时间将 q n q_{n} qn 和 k n k_{n} kn 的通道数减少到原来的一半并将其设置为 1。这样我们计算了所有图像的嵌入向量并用 q 1 , q 2 , … , q N , k 1 , k 2 , … , k N , v 1 , v 2 , … , v N q_{1}, q_{2}, \ldots, q_{N}, k_{1}, k_{2}, \ldots, k_{N}, v_{1}, v_{2}, \ldots, v_{N} q1,q2,…,qN,k1,k2,…,kN,v1,v2,…,vN 表示。对于第 n n n 张图像的交叉注意力块CAB由以下公式计算如上文所述 P n Softmax ⁡ ( ∑ i 1 , i ≠ n N q n T k i d ) v n (5) P_{n}\operatorname{Softmax}\left(\frac{\sum_{i1, i \neq n}^{N} q_{n}^{T} k_{i}}{\sqrt{d}}\right) v_{n} \tag{5} PnSoftmax(d ∑i1,inNqnTki)vn(5) 其中 d d d 是归一化项。我们通过等式 (6) 连接 N N N 个注意力矩阵 P Softmax ⁡ ( Concat ⁡ ( P 1 , P 2 , … , P N ) ) (6) P\operatorname{Softmax}\left(\operatorname{Concat}\left(P_{1}, P_{2}, \ldots, P_{N}\right)\right) \tag{6} PSoftmax(Concat(P1,P2,…,PN))(6) 矩阵 P ∈ R N × w h × w h P \in R^{N \times w h \times w h} P∈RN×wh×wh 通过上采样被调整为 P ′ ∈ R N × W × H P^{\prime} \in R^{N \times W \times H} P′∈RN×W×H。我们将 P ′ P^{\prime} P′ 分割为 N N N 个矩阵即 P 1 ′ , P 2 ′ , … , P N ′ P_{1}^{\prime}, P_{2}^{\prime}, \ldots, P_{N}^{\prime} P1′,P2′,…,PN′并将其视为用于混合样本集 X \mathbb{X} X 中的图像的掩码策略矩阵。通过等式 (7) 进行混合 x m i x ∑ n 1 N x n ⊙ P n ′ (7) x_{m i x}\sum_{n1}^{N} x_{n} \odot P_{n}^{\prime} \tag{7} xmixn1∑Nxn⊙Pn′(7) 其中 ⊙ \odot ⊙ 表示哈达玛积。为了便于表示混合图像生成过程通过等式 (8) 定义为生成器 G θ G_{\theta} Gθ x m i x G θ ( X , λ ) (8) x_{m i x}G_{\theta}(\mathbb{X}, \lambda) \tag{8} xmixGθ(X,λ)(8) 其中 θ \theta θ 表示生成器中所有可学习的参数。 3.3 对抗增强这一部分介绍了我们提出的用于通过对抗学习联合优化目标网络 ψ W \psi_{W} ψW 和生成器 G θ G_{\theta} Gθ 的对抗框架。具体来说生成器 G θ G_{\theta} Gθ 试图生成一个增强的混合图像集以增加目标网络 ψ W \psi_{W} ψW 的损失而目标网络 ψ W \psi_{W} ψW 则旨在最小化分类损失。在达到平衡时学到的表示将达到最大性能。 3.3.1 对抗损失如等式 (8) 所示生成器接收 X \mathbb{X} X 和混合比率集 λ \lambda λ 作为输入并输出合成的图像 x m i x x_{m i x} xmix 来挑战目标分类器。后者接收来自生成器的真实或合成的图像作为输入然后预测其属于每个类的概率。对抗损失是通过以下最小化最大化问题定义的以便通过等式 (9) 对两个玩家进行训练 W ∗ , θ ∗ argmin ⁡ W max ⁡ θ [ E x ∈ S [ L amce ( ψ W , Y ) ] ] (9) W^{*}, \theta^{*}\underset{W}{\operatorname{argmin}} \max _{\theta}\left[\underset{\mathrm{x} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\right]\right] \tag{9} W∗,θ∗Wargminθmax[x∈SE[Lamce (ψW,Y)]](9) 其中 S \mathbb{S} S 和 X \mathbb{X} X 分别为训练集和图像集。一个鲁棒的分类器不仅要正确分类混合图像还要正确分类原始图像因此我们结合了两个正则化项 L mce ( ψ W ( x m i x , y m i x ) ) \mathrm{L}_{\text {mce }}\left(\psi_{W}\left(x_{m i x}, y_{m i x}\right)\right) Lmce (ψW(xmix,ymix)) 和 L ace ( ψ W , Y ) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right) Lace (ψW,Y) 来提高性能。因此目标函数被重写为等式 (10) 的形式 W ∗ , θ ∗ argmin ⁡ W max ⁡ θ [ E X ∈ S [ L amce ( ψ W , Y ) α L mce ( ψ W , y mix ) ( 1 − α ) L ace ( ψ W , Y ) ] ] (10) W^{*}, \theta^{*}\underset{W}{\operatorname{argmin}} \max _{\theta}\left[\underset{\mathbb{X} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right]\right] \tag{10} W∗,θ∗Wargminθmax[X∈SE[Lamce (ψW,Y)αLmce (ψW,ymix )(1−α)Lace (ψW,Y)]](10) 为了优化参数 θ \theta θ G θ ( ⋅ ) G_{\theta}(\cdot) Gθ(⋅) 会根据给定的图像集生成图像以挑战分类器。因此图像的内在意义即它们的语义意义可能会崩溃。为了解决这个问题我们引入余弦相似性和一个教师模型作为两个正则化项以控制混合图像的质量。因此损失函数相应地改变如等式 (11) 所示 W ∗ , θ ∗ argmin ⁡ max ⁡ W [ E X ∈ S [ L amce ( ψ W , Y ) α L mce ( ψ W , y mix ) ( 1 − α ) L ace ( ψ W , Y ) − β L amce ( ψ W ^ , Y ) ( 1 − β ) L cosine ] ] (11) \begin{aligned} W^{*}, \theta^{*} \underset{W}{\operatorname{argmin} \max }\left[\underset { \mathbb { X } \in \mathbb { S } } { \mathbb { E } } \left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right.\right. \\ \left.\left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \end{aligned} \tag{11} W∗,θ∗Wargminmax[X∈SE[Lamce (ψW,Y)αLmce (ψW,ymix )(1−α)Lace (ψW,Y)−βLamce (ψW ,Y)(1−β)Lcosine ]](11) 其中 L c o s i n e s u m n 1 N c o s i n e ( ψ W ^ ( x m i x ) , ψ _ W ^ ( x n ) ) ∗ λ _ n \mathrm{L}_{\mathrm{cosine}} sum_{n1}^{N} cosine \left(\psi_{\widehat{W}}\left(x_{m i x}\right), \psi\_{\widehat{W}}\left(x_{n}\right)\right) * \lambda\_{n} Lcosinesumn1Ncosine(ψW (xmix),ψ_W (xn))∗λ_n c o s i n e ( ⋅ ) cosine(\cdot) cosine(⋅) 是余弦相似性函数 ψ W ^ \psi_{\widehat{W}} ψW 是一个教师模型其权重通过目标模型权重EMA的指数移动平均值进行更新即 W ^ ← ξ W ^ ( 1 − ξ ) W \widehat{W} \leftarrow \xi \widehat{W}(1-\xi) W W ←ξW (1−ξ)W。请注意 L c e ( ψ W , y ) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}, y\right) Lce(ψW,y) 是标准交叉熵损失。 L ace ( ψ W , Y ) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right) Lace (ψW,Y) 损失有助于在早期阶段提供稳定的特征图从而加速收敛。目标损失 L amce ( ψ W , Y ) \mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right) Lamce (ψW,Y) 的目的是在生成的混合样本中学习任务相关信息。 L mce ( ψ W , y m i x ) \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right) Lmce (ψW,ymix) 有助于在原始混合样本中捕获任务相关信息。 L cosine \mathrm{L}_{\text {cosine}} Lcosine 和 L amce ( ψ W ^ , Y ) \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right) Lamce (ψW ,Y) 用于控制生成混合图像的质量。 3.4 对抗优化与许多现有的对抗训练算法类似很难直接找到等式 (11) 中的最小化问题的鞍点 ( W ∗ , θ ∗ ) \left(W^{*}, \theta^{*}\right) (W∗,θ∗)。因此我们采用梯度下降和上升的一对算法来更新目标网络和生成器。考虑目标分类器 ψ W ( ⋅ ) \psi_{W}(\cdot) ψW(⋅) 和损失函数 L c e ( ⋅ ) \mathrm{L}_{\mathrm{ce}}(\cdot) Lce(⋅)其中训练的生成器 G θ ( ⋅ ) G_{\theta}(\cdot) Gθ(⋅) 将多个原始样本映射到混合样本。目标网络的学习过程可以定义为等式 (12) 中的最小化问题 W ∗ argmin ⁡ W [ E X ∈ S [ L amce ( ψ W , Y ) α L mce ( ψ W , y mix ) ( 1 − α ) L ace ( ψ W , Y ) − β L amce ( ψ W ^ , Y ) ( 1 − β ) L cosine ] ] (12) \begin{aligned} W^{*} \underset{W}{\operatorname{argmin}}\left[\underset { \mathbb { X } \in \mathbb { S } } { \mathbb { E } } \left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right.\right. \\ \left.\left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \end{aligned} \tag{12} W∗Wargmin[X∈SE[Lamce (ψW,Y)αLmce (ψW,ymix )(1−α)Lace (ψW,Y)−βLamce (ψW ,Y)(1−β)Lcosine ]](12) 对于等式 (12) 中的问题通常通过带有学习率 δ \delta δ 和批量大小 B B B 的普通随机梯度下降 (SGD) 来解决。对于每个批次的训练过程可以通过等式 (13) 进行计算 W ( t 1 ) W ( t ) − δ ∇ W 1 K ∑ k 1 K [ L amce ( ψ W , Y ) α L mce ( ψ W , y m i x ) ( 1 − α ) L ace ( ψ W , Y ) − β L amce ( ψ W ^ , Y ) ( 1 − β ) L cosine ] (13) \begin{aligned} W(t1) W(t)-\delta \nabla_{W} \frac{1}{K} \sum_{k1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right. \\ \left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)(1-\beta) \mathrm{L}_{\text {cosine }}\right] \end{aligned} \tag{13} W(t1)W(t)−δ∇WK1k1∑K[ Lamce (ψW,Y)αLmce (ψW,ymix)(1−α)Lace (ψW,Y)−βLamce (ψW ,Y)(1−β)Lcosine ](13) 其中 K K K 是从补丁集 B B B 生成的混合图像或图像集的数量。由于余弦相似性和教师模型与 W W W 无关等式 (13) 可以更改为等式 (14) W ( t 1 ) W ( t ) − δ ∇ W 1 K ∑ k 1 K [ L amce ( ψ W , Y ) α L mce ( ψ W , y m i x ) ( 1 − α ) L ace ( ψ W , Y ) ] (14) W(t1)W(t)-\delta \nabla_{W} \frac{1}{K} \sum_{k1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right] \tag{14} W(t1)W(t)−δ∇WK1k1∑K[ Lamce (ψW,Y)αLmce (ψW,ymix)(1−α)Lace (ψW,Y)](14) 请注意训练过程可以被视为对 K K K 个梯度计算实例的平均这可以减少梯度方差并加速目标网络的收敛。然而由于长训练周期中训练数据有限训练可能容易受到过拟合的影响。为了解决这个问题与 AutoMix (Liu et al., 2022d) 不同我们的 Mixup 增强生成器将生成一组更难的混合样本以增加目标分类器的损失从而形成一个最小化最大化问题来自我训练网络。这种自我监督的目标可能足够具有挑战性以防止目标分类器过度拟合目标。因此目标被定义为等式 (15) 中的最大化问题 θ ∗ argmax ⁡ θ [ E X ∈ S [ L amce ( ψ W , Y ) − β L amce ( ψ W ^ , Y ) ( 1 − β ) L cosine ] ] (15) \theta^{*}\underset{\theta}{\operatorname{argmax}}\left[\underset{\mathbb{X} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \tag{15} θ∗θargmax[X∈SE[Lamce (ψW,Y)−βLamce (ψW ,Y)(1−β)Lcosine ]](15) 为了解决上述问题我们采用梯度上升法以学习率 γ 更新参数这定义在等式 (16) 中 θ ( t 1 ) θ ( t ) γ ∇ W 1 K ∑ k 1 K [ L amce ( ψ W , Y ) − β L amce ( ψ W ^ , Y ) ( 1 − β ) L cosine ] (16) \theta(t1)\theta(t)\gamma \nabla_{W} \frac{1}{K} \sum_{k1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)(1-\beta) \mathrm{L}_{\text {cosine }}\right] \tag{16} θ(t1)θ(t)γ∇WK1k1∑K[ Lamce (ψW,Y)−βLamce (ψW ,Y)(1−β)Lcosine ](16) 直观地说等式 (16) 的优化是两个子任务的综合即最大化 L c e ( ψ W ( x m i x , y m i x ) ) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{m i x}, y_{m i x}\right)\right) Lce(ψW(xmix,ymix)) 和最小化 β L amce ( ψ W ^ , Y ) − ( 1 − β ) L cosine \beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)-(1-\beta) \mathrm{L}_{\text {cosine }} βLamce (ψW ,Y)−(1−β)Lcosine 。换句话说这倾向于将合成的混合样本推离真实样本以增加多样性同时确保合成的混合样本对于教师模型是可识别的并在与原始图像的特征表示的约束相似性范围内保持以避免图像的内在意义崩溃。这种方案通过紧密跟踪分类器的更新来生成具有挑战性的样本。我们在附录 B.2 和 B.3 中提供了一些混合样本。 4、实验为了评估我们的方法性能我们在七个分类基准数据集上进行了大量实验即 CIFAR100 (Krizhevsky et al., 2009)、Tiny-ImageNet (Chrabaszcz et al., 2017)、ImageNet-1K (Krizhevsky et al., 2012)、CUB-200 (Wah et al., 2011)、FGVC-Aircraft (Maji et al., 2013) 和 Standford-Cars (Krause et al., 2013)附录 A.1。为了公平评估我们将我们的 AdAutoMixup 与一些当前的 Mixup 方法进行比较即 Mixup (Zhang et al., 2017)、CutMix (Yun et al., 2019)、ManifoldMix (Verma et al., 2019)、FMix (Harris et al., 2020)、ResizeMix (Qin et al., 2020)、SaliencyMix (Uddin et al., 2020)、PuzzleMix (Kim et al., 2020) 和 AutoMix (Liu et al., 2022d)。为了验证我们的方法泛化性我们使用五个基准网络即 ResNet18、ResNet34、ResNet50 (He et al., 2016)、ResNeXt50 (Xie et al., 2017)、SwinTransformer (Liu et al., 2021) 和 ConvNeXt(Liu et al., 2022b)来计算分类准确率。我们已经在开源库 OpenMixup (Li et al., 2022a) 上实现了我们的算法。一些常见参数遵循 AutoMix 的实验设置我们在附录 A.2 中提供我们自己的超参数。对于所有分类结果我们报告每个试验的最后 10 个训练周期中每个试验的 top-1 测试准确度的中位值。为了便于比较我们将最佳和第二佳结果标记为粗体和青色。 4.1、分类结果 4.1.1、数据集分类我们首先在 CIFAR100 上使用以下实验设置对 ResNet18 和 ResNeXt50 进行 800 个训练周期的训练基本学习率为 0.1通过余弦调度器动态调整使用带有动量为 0.9 的 SGD (Loshchilov Hutter, 2016) 优化器权重衰减为 0.0001批量大小为 100。对于基于 ViT 的方法例如 Swin-Tiny Transformer 和 ConvNeXt-Tiny我们使用带有权重衰减为 0.05 的 AdamW (Loshchilov Hutter, 2019) 优化器进行训练批量大小为 100训练周期为 200。在 Tiny-ImageNet 上除学习率为 0.2 和训练周期为 400 个周期外训练设置与 CIFAR100 中的设置相似。在 ImageNet-1K 上我们使用 PyTorch风格的设置对 ResNet18、ResNet34 和 ResNet50 进行 100 个训练周期的训练。实验实现细节在附录 A.3 中提供。表1和图1显示在CIFAR100上我们的方法优于现有方法。使用我们的方法训练后ResNet 18和ResNeXt50相对于第二好的结果分别实现了0.28%和0.58%的准确度提升。类似地基于ViT的方法达到了最高的分类准确度分别为84.33%和83.54%并且比之前最好的方法提高了1.66%和0.24%。在Tiny-ImageNet数据集上我们的AdAutoMix在提升ResNet18和ResNeXt50的分类性能方面与第二好的方法相比实现了1.86%和2.17%的显著提升。此外表1还显示在大型数据集ImageNet-1K上AdAutoMix实现了0.36%的准确度提升对于ResNet 18、0.3%的准确度提升对于ResNet 34和0.13%的准确度提升对于ResNet 50。 4.1.2、精细分类在CUB-200、FGVC-Aircrafts和Stanford-Cars数据集上我们使用具有动量为0.9、权重衰减为0.0005、批量大小为16200个epochs、学习率为0.001、通过余弦调度器动态调整的SGD优化器对预训练的ResNet18、ResNet50和ResNeXt50进行微调。表2中的结果显示AdAutoMix实现了最佳性能并显著提高了普通模型的性能在CUB-200上提高了3.20%/2.19%在Aircraft上提高了1.5%/2.06%在Cras上提高了2.87%/1.44%这表明AdAutoMix在更具挑战性的场景中也很稳健。 4.2、校准深度神经网络DNNs在分类任务中容易过度自信。混合方法可以有效缓解这个问题。为此我们在CIFAR100数据集上计算了各种混合方法的预期校准误差ECE。从图4中的实验结果可以看出与现有方法相比我们的方法实现了最低的ECE即3.2%。此外我们在附录A.5中提供了更多的实验结果详见表6。 4.3、鲁棒性我们在CIFAR100-CHendrycks Dietterich2019上进行了实验以验证对数据污染的鲁棒性。我们手动生成了一个受污染的数据集包括19种不同的污染类型噪声、模糊、雾、亮度等。我们将AdAutoMix与一些流行的混合算法进行比较CutMix、FMix、PuzzleMix和AutoMix。表4显示我们的方法在清洁和受污染的数据上都实现了最高的识别准确率即相对于AutoMix分类准确率提高了1.53%和0.40%。我们进一步研究了AdAutoMix对FGSMGoodfellow等2015白盒攻击的鲁棒性该攻击的epsilon ball遵循8/255ell_inftyepsilon ball遵循Zhang等2017。如表格4所示我们的AdAutoMix显著优于现有方法。 4.4、遮挡鲁棒性为了分析AdAutoMix对随机遮挡的鲁棒性Naseer等2021我们使用不同遮挡比例0-100%随机遮挡CIFAR100和CUB200数据集中的图像构建图像集。我们将生成的遮挡图像输入到两个分类器中Swin-Tiny Transformer和ResNet-50并使用各种Mixup模型进行训练以计算测试准确率。从图5和附录A.6中的表7中的结果可以看出AdAutoMix在不同遮挡比例下都实现了最高的准确率。 4.5、迁移学习我们进一步研究了AdAutoMix为下游分类任务所学习特征的迁移能力。除了训练100个epochs外我们在CUB-200和Stanford-Cars上使用4.1.2小节中的实验设置进行迁移学习。使用在ImageNet-1K上训练的ResNet50进行微调以进行分类。表3显示AdAutoMix实现了最佳性能这证明了我们的方法在下游任务中的有效性。 4.6、消融实验在AdAutoMix中四个超参数即输入图像的数量N、权重α、β和混合比率λ对于实现高性能非常重要。为了节省时间我们在ResNet 18上使用我们的AdAutoMixup进行了200个epoch的训练。不同α、β、N和λ下ResNet 18的准确率在图6a、b、c和d中展示。同时表9和表10在附录A.8中列出了不同λ和N下AdAutoMixup的分类准确率。默认情况下AdAutoMix在各种数据集上取得了最佳性能即N3α0.5β0.3和λ1。此外两个正则化项 L m c e ( ψ W , y m i x ) L_{mce}(ψW, ymix) Lmce(ψW,ymix)和 L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y)试图提高分类器的鲁棒性另外两个正则化项 L c o s i n e L_{cosine} Lcosine和 L a m c e ( ψ W ^ , Y ) L_{amce}(ψŴ, Y) Lamce(ψW^,Y)旨在避免AdAutoMix中图像固有意义的崩溃。因此我们进行实验以评估每个模块对分类器性能提升的作用。为了便于描述我们从AdAutoMix中移除了这四个模块并将结果方法称为基本AdAutoMix。然后我们逐步引入两个模块 L m c e ( ψ W , Y ) L_{mce}(ψW, Y) Lmce(ψW,Y)和 L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y)以及两个模块 L a m c e ( ψ W ^ , Y ) L_{amce}(ψŴ, Y) Lamce(ψW^,Y)和 L c o s i n e L_{cosine} Lcosine并计算分类准确率。表5中的实验结果表明 L m c e ( ψ W , y m i x ) L_{mce}(ψW, ymix) Lmce(ψW,ymix)和 L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y)使分类器准确率提高了约0.66%。然而其他两个正则化项对分类器性能的改进并不显著。 5、结论在本文中我们提出了AdAutoMixup这是一个框架通过对抗方式联合优化目标分类器和混合图像生成器。具体来说生成器生成困难的混合样本以增加分类损失而分类器基于困难样本进行训练以改善泛化能力。此外生成器可以处理多个样本混合的情况。在六个数据集上的实验结果证明了我们的方法的有效性。附录A A.1 数据集信息我们简要介绍本文中使用的图像数据集。 (1) CIFAR-100 (Krizhevsky et al., 2009)包含50,000个训练图像和10,000个测试图像分辨率为32×32有100个类别。 (2) Tiny-ImageNet (Chrabaszcz et al., 2017)包含10,000个训练图像和10,000个验证图像分为200个类别分辨率为64×64。 (3) ImageNet-1K (Krizhevsky et al., 2012)包含1,281,167个训练图像和50,000个验证图像分为1000个类别。 (4) CUB-2002011 (Wah et al., 2011)包含11,788张来自200种野生鸟类的图像。 (5) FGVC-Aircrafts (Maji et al., 2013)包含10,000张飞机类别的图像Stanford-Cars (Krause et al., 2013)包含8,144个训练图像和8,041个测试图像分为196个类别。 A.2 实验超参数细节在我们的工作中特征层l设置为3动量系数从ξ0.999开始并以余弦曲线增加到1。此外AdAutoMix在所有实验中都使用相同的超参数集具体如下α0.5β0.3λ1.0N3或N2。 A.3 实验实现细节在CIFAR100上对于大小为32×32的图像我们使用RandomFlip和RandomCrop进行基本数据增强并添加4像素填充。对于ResNet 18和ResNeXt50我们使用以下实验设置SGD优化器动量为0.9权重衰减为0.0001批大小为100训练800个epochs基本学习率为0.1通过余弦调度器动态调整使用CIFAR版本的ResNet变体即用3×3卷积替换7×7卷积和MaxPooling。对于基于ViT的方法例如Swin-Tiny Transformer的训练我们将图像调整为224×224并使用AdamW优化器进行训练权重衰减为0.05批大小为100总训练200个epochs。基本学习率为0.0005通过余弦调度器动态调整。对于ConvNeXt-Tiny的训练图像保持32×32分辨率我们基于ViT方法的设置进行训练但基本学习率设置为0.002。对于CIFAR上的ResNet 18和ResNeXt50α和β设置为0.5和0.3。在Tiny-ImageNet上我们使用RandomFlip和RandomResizedCrop进行64×64的基本数据增强。除了学习率为0.2和训练400个epochs外其余训练设置与在CIFAR100上使用的设置相似。在ImageNet-1K上我们采用PyTorch风格使用SGD优化器训练100个epochs批量大小为256基本学习率为0.1SGD权重衰减为0.0001SGD动量为0.9。在CUB-200、FGVC-Aircrafts和Stanford-Cars上我们采用在ImageNet-1k上官方PyTorch预训练的模型作为初始化使用SGD优化器动量为0.9权重衰减为0.0005批量大小为16训练200个epochs基本学习率为0.001通过余弦调度器动态调整。对于α和β我们将其设置为0.5和0.1。 A.4 其他MiXUP实验的细节您可以通过以下链接访问实验设置的详细信息https://github.com/WestlakeAI/openmixup。他们还提供了大多数现有Mixup方法的开源代码。 A.5 校准结果 A.6 各种MiXUP方法在遮挡图像集上的准确度 A.7 效率与准确性的曲线各种MiXup数据增强方法的训练时间与准确度的关系如图9所示。AdAutoMix需要更多的计算时间但在不同数据集上使用不同ResNet架构时它始终优于之前最先进的方法。 A.8 AdAutoMix模块实验表8列出了逐步增加正则化项后我们的AdAutoMix的准确率。实验结果表明每个正则化项都有助于提高AdAutoMix的鲁棒性。表9显示了具有不同λ值的AdAutoMix的准确率。实验结果表明默认情况下λ1的AdAutoMix在CIFAR100数据集上实现了最佳性能。表10显示了具有不同输入图像数量N的AdAutoMix的准确率。从表10中可以看出在CIFAR100上N3的AdAutoMix实现了最高的准确率。 A. 9 AdAutoMix与Adversarial方法训练的ResNet-18的准确度图10显示了CIFAR100上由我们的AdAutoMix和带有对抗训练的ResNet-18的训练准确度。实验结果表明带有对抗训练的AdAutoMix在CIFAR100数据集上实现了更高的分类准确率这表明提出的对抗性框架能够生成更难的样本以提高分类器的鲁棒性。 A. 10 与其他对抗性数据增强的比较我们进一步将MixupZhang等2017和我们的AdAutoMix与现有的对抗性数据增强方法进行了比较例如DADALi等2020、ME-ADAZhao等2020和SAMixZhang等2023。表11描述了各种方法的分类准确度。表11中的实验结果表明我们的AdAutoMix优于现有的对抗性数据增强方法并在CIFAR100数据集上实现了最高的准确率。

查看全文

http://www.yingshimen.cn/news/101628/