广东城市建设档案馆官方网站,做网站哪家公司最好,网站开发html,网站自创摘要
基于变压器的跟踪器在标准基准测试上取得了很强的精度。然而#xff0c;它们的效率仍然是在GPU和CPU平台上实际部署的一个障碍。在本文中#xff0c;为了克服这一问题#xff0c;我们提出了一个完全变压器跟踪框架#xff0c;称为MixFormerV2#xff0c;没有任何密集…
摘要
基于变压器的跟踪器在标准基准测试上取得了很强的精度。然而它们的效率仍然是在GPU和CPU平台上实际部署的一个障碍。在本文中为了克服这一问题我们提出了一个完全变压器跟踪框架称为MixFormerV2没有任何密集的卷积操作和复杂的分数预测模块。我们的关键设计是引入四种特殊的预测标记并将它们与来自目标模板和搜索区域的标记连接起来。然后我们对这些混合标记序列应用统一的变压器主干。这些预测标记能够通过混合注意捕获目标模板和搜索区域之间的复杂相关性。在此基础上我们可以很容易地预测跟踪盒并通过简单的MLP头估计其置信度得分。为了进一步提高MixFormerV2的效率我们提出了一种新的基于蒸馏的模型简化范式包括密-稀疏蒸馏和深到浅层蒸馏。前者的目的是将知识从基于致密头的MixViT转移到我们的完全变压器跟踪器上而后者则用于修剪主干网的一些层。我们实例化了两种类型的MixForemrV2其中MixFormerV2-B在LaSOT上达到70.6%的AUCGPU速度为165FPSMixFormerV2-S在LaSOT上以实时CPU速度超过FEAR-LAUC2.7%的AUC。
介绍
视觉物体跟踪一直是计算机视觉中一项基本而长期的任务目的是在其初始边界框的视频序列中定位物体。它有广泛的实际应用通常需要较低的计算延迟。因此在保持高精度的同时设计一个更高效的跟踪架构是很重要的。最近基于变压器的单流跟踪器[7,14,54]获得了良好的跟踪精度由于变压器块内的特征提取和目标集成的统一建模这允许两个组件受益于变压器的开发例如维特[17]自我监督预训练[23]或对比预训练[42]。然而对于这些跟踪器来说推理效率特别是在CPU上仍然是实际部署的主要障碍。以最先进的跟踪器MixViT [15]为实例其管道包含i)目标模板和搜索区域标记序列上的变压器主干ii)二维搜索区域的密集角头和iii)额外复杂的分数预测模块进行分类即估计可靠的在线样本选择的盒子质量。为了实现高效跟踪器MixViT的设计仍存在几个问题。首先密集的卷积角头仍然显示出一个耗时的设计如表1所示。这是因为它在高分辨率的二维特征图上通过总共10个卷积层密集地估计了盒角的概率分布。其次为了处理在线模板的更新需要一个由精确的RoI池化层、两个注意块和一个三层MLP组成的额外复杂的分数预测模块来提高在线样本的质量这在很大程度上阻碍了其MixViT的效率和简单性。 为了避免密集的角头和复杂的分数预测模块我们提出了一种新的全变压器跟踪框架——不需要任何密集卷积操作的MixFormerV2。我们的MixFormerV2产生了一个非常简单和高效的架构它由混合令牌序列上的一个变压器主干和可学习预测令牌上的两个简单的MLP头组成。具体地说我们引入了四种特殊的可学习预测标记并将它们与来自目标模板和搜索区域的原始标记连接起来。与标准ViT中的CLS标记一样这些预测标记能够捕获目标模板和搜索区域之间的复杂关系作为后续回归和分类的紧凑表示。在此基础上我们可以通过简单的MLP头很容易地预测目标盒和置信度得分从而得到一个高效的全变压器跟踪器。我们的MLP头直接回归了四个盒坐标的概率分布在不增加开销的情况下提高了回归精度。
为了进一步提高MixFormerV2的效率我们提出了一种新的基于蒸馏的模型简化范式包括密稀疏蒸馏和深浅蒸馏。密度稀疏蒸馏的目的是将知识从基于稠密头的MixViT转移到我们的全变压器跟踪器。由于我们的MLP头部中基于分布的回归设计我们可以很容易地采用对数模拟策略将MixViT跟踪器提取到我们的MixFormerV2中。根据表2中的观察结果。我们还利用从深到浅的蒸馏来修剪我们的MixFormerV2。我们设计了一种新的渐进深度修剪策略遵循一个关键原则限制学生和教师跟踪器的初始分布尽可能相似从而增强知识的转移能力。具体来说在冻结的教师模型的指导下一些复制的教师模型的某些层逐渐被丢弃我们使用修剪后的模型作为我们的学生初始化。在cpu实时跟踪方面我们进一步引入了一个中间教师模型来弥补大教师和小学生之间的差距并基于所提出的蒸馏范式对MLP的隐藏层维度进行了修剪。 基于所提出的模型简化范式我们实例化了两种类型的MixFormerV2跟踪器MixFormerV2-B和MixFormerV2-S。如图1所示MixFormerV2在跟踪精度和推理速度之间比之前的跟踪器取得了更好的权衡。我们的贡献有两方面 1)我们提出了第一个没有任何卷积操作的完全变压器跟踪框架称为MixFormerV2产生了一个更统一和高效的跟踪器。2)我们提出了一种新的基于蒸馏的模型简化范式使MixFormerV2更高效可以在具有gpu或cpu的平台上实现高性能跟踪。 相关工作
Efficient Visual Object Tracking
近几十年来由于新的基准数据集和更好的跟踪器的出现视觉对象跟踪任务得到了快速的发展。研究人员已经试图为实际应用探索高效和有效的跟踪架构如基于暹罗的跟踪器在线跟踪器和基于变压器的跟踪器。得益于变压器的结构和注意机制最近的视觉跟踪工作已经逐渐放弃了传统的三阶段模型范式即特征提取、信息交互和位置头。他们采用了更统一的单流模型结构共同进行特征提取和交互这对可视化对象跟踪任务的建模非常有效。然而一些现代跟踪体系结构太重计算成本太高因此很难在实际应用中部署。LightTrack使用NAS来搜索一个轻的暹罗网络但它的速度在强大的gpu上并不是非常快。FEAR HCAT E.T.Track 设计了更高效的框架但并不适合单流跟踪器。我们是第一个设计高效的单流跟踪器以实现良好的精度和速度的权衡。
Knowledge Distillation
知识蒸馏[26]是为了在教师模型的监督下学习更有效的学生模型。首先将KD应用于分类问题中其中KL散度被用来度量教师和学生的预测概率分布的相似性。对于目标检测等回归问题经常采用特征模拟。LD 通过将狄拉克分布表示转换为边界盒的概率分布表示对边界盒位置进行对数蒸馏很好地统一了对数蒸馏和位置蒸馏。在这项工作中我们利用了一些定制的策略使知识蒸馏更适合我们的跟踪框架。
Vision Transformer Compression
有许多加速模型推理的通用技术包括模型量化、知识蒸馏、剪枝]和神经结构搜索。最近许多工作也集中在压缩视觉变压器模型上。例如动态ViT Evo-ViT试图在注意机制中修剪令牌。AutoFormerNASViT SlimmingViT采用NAS技术来探索精致的ViT架构。ViTKD提供了几个ViT特征蒸馏指南但它专注于压缩特征维度而不是模型深度。MiniViT [55]应用权重共享和多路复用来减少模型参数。由于单流跟踪器高度依赖于消耗训练资源的预训练器因此我们求助于直接修剪跟踪器的图层。
方法
在本节中我们首先介绍MixFormerV2它是一个更高效和统一的全变压器跟踪框架。然后描述了提出的基于蒸馏的模型简化包括密集到稀疏蒸馏和深到浅蒸馏。
Fully Transformer Tracking: MixFormerV2
所提出的MixFormerV2是一个完全的变压器跟踪框架没有任何卷积操作和复杂的分数预测模块。它的主干是在三种类型的混合令牌序列上的一个普通转换器目标模板令牌、搜索区域令牌和可学习的预测令牌。然后将简单的MLP头放在顶部预测框坐标的概率分布和相应的目标质量得分。与其他基于变压器的跟踪器如TransT 、STARK 、MixFormer、OSTrack和SimTrack相比我们的MixFormerV2通过首次有效地删除定制的卷积分类和回归头简化了跟踪管道从而产生了一个更统一、高效和灵活的跟踪器。整体架构如图2所示。通过输入模板令牌、搜索区域令牌和可学习预测令牌MixFormerV2以端到端方式预测目标边界框和质量得分。 Prediction-Token-Involved Mixed Attention
与MixViT中最初的混合注意力相比关键的区别在于引入了特殊的可学习预测令牌用于捕获目标模板和搜索区域之间的相关性。这些预测标记可以逐步压缩目标信息并用作后续回归和分类的紧凑表示。具体来说给定多个模板、搜索和四个可学习的预测标记的连接标记我们将它们传递到N个涉及预测标记的混合注意模块P-MAM层中。我们使用qt、kt和vt来表示注意力的模板元素即query, key and valueqs、ks和vs来表示搜索区域、qe、ke和ve来表示可学习的预测标记。P-MAM可以定义为 其中d表示每个元素的维度 A t t e n t , A t t e n t s , A t t e n e Atten_t,Attent_s,Atten_e Attent,Attents,Attene分别是模板、搜索和可学习的预测令牌的注意输出。与原来的混合注意方案相似我们使用非对称混合注意方案来进行有效的在线推理。与标准ViT中的CLS令牌一样可学习的预测令牌会自动在跟踪数据集上学习以压缩模板和搜索信息。
Direct Prediction Based on Tokens
在变压器主干之后我们直接使用预测标记来回归目标位置并估计其可靠的得分。具体地说我们利用了基于四种特殊的可学习预测标记的基于分布的回归。在这个意义上我们回归了四个边界框坐标的概率分布而不是它们的绝对位置。第4.2节的实验结果也验证了该设计的有效性。由于预测标记可以通过涉及预测标记的混合注意模块压缩目标感知信息我们可以简单地预测具有相同MLP头的四个框坐标如下
$\hat{P_X(x)}MLP(token_X),X\in \left { T,L,B,R\right } $
在实现过程中我们在四个预测令牌之间共享MLP的权重。对于预测的目标质量评估我们表示输出预测令牌然后使用它来估计用MLP头的目标置信度得分。这些基于令牌的头在很大程度上降低了盒子估计和质量分数估计的复杂性从而导致了一个更简单和统一的跟踪架构。
Distillation-Based Model Reduction
为了进一步提高MixFormerV2的效率和有效性我们提出了一个基于蒸馏的模型缩减范式如图3所示该范式首先执行密集到稀疏蒸馏以更好地基于标记的预测然后进行深到浅的蒸馏进行模型剪枝。 Dense-to-Sparse Distillation
在MixFormerV2中我们基于预测令牌将目标边界框直接回归到四个随机变量T、L、B、R∈R的分布分别代表该框的上、左、下、右坐标。
详细地我们预测了每个坐标的概率密度函数X ∼ PˆX(x), where X ∈ {T ,L,B,R}. 最终的边界框坐标B可以从回归概率分布上的期望中推导出 由于原始MixViT的致密卷积角头预测了二维概率图即左上角和右下角的联合分布 P T L x y P_{TL}xy PTLxy和 P B R x y P_{BR}xy PBRxy因此通过边缘分布可以很容易地推导出盒坐标分布的一维版本
在此该建模方法可以弥补密角预测与基于稀疏标记的预测之间的差距即原始MixViT的回归输出可以视为密到稀疏蒸馏的软标签。具体来说我们使用MixViT的输出 P X P_X PX来监督MixFormerV2的四个坐标估计PˆX应用kl-散度损失如下 通过这种方式将定位知识从MixViT的致密角头转移到MixFormerV2的基于稀疏标记的角头。
Deep-to-Shallow Distillation
为了进一步提高效率我们的重点是修剪变压器的主干网。然而设计一种新的轻量级骨干并不适合快速的单流跟踪。一个新的在线跟踪器的主干通常高度依赖于大规模的预训练来实现良好的性能这需要大量的计算。因此我们基于特征模拟和对数蒸馏直接切割MixFormerV2主干的一些层如图3阶段2所示。设 F i S F j T ∈ R h × w × c F_i^SF_j^T∈R^{h×w×c} FiSFjT∈Rh×w×c表示学生和教师的特征图下标表示层的索引。对于对数蒸馏我们使用kl-散度损失。对于特征模仿我们应用L2损失 其中M是需要监督的匹配层对的集合。具体地说我们设计了一个渐进的模型深度剪枝策略。
Progressive Model Depth Pruning
渐进式模型深度修剪的目的是通过减少变压器层数来压缩MixFormerV2主干。由于直接去除一些层可能会导致不一致和不连续我们探索了一种基于特征和对数蒸馏的模型深度剪枝的渐进方法。具体来说我们不是让教师从头开始监督一个较小的学生模型而是让原始的学生模型成为教师模型的完整副本。然后我们将逐步消除一定层次的学生层并使剩余的层在教师的监督下模仿教师的表现。这种设计允许学生和教师的初始表示尽可能保持一致提供了一个平滑的过渡方案并减少了特征模拟的难度。
形式上让 x i x_i xi表示MixFormerV2主干的第i层输出注意块的计算可以表示如下式中省略层归一化操作 设$\xi $是在我们的学生网络中要消除的层集我们对这些层的权值应用一个衰减率γ
在学生网络训练的前m个阶段γ会以余弦函数的方式从1逐渐减少到0 这意味着学生网络中的这些层逐渐被消除最终转化为身份转换如图4所示。修剪后的学生模型可以通过简单地去除$\xi $中的层并保留剩余的块来获得.。
Intermediate Teacher
为了蒸馏一个极浅的模型4层混合MixFormerV2我们引入了一个中间教师8层混合FormerV2用于连接深层教师12层混合FormerV2和浅层教师。通常教师的知识可能太复杂一个小学生的模式无法学习。因此我们引入了一个作为助教的中间角色以缓解极端知识提炼的难度。在这个意义上我们将教师和学生的知识精馏问题分为几个精馏子问题。
MLP Reduction
如表2所示影响CPU设备上跟踪器推理延迟的一个关键因素是变压器块中MLP的隐藏特性dim。换句话说它成为了限制CPU设备实时速度的瓶颈。为了利用这一问题我们根据所提出的蒸馏范式进一步修剪了MLP的隐藏模糊度即特征模拟和日志蒸馏。具体来说让线性权重的形状在原始模型是 w ∈ R d 1 × d 2 w∈R^{d1×d2} w∈Rd1×d2和相应的形状修剪学生模型 w ′ ∈ R d 1 ′ × d 2 ′ d ’ 1 ≤ d 1 , d 2 ′ ≤ d 2 w∈R^{d_1×d_2}d’_1≤d_1,d_2≤d_2 w′∈Rd1′×d2′d’1≤d1,d2′≤d2我们将初始化权重学生模型 w ’ w [ d 1 ′ d 2 ′ ] w’w[d_1d_2] w’w[d1′d2′]。然后应用蒸馏监督进行训练让剪枝后的MLP模拟原始的重MLP。
Training of MixFormerV2
整个训练管道如图3所示执行密集到稀疏蒸馏然后深到浅蒸馏得到最终高效的MixFormerV2跟踪器。然后我们训练基于MLP的分数头为50个阶段。特别是对于CPU的实时跟踪我们使用中间教师基于所提出的蒸馏生成一个较浅的模型4层MixFormerV2。此外我们还使用了所设计的MLP缩减策略来进一步修剪CPU实时跟踪器。对学生S和教师T进行的蒸馏培训的总损失计算为 其中前两项与由地面真实边界盒标签监督的原始混合物前混合物的位置损失完全相同其余项用于上述蒸馏。
实验
作者做了很多实验大家有需要看原文吧。 消融 可视化
为了探究引入的可学习预测令牌是如何在P-MAM中工作的我们将图5和图6中的预测-标记到搜索和预测-标记到模板的注意图可视化其中预测令牌作为查询其他的作为注意操作的关键/val。从可视化结果中我们可以得出这四个预测标记对目标的相应部分很敏感从而产生一个紧凑的对象边界框。我们怀疑基于致密角头的MixViT-B和我们的完全变压器MixFormerV2-B之间的性能差距在于缺乏整体的目标建模能力。此外预测标记倾向于在模板和搜索中提取部分目标信息从而将两者联系起来。 结论
在本文中我们提出了一个完全变压器跟踪框架MixFormerV2由混合标记序列上的标准ViT骨干和简单的MLP头组成用于盒回归和质量分数估计。我们的MixFormerV2通过去除密集的卷积头和复杂的分数预测模块简化了跟踪管道。我们还提出了一个基于蒸馏的模型简化的MixFormerV2范式以进一步提高其效率。我们的MixFormerV2在GPU和CPU平台上的跟踪精度和速度之间获得了很好的权衡。我们希望我们的MixFormerV2能够促进未来高效变压器跟踪器的发展。MixFormerV2通过去除密集的卷积头和复杂的分数预测模块简化了跟踪管道。我们还提出了一个基于蒸馏的模型简化的MixFormerV2范式以进一步提高其效率。我们的MixFormerV2在GPU和CPU平台上的跟踪精度和速度之间获得了很好的权衡。我们希望我们的MixFormerV2能够促进未来高效变压器跟踪器的发展。