当前位置：首页 > news >正文

罗庄区住房和城乡建设局网站wordpress加载特效插件

news 2025/10/19 3:00:13

罗庄区住房和城乡建设局网站,wordpress加载特效插件,东莞百度seo找谁,微信手机官网登录入口注册基于语义图卷积网络的三维人体姿态回归源码 https://github.com/garyzhao/SemGCN 摘要在本文中#xff0c;我们研究了学习图卷积网络#xff08;GCN#xff09;回归的问题。GCN的当前体系结构受限于卷积滤波器和共享的变换矩阵为的小感受野。为了解决这些限制#xff…基于语义图卷积网络的三维人体姿态回归源码 https://github.com/garyzhao/SemGCN 摘要在本文中我们研究了学习图卷积网络GCN回归的问题。GCN的当前体系结构受限于卷积滤波器和共享的变换矩阵为的小感受野。为了解决这些限制我们提出了语义图卷积网络SemGCN这是一种新型的神经网络架构可以使用图结构数据进行回归任务。SemGCN学习捕获语义信息例如局部和全局节点关系这些信息在图中没有显式表示。这些语义关系可以通过端到端的训练从地面事实中学习而无需额外的监督或手工制定的规则。我们进一步研究将SemGCN应用于3D人体姿势回归。我们的方法是直观和充分的因为2D和3D人体姿势都可以表示为对人体骨架中的关节之间的关系进行编码的结构化图。我们进行了全面的研究以验证我们的方法。结果证明SemGCN优于现有技术同时使用少90%的参数。引言卷积神经网络CNN已经成功地解决了经典的计算机视觉问题如图像分类[12293152]对象检测[194655637479]和生成[4358717380]其中输入图像具有网格状结构。然而许多现实世界的任务例如分子结构、社交网络和3D网格只能以不规则结构的形式表示其中CNN具有有限的应用。为了解决这个限制最近引入了图卷积网络GCN[172849]作为CNN的推广可以直接处理一般类别的图。当应用于3D网格变形[4564]图像字幕[70]场景理解[68]和视频识别[6667]时它们已经实现了最先进的性能。这些工作利用GCN来建模用于分类的视觉对象的关系。在本文中我们研究了使用深度GCN进行回归这是计算机视觉的另一个核心问题具有许多现实世界的应用。然而由于基线方法的以下局限性GCN不能直接应用于回归问题[286467]。首先为了处理图节点可能具有各种数量的邻域的问题卷积滤波器为所有节点共享相同的权重矩阵这与CNN不可比拟。其次根据[28]的指导通过限制滤波器在每个节点周围的一步邻域中操作来简化先前的方法。由于这种公式卷积核的感受野被限制为1这严重损害了信息交换的效率特别是当网络更深时。在这项工作中我们提出了一种新的图神经网络架构的回归称为语义图卷积网络SemGCN以解决上述限制。具体来说我们研究学习给定图中编码的语义信息即节点的局部和全局关系这在以前的工作中没有得到很好的研究。SemGCN不依赖于手工制作的约束[101351]来分析特定应用程序的模式因此可以很容易地推广到其他任务。特别是我们研究SemGCN的2D到3D人体姿势回归。给定一个2D人体姿势和可选的相关图像作为输入我们的目标是预测其对应的3D关节在某个坐标空间中的位置。使用SemGCN公式化这个问题是直观的。2D和3D姿势都能够以2D或3D坐标的形式自然地由规范骨架表示SemGCN可以明确地利用它们的空间关系这对于理解人类行为至关重要[67]。我们的工作做出了以下贡献。首先我们提出了一种改进的图卷积运算称为语义图卷积SemGConv它来自CNN。其关键思想是学习边的通道权重作为图中隐含的先验然后将它们与核矩阵相结合。这显著提高了图卷积的能力。其次我们引入SemGCN其中SemGConv和非局部[65]层交织。该体系结构捕获节点之间的本地和全局关系。第三我们提出了一个端到端的学习框架以表明SemGCN还可以结合外部信息如图像内容以进一步提高3D人体姿势回归的性能。我们的方法的有效性进行了验证通过全面的评估与严格的消融研究和比较与最先进的标准3D基准。我们的方法与Human3.6M [24]上最先进技术的性能相匹配仅使用2D关节坐标作为输入参数减少90%。同时我们的方法优于国家的最先进的结合图像特征。此外我们还展示了SemGCN的可视化结果定性地证明了我们的方法的有效性。请注意所提出的框架可以很容易地推广到其他回归任务我们将其留给未来的工作。相关工作 GCN 将CNN推广到具有图形结构的输入是深度学习领域的一个重要课题。在文献中已经有几次尝试使用递归神经网络来处理在图域中表示为有向无环图的数据[14]。在[172849]中引入了GNN作为处理任意图形数据的更常见的解决方案。在图上构造GCN的原理通常遵循两个流光谱透视和空间透视。我们的工作属于第二个流[283960]其中卷积滤波器直接应用于图节点及其邻居。最近对计算机视觉的研究已经通过利用GCN对视觉对象[6870]或时间序列[6667]之间的关系进行建模来实现最先进的性能。本文遵循他们的精神同时我们探索将GCN应用于回归任务特别是2D到3D人体姿势回归。 3D HPE 是3D姿态估计的关键。Martinez等人[34]介绍了一种简单而有效的方法纯粹基于2D检测来预测3D关键点。Fang等人。[13]通过姿势语法网络进一步扩展了这种方法。这些工作集中在2D到3D姿态回归这是最相关的本文的上下文。其他方法使用合成数据集这些数据集是通过使用地面实况[84248]对人类模板模型进行变形而生成的或者除了关节之外还引入了涉及高级知识[405369]的损失函数。它们是对其他人的补充。剩余工作的目标是利用时间信息[11182157]进行3D姿态回归。它们超出了本文的范围因为我们的目标是处理来自一个单个图像的2D姿态。然而我们的方法可以很容易地扩展到序列输入我们把它留给未来的工作。语义图卷积网络我们提出了一种新的图形网络架构来处理一般的回归任务涉及的数据可以表示在图的形式。首先介绍了GCN的背景和相关的基线方法。然后介绍了SemGCN的详细设计。我们假设图数据共享相同的拓扑结构例如人类骨架[10266167]3D变形模型[334572]和引用网络[50]。在同一域中具有不同图结构的其他问题例如蛋白质-蛋白质相互作用[60]和量子化学[15]不在本文的范围内。这个假设使得学习图结构中隐含的先验成为可能这激发了SemGCN。 1.ResGCN基线我们将首先简要回顾[28]中提出的“vanilla”GCN。设G {VE}表示一个图其中V是K个节点的集合E是边而xli ∈ RDl和xl1i ∈ RDl1分别是节点i在第l次卷积之前和之后的表示。基于图的卷积传播可以在两个步骤中应用于节点i。首先节点表示由可学习的参数矩阵W ∈ RDl1×Dl变换。其次这些变换后的节点表示从其相邻节点j ∈ Ni收集到节点i然后是非线性函数ReLU [37]。如果节点表示被收集到矩阵Xl∈ RDl×K中则卷积运算可以写为其中A 是从常规GCN中的A对称归一化的。A ∈ [01]K×K是G的邻接矩阵对于节点j ∈ Niαij 1αii 1. Wang等人。[64]根据等式重新表述了一个非常深的图网络。1与残差连接[20]学习图像特征和3D顶点之间的映射。我们采用它的网络架构并把它作为我们的基线表示为ResGCN。上面的式子有两个明显的缺点首先为了使图卷积在具有任意拓扑的节点上工作所有边共享学习的核矩阵W。结果相邻节点的关系或图中的内部结构没有被很好地利用。其次以前的工作只在第一个结点收集特征这也是有限的因为感受野固定为1。 2. Semantic Graph Convolutions 我们表明学习语义关系的相邻节点隐含在边缘的图形是有效的以解决共享的核矩阵的限制。所提出的方法基于CNN的概念。图1a显示了卷积核大小为3 × 3的CNN。它学习了九个彼此不同的变换矩阵以在空间维度上对内核内部的特征进行编码。这使得操作具有对图像中包含的特征模式进行建模的表达能力。我们发现这个公式可以通过学习每个位置的加权向量ai来近似然后将它们与共享的变换矩阵W相结合。如果我们将图像特征图表示为其节点表示像素的正方形网格图则该近似公式可以直接扩展到GCN如图1c所示图1 所提出的语义图卷积的图1示。(a)CNN的3×3卷积核以绿色突出显示为内核内的每个位置学习不同的变换矩阵wi。我们通过学习每个位置的加权向量ai和共享变换矩阵W来近似它。(b)常规GCN仅学习用于所有节点的共享变换矩阵w0。(c)a中的近似公式可以直接扩展到b我们为图中的每个节点添加附加的可学习权重ai。(d)我们进一步扩展c以学习每个节点的信道加权向量ai。在将它们与GCN中的香草变换矩阵W相结合之后我们可以获得一种新的具有与CNN相当的学习能力的图的核运算。学习到的权重向量示出了图中隐含的相邻节点的局部语义关系。为此我们提出了语义图卷积SemGConv其中我们将可学习的加权矩阵M ∈ RK×K添加到传统的图卷积中。上面的公式就可以转换为其中ρi是Softmax非线性其在节点i的所有选择上归一化输入矩阵;是一个元素级运算如果aij 1则返回mij或者返回在ρi之后具有饱和到零的大指数的负数; A充当掩码其强制对于图中的节点i我们仅计算其相邻节点j ∈ Ni的权重。如图1d我们可以进一步扩展上式通过学习Md ∈ RK×K的集合使得不同的加权矩阵被应用于输出节点特征的每个通道d 其中 || 表示逐通道级联并且wd是变换矩阵W的第d行。 3.与之前GCN的比较 aGCN [68]和GAT [60]都遵循自注意策略[59]通过关注其邻居来计算图中每个节点的隐藏表示。他们的目标是根据边缘的输入来估计加权函数以调制整个图中的信息流。相比之下我们的目标是学习表示图结构中隐含的先验的边的输入无关权重例如在人体姿势估计中一个关节如何影响其他身体部位。 STGCN [67]中引入的边缘重要性加权掩模是与我们最相关的工作但具有以下两个显著差异。首先在[67]加权后没有利用Softmax非线性而我们发现它稳定了训练并获得了更好的结果因为节点对其邻居的贡献被Softmax归一化。其次ST-GCN仅将一个单个可学习掩码应用于所有信道但我们学习用于边的信道方式的不同权重。因此我们的模型具有更好的能力以适应数据映射。网络架构捕获图中节点之间的全局和远程关系能够有效地解决有限的感受野的问题。然而为了保持GCN的行为我们通过基于其表示而不是学习新的卷积滤波器来计算节点之间的响应来限制特征更新机制。因此我们遵循非局部均值概念[565]并将运算定义为其中Wx被初始化为零; f是计算节点i和所有其他j之间的亲和度的成对函数; g计算节点j的表示。在实践中上式可以通过[65]中提出的非局部层来实现。基于等式3和4我们提出了一种新的网络架构回归任务称为语义图卷积网络其中SemGConv和非本地层交织以捕获节点的本地和全局语义关系。图2示出了示例。在这项工作中所有块中的SemGCN具有相同的结构其包括由具有128个通道的两个SemGConv层构建的一个残余块[20]然后是一个非局部层。重复该块几次以使网络更深。在网络开始时一个SemGConv用于将输入映射到潜在空间;并且我们有一个额外的SemGConv它将编码的特征投影回输出空间。所有SemGConv层之后都是批处理归一化[22]和ReLU激活[37]除了最后一个。请注意如果SemGConv层被替换为vanilla图卷积并且所有非局部层被移除则SemGCN降级为ResGCN 提出的语义图卷积网络的示例。我们的网络的构建块是由两个具有128个通道的SemGConv层构建的一个剩余块[20]然后是一个非本地层[65]。该块重复四次。所有SemGConv层之后都是批处理归一化[22]和ReLU激活[37]除了最后一个。 3D人体姿态回归在本节中我们提出了一种新颖的端到端可训练框架其在Sect. 3用图像特征进行三维人体姿态回归。 1.框架概述最近证明了可以通过仅使用2D人体姿势作为系统输入来直接获得准确的3D姿势估计[34]。形式上给定预定义相机坐标系中的一系列2D关节P ∈ RK×2及其对应的3D关节J ∈ RK×3K是关节的数量系统旨在学习回归函数F *其在包含N个人类姿势的数据集上最小化以下误差我们认为图像内容是能够提供重要的线索解决模棱两可的情况下如经典的转向芭蕾舞演员的视错觉。因此我们扩展了上式通过将图像内容视为附加约束。扩展公式可以表示为其中Ii是包含2D关节Pi的对准人体姿势的图像。在实践中P可以在已知相机参数下或从2D联合检测器获得作为2D地面实况位置。在后一种情况下2D检测器已经在训练过程期间编码了输入图像的感知特征。这一观察激励了我们的框架的设计。我们的框架的概述如图3所示,整个框架由两个神经网络组成。给定图像利用一个深度卷积网络进行2D关节预测;同时它还充当骨干网络并且从其中间层汇集图像特征。由于2D和3D关节坐标可以编码在人体骨骼中所提出的SemGCN用于自动捕获嵌入在人体关节的空间配置中的模式。它预测3D坐标根据2D姿态以及感知特征从骨干网络。图3 2.感知特征池 ResNet [20]和HourGlass [38]在传统的人体姿态检测问题中被广泛采用。从经验上讲我们采用ResNet作为骨干网络因为它的中间层提供了图像的分层特征这些特征在对象检测和分割等计算机视觉问题中非常有用[4674]。给定输入图像中每个2D关节的坐标我们从ResNet中的多个层中汇集特征。特别地我们使用RoIAlign [19]连接从层conv 1到conv 4提取的特征。然后将这些感知特征与2D坐标连接并馈送到SemGCN中。注意由于输入图像中的所有关节共享相同的尺度因此我们将特征汇集在以具有固定大小的每个关节为中心的方形边界框中即骨骼的平均骨长。这示于图3. 3.损失函数大多数先前的基于回归的方法直接最小化预测和地面真实关节位置[6345776]或骨骼向量[53]的均方误差MSE。遵循他们的精神我们采用人体姿势中关节和骨骼约束的简单组合作为我们的损失函数其定义为其中J {~ Ji| i 1...K}是预测的3D关节坐标并且B {~ Bi| i 1...M}是从J计算的骨骼; Ji和Bi是数据集中对应的地面实况。每个骨骼都是从起始关节指向其相关父关节的有向向量如[53]中所定义。 Experiments 1.实现细节网络训练我们使用[54]中的ResNet50作为我们的骨干网络它与积分损失兼容并在ImageNet上进行了预训练[9]。在训练过程中我们使用Adam [27]进行优化初始学习率为0.001并使用大小为64的小批量。当验证集上的损失饱和时学习率以0.5的衰减率下降。我们使用[16]中描述的初始化来初始化图网络的权重。结论我们提出了一种新的模型三维人体姿态回归语义图卷积网络SemGCN。我们的方法通过学习图中节点之间的局部和全局语义关系解决了GCN的关键挑战。SemGCN和从图像内容汇集的特征的组合进一步提高了3D人体姿势估计的性能。综合评价结果表明我们的网络获得了最先进的性能与90%的参数减少相比最接近的工作。拟议的SemGCN也开辟了许多可能的方向为未来的工作。例如如何将时间信息如视频合并到SemGCN中成为一个自然的问题。

查看全文

http://www.yingshimen.cn/news/29634/