神秘顾客 研究专家!

赛优市场店员积累了丰富的神秘顾客经验,严谨,务实,公平,客观.真实的数据支持!

24小时咨询热线:13760686746

你的位置:武汉客户满意度调查 > 神秘顾客仪器 > 全局扫视力机制具高超的模子抒发智商成都神秘顾客公司

全局扫视力机制具高超的模子抒发智商成都神秘顾客公司

时间:2024-01-11 09:58:39 点击:102 次

作家:韩东辰成都神秘顾客公司

来自清华大学的相关者提议了一种新的扫视力范式——代理扫视力 (Agent Attention)。

连年来,视觉 Transformer 模子得到了极大的发展,有关责任在分类、分割、检测等视觉任务上都取得了很好的成果。相关词,将 Transformer 模子应用于视觉范围并不是一件肤浅的事情。与当然谈话不同,视觉图片中的特征数目更多。由于 Softmax 扫视力是普通复杂度,径直进行全局自扫视力的盘算推算经常会带来过高的盘算推算量。针对这一问题,先前的责任时时通过减少参与自扫视力盘算推算的特征数目的方法来裁减盘算推算量。举例,联想寥落扫视力机制(如 PVT)或将扫视力的盘算推算限定在局部窗口中(如 Swin Transformer)。尽管有用,这么的自扫视力方法很容易受到盘算推算形式的影响,同期也不成幸免地殉难了自扫视力的全局建模智商。

与 Softmax 扫视力不同,线性扫视力将 Softmax 解耦为两个寥寂的函数,从而大致将扫视力的盘算推算规则从 (query・key)・value 调整为 query・(key・value),使得总体的盘算推算复杂度裁减为线性。相关词,当今的线性扫视力方法成果显着逊于 Softmax 扫视力,难以实质应用。

扫视力模块是 Transformers 的关节组件。全局扫视力机制具高超的模子抒发智商,但过高的盘算推算资本限定了其在各式场景中的应用。本文提议了一种新的扫视力范式,代理扫视力 (Agent Attention),同期具有高效性和很强的模子抒发智商。

具体来说,代理扫视力在传统的扫视力三元组 (Q,K,V) 中引入了一组非常的代理向量 A,界说了一种新的四元扫视力机制 (Q, A, K, V)。其中,代理向量 A 领先行为查询向量 Q 的代理,从 K 和 V 中团员信息,然后将信息播送回 Q。由于代理向量的数目不错联想得比查询向量的数目小得多,代理扫视力大致以很低的盘算推算资本收场全局信息的建模。

此外,本文阐扬代理扫视力等价于一种线性扫视力范式,收场了高性能 Softmax 扫视力和高效线性扫视力的当然交融。该方法在 ImageNet 上使 DeiT、PVT、Swin Transformer、CSwin Transformer 等模子架构取得了权臣的性能提高,大致将模子在 CPU 端加快约 2.0 倍、在 GPU 端加快约 1.6 倍。应用于 Stable Diffusion 时,代理扫视力大致将模子生成速率提高约 1.8 倍,并权臣提高图像生成质料,且无需任何非常检会。

方法

在本文中,咱们立异性地向扫视力三元组 (Q,K,V) 引入了一组非常的代理向量 A,界说了一种四元的代理扫视力范式 (Q, A, K, V)。如图 1 (c) 所示,在代理扫视力中,咱们不会径直盘算推算 Q 和 K 之间两两的一样度,而是使用极少的代理向量 A 来汇聚 K 和 V 中的信息,进而呈递给 Q,以很低的盘算推算资本收场全局信息的建模。从全体结构上看,代理扫视力由两个老例 Softmax 扫视力操作构成,况且等效为一种广义的线性扫视力,收场了高性能 Softmax 扫视力和高效线性扫视力的当然交融,因而同期具有二者的优点,即:盘算推算复杂度低且模子抒发智商强。

图 1:Softmax 扫视力、线性扫视力与代理扫视力机制对比

1. 代理扫视力

图 2:代理扫视力涌现图

上图即为代理扫视力的涌现图,底下给出具体数学相貌。为了书写便捷,咱们将 Softmax 扫视力和线性扫视力分别缩写为:

其中,Q,K,V 分别为 Query、Key、Value 矩阵,涌现 Softmax 函数,为线性扫视力中的映射函数。则代理扫视力不错涌现为:

另一个等效的涌现为:

其中 A 为新界说的代理矩阵。

如公式 (3) 和涌现图第一瞥所示,代理扫视力由两个 Softmax 扫视力操作构成,分别为代理特征团员和播送。具体来说,咱们领先将 A 行为 Query,在 A、K 和 V 之间进行扫视力盘算推算,从系数特征中汇聚信息,得到代理特征

。随后,咱们将 A 行为 Key,

行为 Value,和 Q 进行第二次扫视力盘算推算,将代理特征中的全局信息播送回每一个特征,神秘顾客营运并赢得最终输出 O。这么一来,咱们幸免了 Q 和 K 之间一样度的盘算推算,而是通过代理向量收场了每个 query-key 之间的信拒却换。不错看到,在这一盘算推算范式中,极少的代理特征 A 充任了 Q 的 “代理东谈主”—— 从 K 和 V 中汇聚信息并呈递给 Q,因而本文将这种扫视力机制定名为代理扫视力。实质应用中,咱们将 A 的数目诞生为一个小的超参数 n,从而以线性盘算推算复杂度

收场了全局建模。

值得指出的是,如公式 (4) 和涌现图第二行所示,代理扫视力实质上将高性能的 Softmax 扫视力和高效的线性扫视力交融在了一皆,通过使用两次 Softmax 扫视力操作收场了广义线性扫视力范式,其中等效映射函数界说为

实质应用中,代理向量不错通过不同的方法赢得,举例诞生为一组可学习参数,或通过池化等式样从输入特征中得到。咱们也不错使用愈加优胜的方法来赢得代理向量,举例 Deformable Points、Token Merging 等。本文中,咱们接纳肤浅的池化来获取代理向量。

2. 代理扫视力模块

为了更好地弘扬代理扫视力的后劲,本文进一步作念出了两方面的改良。一方面,咱们界说了 Agent Bias 以促进不同的代理向量聚焦于图片中不同的位置,从而更好地专揽位置信息。另一方面,行为一种广义的线性扫视力,代理扫视力也濒临特征种种性不及的问题,因此咱们接纳一个轻量化的 DWC 行为种种性复原模块。

在以上联想的基础上,本文提议了一种新的代理扫视力模块,其结构如下图:

图 3:代理扫视力模块

纠合了 Softmax 扫视力和线性扫视力的上风,代理扫视力模块具有以下特色:

(1) 盘算推算复杂度低且模子抒发智商强。之前的相关时时将 Softmax 扫视力和线性扫视力视为两种不同的扫视力范式,试图处分各自的问题和局限。代理扫视力优雅地交融了这两种扫视力相貌,从而当然地收受了它们的优点,同期享受低盘算推算复杂性和高模子抒发智商。

(2) 大致接纳更大的感受野。成绩于线性盘算推算复杂度,代理扫视力不错当然地接纳更大的感受野,而不会增多模子盘算推算量。举例,不错将 Swin Transformer 的 window size 由 7^2 扩大为 56^2,即径直接纳全局自扫视力,而充足不引入非常盘算推算量。

施行拆伙

1. 分类任务

神秘顾客_赛优市场调研

代理扫视力是一个通用的扫视力模块,本文基于 DeiT、PVT、Swin Transformer、CSwin Transformer 等模子架构进行了施行。如下图所示,在 ImageNet 分类任务中,基于代理扫视力构建的模子大致取得权臣的性能提高。举例,Agent-Swin-S 不错取得特出 Swin-B 的性能,而其参数目和盘算推算量不到后者的 60%。

图 4:ImageNet 图片分类拆伙

在实质推理速率方面,代理扫视力也具有权臣的上风。如下图所示,在 CPU/GPU 端,代理扫视力模子大致取得 2.0 倍 / 1.6 倍左右的加快,同期取得更好的性能。

图 5:实质测速拆伙

2. 检测和分割

在检测和分割任务中,相较于基础模子,Agent Transformer 也大致取得至极权臣的性能提高,这在一定进度上成绩于代理扫视力的全局感受野。

图 6:COCO 物体检测与分割拆伙

图 7:ADE20K 语义分割拆伙

3.Agent Stable Diffusion

稀少值得指出的是,代理扫视力不错径直应用于 Stable Diffusion 模子,无需检会,即可加快生成并权臣提高图片生成质料。如下图所示,将代理扫视力应用于 Stable Diffusion 模子,大致将图片生成速率提高约 1.8 倍,同期提高图片的生成质料。

图 8:Stable Diffusion, ToMeSD 和 AgentSD 的定量化拆伙

下图中给出了生成图片的样例。不错看到,代理扫视力大致权臣裁减 Stable Diffusion 模子生成图片的歧义和诞妄,同期提高生成速率和生成质料。

图 9:生成图片的样例

4. 高分辨率与大感受野

本文还沟通了分辨率和感受野对模子性能的影响。如下图所示,咱们基于 Agent-Swin-T 将窗口大小由 7^2 逐渐扩大到 56^2。不错看到,跟着感受野的扩大,模子性能稳步提高。这证实尽管 Swin 的窗口分离是有用的,但它照旧不成幸免地损伤了模子的全局建模智商。

图 10:感受野大小的影响

下图中,咱们将图片分辨率由 256^2 逐渐扩大到 384^2。不错看到,在高分辨率的场景下,代理扫视力模子握续展现出权臣的上风。

图 11:高分辨率场景

回顾

本文的孝顺主要在三个方面:

(1) 提议了一种新颖、当然、有用且高效的扫视力范式 —— 代理扫视力,它当然地交融了高性能的 Softmax 扫视力和高效的线性扫视力,以线性盘算推算量收场存效的全局信息建模。

(2) 在分类、检测、分割等诸多任务中充分考证了代理扫视力的优胜性,稀少是在高分辨率、长序列的场景下,这或为斥地大程序、细粒度、面向实质应用场景的视觉、谈话大模子提供了新的方法。

(3) 立异性地以一种无需检会的式样将代理扫视力应用于 Stable Diffusion 模子,权臣提高生成速率并提高图片质料成都神秘顾客公司,为扩散模子的加快和优化提供了有用的新相关想路。

服务热线: 13760686746
官方网站:www.saiyoums.com
工作时间:周一至周六(09:00-20:00)
联系我们:020-83344575
QQ:53191221
邮箱:53191221@qq.com
地址:广州市越秀区大德路308号1003室
关注公众号

Powered by 武汉客户满意度调查 RSS地图 HTML地图

Copyright 站群 © 2013-2022 粤ICP备09006501号

在线客服系统