PG电子游戏- PG电子平台- 官方网站VC R-CNN

2026-01-15 07:38:08

　　pg电子游戏,pg电子接口,pg电子官网,pg电子试玩,pg电子app,pg电子介绍,pg电子外挂,pg游戏,pg电子游戏平台,pg游戏官网,PG电子,麻将胡了,PG电子试玩,PG模拟器,PG麻将胡了,pg电子平台,百家乐,龙虎,捕鱼,电子捕鱼,麻将胡了2,电子游戏

PG电子游戏- PG电子平台- PG电子官方网站VC R-CNN

　　在这里我们希望通过常识这个角度来分析Vision和NLP的差别。在文本数据中，其实常识信息是被广泛而直接的记录在文本的context里面的，比如“鸟会飞”（大家想想，其实上一段的文本挖掘常识，构建数据库，他们的本质不就是文本嘛？）。但是在Vision下是完全不同的，我拍了一张人和椅子的照片，你从照片中只能看到人和椅子出现在了一起，但是其中没有“人可以坐在椅子上”这种信息，或者说仅仅通过在图片中预测context你压根无法学到视觉常识。这些都在迫使我们思考，我们有没有办法在现有标注条件下去学习常识呢？

　　以前的工作将这归咎于数据集偏见，而没有进一步的理由，例如上图中的大概念共现差距；但在这里，我们通过欣赏“视觉”和“常识”特征之间的差异来仔细研究它。由于“视觉”只告诉“什么”或“哪里”，它只是一个比其对应的英语单词更描述性的符号；当存在偏值时，例如，有更多的人而不是腿区域与“滑雪”一词共现，视觉注意力因此更有可能集中在人的区域。另一方面，如果我们可以使用“常识”特征，“滑雪”的动作可以集中在腿部区域，因为常识是：我们用腿滑雪。

　　我们当然不是第一个相信视觉特征应该包括更多常识性的知识，而不仅仅是视觉表象。目前，有一种趋势是从大规模视觉语言语料库中获得弱监督学习特征。然而，尽管注释成本和含噪声的多模态对之间面临着重大挑战，但由于报告偏值，常识并不总是记录在文本中，例如，大多数人可能会说“人们在路上行走”，但很少有人会指出“人们用腿走路”。事实上，我们人类自然通过探索物理世界以无监督的方式学习常识，我们希望机器也能以这种方式模仿。

　　然后让我们回到第二层级，干预。作者有详细介绍因果理论中的干预，有的同学可能会问了：那这一套Intervention理论该如何用到真实的CV世界中呢？首先让我们用一个toy experiment来引入，我们利用MSCOCO数据集（train2014）中已有的标注信息，简单计算出来Association（用因果之梯第一层级计算）和Intervention（用因果之梯第二层级计算）之间的区别。其实就是下面的两个公式：

　　上面两个图例是作者随意从MSCOCO里找的例子。比如对于上图例，想要探寻在已知吹风机的情况下，去预测水池的可能性大小。因为在数据中有太多比如左图的例子了（也就是说在MSCOCO的大部分数据中，吹风机都是和水池共生在一起的），这就导致只用association计算出的数值比较高：。而当我们按照confounder z进行分层分情况讨论，我们就会去看在z的条件下吹风机和水池之间实际的因果效应。这个过程中也可以被理解为，我们把场景因素考虑在内，对不同的场景进行分层（因为场景就是由object组成的），得到实际的因果效应，比单纯Association计算的数值要低：

　　同样的对于上图例，比如我们想去探寻“马桶”和“人”之间可能存在的因果效应。如果我直接整体的从数据集里进行Toilet和Person之间的共生统计（第一层级Association），因为数据集中人和马桶一起出现的样本其实不多，同时存在比较多马桶和其他东西共存的图片。比如右图在马桶旁边没有出现人，就会导致由马桶 - 人计算出来的概率偏低一点。这时候如果想要做出更鲁棒的预测，我们就需要考虑混杂因子confounder，比如瓶子、水池、杯子等等。按照confounder进行分层计算，最后再加权求和。

　　根据作者举得简单的例子的启发，我们可以把intervention的应用场景搬到了object detection任务中，并为intervention设计了一个proxy task：给定RoI X的feature去预测RoI Y的类别。我们知道周围的视觉世界是由很多物体组成的，其中也包括很多潜在的混杂因子，如果直接预测周围物体Y就不可避免的会被上文提到的混杂因子confounder所影响。根据我们刚刚介绍的“do算子”的理论，解决的办法也不难，只要能找到confounder然后对他们使用backdoor理论进行控制即可。那在我们这一套proxy task里面，混杂因子是什么呢？很明显，就像我举的例子里面说的，也一定是object。直觉上来说我们直接把整个数据集上的object RoI特征在每个类别上取平均，当作这个类别的表示，进而构建出一个类别数x1024的confounder字典作为Z（比如MSCOCO有80类，就是80x1024），它包含着所有可能的混杂因子。注意！这里的预测和以前object detection做的预测其实是有一定区别的，在这里我们强调加入causal intervention的预测是更加鲁棒的预测，我们希望能更加准确的度量X与周围物体之间的因果关系。

　　注意：作者提出的VC R-CNN的实现和原先的Faster R-CNN相比，去除了RPN网络（Region Proposal Network），不再训练网络propose边界框，而是直接将数据集ground-truth的bounding box坐标输入到其中，直接提取region的特征。而在训练完成后的feature提取阶段，相对应的，只要给定图片和bounding box坐标，都可以获得对应的VC特征。就这样，我们利用bottomup特征已有的边界框坐标提取VC特征后，将其并在先前的bottomup特征上作为新的特征。我们在传统的 Vision&Language 三大任务上挑选了经典model和SOTA model进行了测试，发现在各个任务上都取得了明显的提升，尤其是在image captioning上的提升尤其大。同时为了验证性能的提升不是由于参数增多带来的，我们还在原有特征上并上了ablative的特征（单独object特征，用correlation计算的特征），具体可以参考我们的论文的实验部分。

　　最后，作者想从一个high-level的角度来解释学到的VC Feature究竟是什么？VC R-CNN设计了一个预测周围物体的proxy task，通过这个task学习到的VC Feature就作为了干预武器的化身。这个化身能够让context prediction更鲁棒。相应的，是常识（比如，看见椅子想到人不是因为数据中椅子和人的大量共生，而是由于人可以坐椅子），让我们在预测周围事物的时候更鲁棒。所以，我们类比这个feature为视觉常识。

　　一方面，VC R-CNN从因果干预的角度出发，在一定程度上弥补了现如今很多特征及方法只依赖correlation、context所带来bias的缺陷。就比如CVPR2018提出的被 Vision & Language 领域广泛使用的Bottom-up特征，虽然没有去强行使用物体之间的context信息，但是忽略bias就还是有可能会引入bias，就比如体现在下游任务中attention不准的问题（说对了但是attention出错了）。面对这种bias，除了我们在model结构设计方面加以注意，又是否能从特征这一源头来辅助解决呢，这就是我们提出VC的很大motivation之一；

　　另一方面也解决了我在接触 Vision & Language 任务之后的一个疑惑，即大家广泛使用的bottom-up特征效果挺好，但是也只是encode了图片局部object的类别和属性信息，完全没有物体与物体互相之间的关系信息。那我们是否可以从这个角度对原有的bottom-up特征进行补充和完善呢？答案是显然的。而且VC R-CNN也不局限于某一个特征或者某一个数据集，配合上如今已经很方便的目标检测框架，使用者可以在任意数据集上进行训练，然后作为任意原始特征的补充。只要给定图片和bounding box坐标就可以进行VC Feature的提取。

　　说了这么多，其实VC R-CNN也是作者把因果理论应用到general的CV问题中迈出的一步大胆的尝试。同时因为作者有限的个人精力以及self-supervised feature learning问题工作量大的特性，作者也没有办法把所有的model都拿过来尝试，不断往上刷分。在这里也希望各位同样深耕Vision&Language的同学，如果对作者的工作有兴趣可以尝试一下作者提出的Feature，如果有需要在其他训练集上训练VC Feature的也可以直接参考作者的代码，现在这个时代的目标检测框架已经非常友好，可以很方便的支持自定义数据集。

上一篇 : 今冬来山东跟着冰PG电子游戏- PG电子平台- 官方网站雪赛事去旅行

下一篇: PG电子游戏- PG电子平台- 官方网站敦化市：北山雪上乐园焕新升级

【返回列表】