关于我们 | 联系我们

ror体育_ror体育手机版_ror体育

当前位置:主页 > 新闻资讯 > 行业新闻 >

10篇AAAI论文剖析,涉及数学速算修正、视频识别和语义支解

本文摘要:点击上方↑↑↑“视学算法”关注我泉源:民众号 量子位 授权转AI顶会AAAI开幕在即,入选论文悉数披露。今日先容10篇论文,来自旗下视觉研发平台优图,涉及数学速算修正、视频识别、语义支解等技术领域,跨越识别、交通、教育和医疗等场景,是优图最新研发结果。 作为人工智能领域最悠久、涵盖内容最广泛的学术集会之一,AAAI集会的论文内容涉及AI和机械学习所有领域,关注的传统主题包罗但不限于自然语言处置惩罚、深度学习等,同时大会还关注跨技术领域主题,如AI+行业应用等。

ror体育app官网登入

点击上方↑↑↑“视学算法”关注我泉源:民众号 量子位 授权转AI顶会AAAI开幕在即,入选论文悉数披露。今日先容10篇论文,来自旗下视觉研发平台优图,涉及数学速算修正、视频识别、语义支解等技术领域,跨越识别、交通、教育和医疗等场景,是优图最新研发结果。

作为人工智能领域最悠久、涵盖内容最广泛的学术集会之一,AAAI集会的论文内容涉及AI和机械学习所有领域,关注的传统主题包罗但不限于自然语言处置惩罚、深度学习等,同时大会还关注跨技术领域主题,如AI+行业应用等。AAAI 2020将于2月7日-2月12日在美国纽约举行,凭据现在披露的信息,最终收到有效论文8800篇,吸收1591篇,接受率20.6%。而优图这10篇入选论文,详情如下:详细解读1. 从时间和语义层面重新思考时间域融适用于基于视频的行人重识别(Oral)Rethinking Temporal Fusion for Video-based Person Re-identification on Semantic and Time Aspect (Oral)关键词:行人重识别、时间和语义、时间融合论文链接:https://arxiv.org/abs/1911.12512剖析:近年来对行人重识别(ReID)领域的研究不停深入,越来越多的研究者开始关注基于整段视频信息的聚合,来获取人体特征的方法。

然而,现有人员重识别方法,忽视了卷积神经网络在差别深度上提取信息在语义层面的差异,因此可能造成最终获取的视频特征表征能力的不足。此外,传统方法在提取视频特征时没有思量到帧间的关系,导致时序融合形成视频特征时的信息冗余,和以此带来的对关键信息的稀释。为相识决这些问题,本文提出了一种新颖、通用的时序融合框架,同时在语义层面和时序层面上对帧信息举行聚合。

在语义层面上,本文使用多阶段聚合网络在多个语义层面上对视频信息举行提取,使得最终获取的特征更全面地表征视频信息。而在时间层面上,本文对现有的帧内注意力机制举行了革新,加入帧间注意力模块,通过思量帧间关系来有效降低时序融合中的信息冗余。实验效果显示本文的方法能有效提升基于视频的行人识别准确度,到达现在最佳的性能。

2.速算修正中的带结构文本识别Accurate Structured-Text Spotting for Arithmetical Exercise Correction关键字:速算修正,算式检测与识别对于中小学教师而言,数学作业修正一直是一项劳动麋集型任务,为了减轻教师的肩负,本文提出算术作业检查器,一个自动评估图像上所有算术表达式正误的系统。其主要挑战是,算术表达式往往是由具有特殊花样(例如,多行式,分数式)的印刷文本和手写文本所混淆组成的。

面临这个挑战,传统的速算修正方案在实际业务中袒露出了许多问题。本文在算式检测和识别两方面,针对实际问题提出相识决方案。

针对算式检测中泛起的非法算式候选问题,文中在无需锚框的检测方法CenterNet的基础上,进一步设计了横向边缘聚焦的损失函数。CenterNet通过捕捉工具的两个边角位置来定位算式工具,同时学习工具内部的信息作为增补,制止生成 ”中空“的工具,在算式检测任务上具有较好的适性。横向边缘聚焦的损失函数进一步把损失更新的关注点放在更易发生、更难定位的算式左右边缘上,制止发生合理却不正当的算式候选。该方法在检测召回率和准确率上都有较为显着的提升。

在算式识别框方面,为制止无意义的上下文信息滋扰识别效果,文中提出基于上下文门函数的识别方法。该方法使用一个门函数来平衡图像表征和上下文信息的输入权重,迫使识别模型更多地学习图像表征,从而制止无意义的上下文信息滋扰识别效果。

3. 基于浓密界限生成器的时序行动提名的快速学习Fast Learning of Temporal Action Proposal via Dense Boundary Generator关键词:DBG行动检测法、算法框架、开源论文链接:https://arxiv.org/abs/1911.04127视频行动检测技术是精彩视频集锦、视频字幕生成、行动识别等任务的基础,随着互联网的飞速生长,在工业界中获得越来越广泛地应用,而互联网场景视频内容的多样性也对技术提出了许多的挑战,如视频场景庞大、行动长度差异较大等。针对这些挑战, 本文针对DBG行动检测算法,提出3点创新:(1)提出一种快速的、端到端的浓密界限行动生成器(Dense Boundary Generator,DBG)。该生成器能够对所有的行动提名(proposal)预计出浓密的界限置信度图。

(2)引入分外的时序上的行动分类损失函数来监视行动概率特征(action score feature,asf),该特征能够促进行动完整度回归(Action-aware Completeness Regression,ACR)。(3)设计一种高效的行动提名特征生成层(Proposal Feature Generation Layer,PFG),该Layer能够有效捕捉行动的全局特征,利便实施后面的分类和回归模块。其算法框架主要包罗视频特征抽取(Video Representation),浓密界限行动检测器(DBG),后处置惩罚(Post-processing)三部门内容。

现在优图DBG的相关代码已在GitHub上开源,并在ActivityNet上排名第一。传送门:https://github.com/TencentYoutuResearch/ActionDetection-DBG4. TEINet:迈向视频识此外高效架构TEINet: Towards an Efficient Architecture for Video Recognition关键词:TEI模块、时序建模、时序结构论文链接:https://arxiv.org/abs/1911.09435本文提出了一种快速的时序建模模块,即TEI模块。该模块能够轻松加入已有的2D CNN网络中。

与以往的时序建模方式差别,TEI通过channel维度上的attention以及channel维度上的时序交互来学习时序特征。首先,TEI所包罗的MEM模块能够增强运动相关特征,同时抑制无关特征(例如配景),然后TEI中的TIM模块在channel维度上增补前后时序信息。这两个模块不仅能够灵活而有效地捕捉时序结构,而且在inference时保证效率。本文通过充实实验在多个benchmark上验证了TEI中两个模块的有效性。

5. 通过自监视特征学习重新审视图像美学质量评估Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning关键词:美学评估、自我监视、盘算机视觉论文链接:https://arxiv.org/abs/1911.11419图像美学质量评估是盘算机视觉领域中一个重要研究课题。近年来,研究者们提出了许多有效的方法,在美学评估问题上取得了很大希望。

这些方法基本上都依赖于大规模的、与视觉美学相关图像标签或属性,但这些信息往往需要泯灭庞大人力成本。为了能够缓解人工标注成本,“使用自监视学习来学习具有美学表达力的视觉表征”是一个具有研究价值的偏向。本文在这个偏向上提出了一种简朴且有效的自监视学习方法。

我们方法的焦点念头是:若一个表征空间不能判别差别的图像编辑操作所带来的美学质量的变化,那么这个表征空间也不适合图像美学质量评估任务。从这个念头出发,本文提出了两种差别的自监视学习任务:一个用来要求模型识别出施加在输入图像上的编辑操作的类型;另一个要求模型区分同一类操作在差别控制参数下所发生的美学质量变更的差异,以此来进一步优化视觉表征空间。为了对比实验的需要,本文将提出的方法与现有的经典的自监视学习方法(如,Colorization,Split-brain,RotNet等)举行比力。

实验效果讲明:在三个公然的美学评估数据集上(即AVA,AADB,和CUHK-PQ),本文的方法都能取得颇具竞争力的性能。而且值得注意的是:本文的方法能够优于直接使用 ImageNet 或者 Places 数据集的标签来学习表征的方法。此外,我们还验证了:在 AVA 数据集上,基于我们方法的模型,能够在不使用 ImageNet 数据集的标签的情况下,取得与最佳方法相当的性能。

6. 基于生成模型的视频域适应技术Generative Adversarial Networks for Video-to-Video Domain Adaptation关键字:视频生成,无监视学习,域适应来自多中心的内窥镜视频通常具有差别的成像条件,例如颜色和照明,这使得在一个域上训练的模型无法很好地推广到另一个域。域适应是解决该问题的潜在解决方案之一。可是,现在很少事情能集中在视频数据域适应处置惩罚任务上。为解决上述问题,本文提出了一种新颖的生成反抗网络(GAN)即VideoGAN,以在差别域之间转换视频数据。

实验效果讲明,由VideoGAN生成的域适应结肠镜检查视频,可以显著提高深度学习网络在多中心数据集上结直肠息肉的支解准确度。由于我们的VideoGAN是通用的网络体系结构,因此本文还将CamVid驾驶视频数据集上举行了测试。实验讲明, 我们的VideoGAN可以大大缩小域间差距。7. 非对称协同教学用于无监视的跨领域行人再识别Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification关键词:行人重识别、非对称协同教学、域适应论文链接:https://arxiv.org/abs/1912.01349行人重识别由于样本的高方差及成图质量,一直以来都是极具挑战性的课题。

虽然在一些牢固场景下的re-ID取得了很大希望(源域),但只有少少的事情能够在模型未见过的目的域上获得很好的效果。现在有一种有效解决方法,是通过聚类为无标志数据打上伪标签,辅助模型适应新场景,然而,聚类往往会引入标签噪声,而且会抛弃低置信度样本,阻碍模型精度提升。

本文通过提出非对称协同教学方法,更有效地使用挖掘样本,提升域适应精度。详细来说,就是使用两个网络,一个网络吸收尽可能纯净的样本,另一个网络吸收尽可能多样的样本,在“类协同教学”的框架下,该方法在滤除噪声样本的同时,可将更多低置信度样本纳入到训练历程中。多个公然实验可说明此方法能有效提升现阶段域适应精度,并可用于差别聚类方法下的域适应。

8. 带角度正则的朝向敏感损失用于行人再识别Viewpoint-Aware Loss with Angular Regularization for Person Re-Identification关键词:行人重识别、朝向、建模论文链接:https://arxiv.org/abs/1912.01300近年来有监视的行人重识别(ReID)取得了重大希望,可是行人图像间庞大朝向差异,使得这一问题仍然充满挑战。大多数现有的基于朝向的特征学习方法,未来自差别朝向的图像映射到分散和独立的子特征空间当中。

ror体育

这种方法只建模了一个朝向下人体图像的身份级此外特征漫衍,却忽略了朝向间潜在的关联关系。为解决这一问题,本文提出了一种新的方法,叫带角度正则的朝向敏感损失(VA-ReID)。

相比每一个朝向学习一个子空间,该方法能够未来自差别朝向的特征映射到同一个超球面上,这样就能同时建模身份级别和朝向级此外特征漫衍。在此基础上,相比传统分类方法将差别的朝向建模成硬标签,本文提出了朝向敏感的自适应标签平滑正则方法(VALSR)。这一方法能够给予特征表现自适应的软朝向标签,从而解决了部门朝向无法明确标注的问题。

大量在Market1501和DukeMTMC数据集上的实验证明晰本文的方法有效性,其性能显著逾越已有的最好有监视ReID方法。9. 如何使用弱监视信息训练条件反抗生成模型Robust Conditional GAN from Uncertainty-Aware Pairwise Comparisons关键词:CGAN、弱监视、成对比力论文链接:https://arxiv.org/abs/1911.09298条件反抗生成网络(conditinal GAN, CGAN)已在近些年取得很大成就,而且在图片属性编辑等领域有乐成的应用。

可是CGAN往往需要大量标注。为相识决这个问题,现有方法大多基于无监视聚类,好比先用无监视学习方法获得伪标注,再用伪标注看成真标注训练CGAN。然而,当目的属性是一连值而非离散值时,或者目的属性不能表征数据间的主要差异,那么这种基于无监视聚类的方法就难以取得理想效果。本文进而思量用弱监视信息去训练CGAN,在文中我们思量成对比力这种弱监视。

成对比力相较于绝对标注具有以下优点:更容易标注;更准确;不易受主观影响。我们提出先训练一个比力网络来预测每张图片的得分,再将这个得分当做条件训练CGAN。第一部门的比力网络我们受到国际象棋等角逐中常用的品级分(Elo rating system)算法的启发,将一次成对比力的标注视为一次角逐,用一个网络预测图片的得分,我们凭据品级分设计了可以反向流传学习的神经网络。

我们还思量了网络的贝叶斯版本,使网络具有预计不确定性的能力。对于图像生成部门,我们将鲁棒条件反抗生成网络(RObust Conditional GAN, RCGAN)拓展到条件是一连值的情形。

详细的,与生成的假图对应的预测得分在被判别器吸收之前会被一个重采样历程污染。这个重采样历程需要用到贝叶斯比力网络的不确定性预计。

我们在四个数据集上举行了实验,划分改变人脸图像的年事和颜值。实验效果讲明提出的弱监视方法和全监视基线相当,并远远好于非监视基线。

10. 基于反抗扰动的无监视领域自适应语义支解An Adversarial Perturbation Oriented Domain Adaptation Approach for Semantic Segmentation关键词:无监视领域自适应、语义支解、反抗训练论文链接:https://arxiv.org/pdf/1912.08954.pdf如今神经网络借助大量标注数据已经能够到达很好的效果,可是往往不能很好的泛化到一个新的情况中,而且大量数据标注是十分昂贵的。因此,无监视领域自适应就实验借助已有的有标注数据训练出模型,并迁移到无标注数据上。反抗对齐(adversarial alignment)方法被广泛应用在无监视领域自适应问题上,全局地匹配两个领域间特征表达的边缘漫衍。但由于语义支解任务上数据的长尾漫衍(long-tail)严重且缺乏种别上的领域适配监视,领域间匹配的历程最终会被大物体种别(如:公路、修建)主导,从而导致这种计谋容易忽略尾部种别或小物体(如:红路灯、自行车)的特征表达。

本文提出了一种生成反抗扰动并防御的框架。首先该框架设计了几个反抗目的(分类器和判别器),并通过反抗目的在两个领域的特征空间划分逐点生成反抗样本。

这些反抗样本毗连了两个领域的特征表达空间,并蕴含网络懦弱的信息。然后该框架强制模型防御反抗样本,从而获得一个对于领域变化和物体尺寸、种别长尾漫衍都更鲁棒的模型。本文提出的反抗扰动框架,在两个合成数据迁移到真实数据的任务上举行了验证。

该方法不仅在图像整体支解上取得了优异的性能,而且大大提升了模型在小物体和种别上的精度,证明晰其有效性。— 完 —。


本文关键词:ror体育,10篇,AAAI,论文,剖析,涉及,数学,速算,修正,、

本文来源:ror体育-www.hyiev.com

Copyright © 2009-2021 www.hyiev.com. ror体育科技 版权所有 备案号:ICP备59648857号-8