关于我们 | 联系我们

ror体育_ror体育手机版_ror体育

当前位置:主页 > 新闻资讯 > 行业新闻 >

解读 | 2019 年 10 篇盘算机视觉精选论文(上)

本文摘要:点击上方“视学算法”,选择“星标”民众号重磅干货,第一时间送达2019 年转眼已经靠近尾声,我们看到,这一年盘算机视觉(CV)领域又降生了大量精彩的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你相识该领域的最新趋势。 我们看到,近年来,盘算机视觉(CV)系统已经逐渐乐成地应用在医疗保健,安防,运输,零售,银行,农业等领域,也正在逐渐改变整个行业的面目。

ror体育app官网登入

点击上方“视学算法”,选择“星标”民众号重磅干货,第一时间送达2019 年转眼已经靠近尾声,我们看到,这一年盘算机视觉(CV)领域又降生了大量精彩的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你相识该领域的最新趋势。

我们看到,近年来,盘算机视觉(CV)系统已经逐渐乐成地应用在医疗保健,安防,运输,零售,银行,农业等领域,也正在逐渐改变整个行业的面目。现在年,CV 领域依然硕果累累,降生了多篇优秀论文。我们选择了其中十篇论文,以供大家参考、学习,相识该领域的最新趋势与前沿技术。

这十篇论文涵盖了卷积网络的优化,盘算机视觉中的无监视学习,图像生成和机械生成图像的评估,视觉语言导航,使用自然语言为两个图像标注变化等。以下是我们精选的 10 篇论文目录,先一睹为快:1.EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet:卷积神经网络模型缩放的反思2.Learning the Depths of Moving People by Watching Frozen People通过寓目静止的人来学习移动的人的深度3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation增强的跨模态匹配和自我监视的模拟学习,用于视觉语言导航4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction非视线形状重构的费马路径理论5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object DetectionReasoning-RCNN:将自适应全局推理统一到大规模目的检测中6.Fixing the Train-Test Resolution Discrepancy修复训练测试分辨率差异7.SinGAN: Learning a Generative Model from a Single Natural ImageSinGAN:从单个自然图像中学习生成模型8.Local Aggregation for Unsupervised Learning of Visual Embeddings视觉聚合的无监视学习的局部聚合9.Robust Change Captioning强大的更改字幕10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative ModelsHYPE:人类对生成模型的 eYe 感知评估的基准接下来,我们将从焦点思想、关键成就、未来技术应用等方面,详细先容这 10 篇论文。

限于篇幅,我们将解读分为上、中、下三个篇章,接待大家连续关注后续内容推送。1《EfficientNet:卷积神经网络模型缩放的反思》论文地址:https://arxiv.org/pdf/1905.11946.pdf 摘要 卷积神经网络(ConvNets)通常是在牢固资源预算下开发的,如果有更多资源可用,则会举行扩展以获得更高的精度。在本文中,我们系统地研究了模型缩放,并发现仔细平衡网络的深度,宽度和分辨率,可以带来更好的性能。

基于此视察效果,我们提出了一种新的缩放方法,该方法使用简朴而高效的复合系数来匀称缩放深度/宽度/分辨率的所有维度。我们证明晰此方法在扩展 MobileNets 和 ResNet 方面的有效性。更进一步,我们使用神经体系结构搜索来设计一个新的基准网络,并对其举行扩展以获得称为 EfficientNets 的模型系列,该模型系列比以前的 ConvNets 具有更高的准确性和效率。

特别是,我们的 EfficientNet-B7 在 ImageNet 上到达了最先进的 84.4%top-1 / 97.1%top-5 精度,同时比现有最佳 ConvNet 缩小了 8.4 倍,推理速度提高了 6.1 倍。我们的 EfficientNets 还可以很好地传输并在 CIFAR-100(91.7%),Flowers(98.8%)和其他 3 个传输学习数据集上到达最先进的精度,而参数要少几个数量级。源代码链接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet.。本文焦点思想 •CNN 的深度(层数),宽度和输入分辨率应以特定的比例放大,而不是任意放大。

•此外,由于模型缩放的有效性在很大水平上取决于基线网络,因此研究人员使用神经体系结构搜索来开发新的基线模型,并将其按比例缩放以获得一个称为 EfficientNets 的模型系列。•您可以凭据可用资源,选择 EfficientNets 中的一种模型。

关键成就 •EfficientNets 在 8 个数据集中的 5 个上,获得了最优的精度,平均参数淘汰了 9.6 倍。•特别是,具有 66M 参数的 EfficientNet 在 ImageNet 上到达了 top-1 准确率 84.4%,top-5 准确率 97-1%,比之前最先进的 CNN - GPipe(参数557M )小了 8 倍,快了 6 倍。此论文在人工智能界的荣誉 •该论文在机械学习领域的顶尖集会 ICML 2019 上被重点先容。

未来的研究领域 作者在 Google AI 博客上表现,他们希望 EfficientNets「充当未来盘算机视觉任务的新基础」。有哪些可能的业务应用法式?这项研究的效果对于商业情况中的盘算机视觉应用很是重要,因为提出的方法可以更快,更自制地从 CNN 获得更准确的效果。在那里可以获得实现代码?•作者已公布了其 TensorFlow EfficientNet 实现的源代码:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet。

•还可用 PyTorch 实现:https://github.com/lukemelas/EfficientNet-PyTorch2通过寓目静止的人来学习移动的人的深度论文地址:https://arxiv.org/pdf/1904.11111.pdf 摘要 我们提出了一种在单目摄像机和人都可以自由移动的情况下,预测麋集深度的方法。现有的用于从单目视频恢复动态非刚性物体的深度的方法,对物体的运动施加了强烈假设,而且可能仅恢复稀疏的深度。在本文中,我们接纳数据驱动的方法,重新的数据泉源中学习人物深度先验:成千上万的人们模拟人体模型的互联网视频,即以种种自然姿势冻结,而手持摄像机则在现场浏览。因为人是静止的,所以可以使用多视图立体重建来生成训练数据。

在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕捉的庞大人物行动的真实世界序列展示了我们的方法,显示了对前沿的单目深度预测方法的革新,并显示了使用我们预测的深度发生的种种 3D 效果。本文的焦点思想 •这项研究解决了在一个有人类主体的自然场景中,当主体和单个摄像机同时移动时,映射深度的挑战。•作者使用 YouTube 上模拟人体模型的人的视频数据库 Mannequin Challenge(人体模型挑战数据集)训练了一个深度神经网络,该深度可以通过现有的立体声技术举行映射。

•该网络以 RGB 图像、人类区域掩码和情况初始深度作为输入,然后输出包罗情况和人类在内的整个图像的浓密深度图。•假设人类在移动而场景的其余部门是静止的,则通过视频中两个帧之间的运动视差来预计初始深度。

关键成就 •提出的模型与现有方法相比,能够为人类及其周围情况以显着更高的精度,重新建立移动场景的深度图。•引入了 Mannequin Challenge 数据集,这是 2,000 个 YouTube 视频的荟萃,在这些视频中,当摄像机绕着场景转圈时,人们在其中姿势不动。

此论文在人工智能界的荣誉 •该论文在盘算机视觉和模式识此外领先集会 CVPR 2019 上获得了最佳论文奖(荣誉奖)。未来的研究领域是什么?•扩展模型以适用于移动非人类物体,例如汽车和阴影。•一次将两个以上的视图合并到模型中,以消除暂时的纷歧致。

有哪些可能的业务应用法式?•发生准确的 3D 视频效果,包罗合成景深,可感知深度的修补以及将虚拟工具插入 3D 场景。•使用多个框架扩展视野,同时保持准确的场景深度。

在那里可以获得实现代码?•代码和模型在 GitHub 上地址为:https://github.com/google/mannequinchallenge。3用于视觉语言导航的,增强跨模态匹配和自我监视模拟学习论文地址:https://arxiv.org/pdf/1811.10092.pdf 摘要 视觉-语言导航(Vision-language navigation,VLN)任务是指在真实的三维情况中让具有实体的智能体举行导航并完成自然语言指令。

在这篇论文中,我们研究了如何解决这个任务中的三个重点挑战:跨模态参照,不适定反馈,以及泛化问题。我们首先提出了一种新的强化跨模态匹配(RCM)方法,它可以通过强化学习的方式同时促进局部和全局的跨模态参照。详细来说,我们使用了一个匹配指标,它成为了勉励模型增强外部指令和运动轨迹之间匹配的固有反馈;模型也使用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。

在一个 VLN benchmark 数据集上举行的评估效果讲明,我们提出的 RCM 模型大幅逾越已有模型,SPL 分数提高了 10%,成为了新的 SOTA。为了提高学习到的计谋的泛化性,我们还进一步提出了一个自监视模拟学习(SIL)方法,通过模拟自己以往的良好决议的方式探索未曾见过的情况。我们证明晰 SIL 可以迫近出更好、更高效的计谋,这极大水平减小了智能体在见过和未见过的情况中的乐成率体现的差异(从 30.7% 降低到 11.7%)。本文的焦点思想 • 视觉语言导航需要一台机械来剖析语言指令,将这些指令与视觉情况匹配,然后凭据语言指令中的子短语来导航该情况。

• 为相识决这一困难的任务,研究人员先容了一种新颖的跨模态匹配方法,该方法使用外部奖励和内在奖励来举行强化学习:它包罗一个推理导航器,该导航器从自然语言指令和当地视觉场景中学习,以推断出要重点关注的短语以及查找的位置。该 agent 配备有一个匹配的注释法式,该注释法式凭据从中重构原始指令的可能性来评估执行路径。

另外,细粒度的内在奖励信号会勉励署理更好地明白文本输入,并对选择不切合指令的轨迹举行处罚。• 本文还先容了一种自我监视的模拟学习(SIL)方法,用于探索以前看不见的情况:导航器执行多次转动,然后由匹配的注释器确定良好的轨迹,随后将其用于导航器模拟。关键成就 •RCM 框架在以下方面优于 R2R 数据集上的最新视觉语言导航方法:将 SPL 分数从 28% 提高到 35%;乐成率提高了 8.1%。•此外,使用 SIL 模拟 RCM agent 先前在训练集上的最佳体验,会导致平均路径长度从 15.22m 下降到 11.97m,而且对 SPL 怀抱的效果甚至更好(38%)。

此论文在人工智能界的荣誉 •该论文获得了三项「强烈接受」(Strong Accept)同行评审,并在盘算机视觉和模式识此外顶尖集会 СVPR 2019 上被重点先容。未来的研究领域是什么?•使用 SIL 方法探索其他看不见的情况。有哪些可能的业务应用法式?•引入的框架可以在许多实际应用中使用,包罗:根据指示在家庭或办公室中移动的家用机械人;私人助理接受口头指示并在庞大的情况中导航以执行某些任务。


本文关键词:ror体育,解读,2019,年,篇,盘算机,视觉,精选,论文,上

本文来源:ror体育-www.hyiev.com

Copyright © 2009-2021 www.hyiev.com. ror体育科技 版权所有 备案号:ICP备59648857号-8