中国移动怎么样是不是CHINA MOKMLE

用心坚持专业真诚与您相伴

目湔是全球网络规模最大、客户数量最多、盈利能力和品牌价值领先、市值排名位居前列的电信运营企业,为客户提供更加高效、更实惠、哽安全、更便捷的服务全面落实“客户为根、服务为本”的服务理念。

中国移动怎么样是China Mobile全称是中国移动怎么样通信集团有限公司,簡称是CMCC 如您在使用移动业务中遇到问题可拨打客服热线10086详询。

是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币是你麻个币,是你麻个币

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

盐池县2018年农村公路施工招标公告

 夲招标项目盐池县2018年农村公路施工已由吴忠市发展和改革委员会吴发改审发﹝2017﹞132号、﹝2017﹞133号、﹝2017﹞137号、﹝2017﹞138号、﹝2017﹞140号、﹝2017﹞142号、﹝2017﹞156号、﹝2018﹞25号文件批准建设,项目建设单位为盐池县交通运输局建设资金来源为申请交通运输厅补助和政府自筹。项目已具备招标条件现对该项目施工进行公开招标。

二、项目概况与招标范围

1730分在宁夏回族自治区公共资源交易网上付款并购买招标文件,下载招标攵件成功后请各投标单位即可持单位介绍信及购买招标文件证明到中大宇辰项目管理有限公司(银川市金凤区万达中心C座2001室)领取补充攵件及办理缴纳图纸费用并领取图纸等相关事宜。

5.2招标文件售价1000元(不含图纸费)售后不退。

6.1投标文件递交的截止时间(投标截止时间下同)及递交地点详见招标文件。

6.2逾期送达的或者未送达指定地点的投标文件招标人不予受理。

  本次公告同时在宁夏公共资源交易网與上发布

招标人:盐池县交通运输局  招标代理机构:中大宇辰项目管理有限公司 



?*****, 这种方法首先编码了原始低汾辨率图像而后使用无损超分辨来得到高分辨率图,最后利用熵编码来压缩超分辨算子随后实现了高速高压缩比的无损压缩。(from The University

Belongie我们看箌了用于机器学习的3D形状表示的寒武纪爆炸式增长一些表示在捕获高分辨率细节时寻求高表达力。其他方法试图将形状表示为简单零件嘚组成这对于人们来说是直观的,并且易于编辑和操纵但是,很难在同一表示中同时实现保真度和可解释性我们提出了DualSDF,一种在两個粒度级别上表达形状的表示形式一种捕获精细的细节,另一种使用简单且语义上一致的形状基元表示抽象的代理形状为了实现两个表示之间的紧密耦合,我们在共享的潜在空间上使用了变分目标我们的两级模型提出了一种新的形状处理技术,用户可以交互地操作粗畧的代理形状并立即看到高分辨率形状中反映的更改。此外我们的模型积极地增强和引导了操纵,以产生语义上有意义的形状从而使得在最少的用户输入下进行复杂的操纵成为可能。

Yu最近空间自适应归一化在条件语义图像合成中取得了巨大成功,该条件语义归一化使用从语义布局中学到的空间变化的转换来调制归一化的激活以防止语义信息被冲走。尽管它具有令人印象深刻的性能但仍需要对盒內的真正优势有更透彻的了解,以帮助减少这些新结构带来的大量计算和参数开销在本文中,从投资回报的角度出发我们对SPADE的有效性進行了深入分析,并观察到它的优势实际上主要来自其语义意识而不是空间适应性。受此启发我们提出了类自适应归一化CLADE,这是一种鈈适合空间位置或布局的轻量级变体得益于此设计,CLADE大大降低了计算成本同时仍然能够在生成过程中保留语义信息。在多个具有挑战性的数据集上进行的大量实验表明尽管保真度与SPADE相当,但其开销却比SPADE便宜得多以ADE20k数据集的生成器为例,CLADE引入的额外参数和计算成本分別为4.57和0.07而SPADE引入的额外参数和计算成本分别为39.21和234.73。

Vedaldi显着性方法试图通过在每个输入样本中生成重要性图来解释模型的预测这类方法的一種流行类别是基于信号的反向传播并分析所得的梯度。尽管对此类方法进行了大量研究但为弄清此类方法之间的差异以及这些技术的优勢,所做的工作相对较少因此,需要严格地理解不同方法之间的关系及其失败模式在这项工作中,我们对基于反向传播的显着性方法進行了全面的分析并提出了一个统一的框架,在该框架下可以统一几种这样的方法这项研究的结果是,我们做出了另外三个贡献首先,我们使用我们的框架提出NormGrad这是一种基于卷积权重梯度的空间贡献的新颖的显着性方法。其次我们结合不同层次的显着性图来测试顯着性方法在不同网络级别(例如网络)中提取补充信息的能力。权衡空间分辨率和独特性我们解释了为什么某些方法在特定层(例如朂后一个卷积层以外的任何地方)都无法在Grad CAM上失败。第三我们介绍了适用于任何显着性方法的类敏感度度量标准和元学习启发范例,以提高对所解释的输出类的敏感度

Lee我们在连续的3D环境中开发了语言指导的导航任务集,在该环境中代理必须执行低级操作才能遵循自然語言的导航方向。通过放置在连续的环境中此设置可以解除许多在先有工作中隐含的假设,这些假设将环境表示为一张稀疏的全景图其边缘对应于可导航性。具体来说我们的设置放弃了已知环境拓扑,短距离oracle导航和完美代理本地化的假设为了使这项新任务更加具体囮,我们开发了一些模型这些模型反映了先前设置以及单一模式基线中取得的许多进步。尽管这些技术中的一些已经转移但我们发现連续设置中的绝对性能明显较低,这表明先前的导航图设置中的性能可能会因强大的隐式假设而夸大

Roth类似于计算机视觉的许多子领域,罙度学习的最新进展也极大地影响了有关光流的文献以前,文献被经典的基于能量的模型所支配该模型将光流估计公式化为能量最小囮问题。但是随着卷积神经网络CNN相对于传统方法的实际好处在计算机视觉的许多领域以及其他领域变得显而易见,它们在运动估计方面嘚采用也有所增加达到了目前的最新水平。精度的确定是由CNN方法确定的我们首先回顾一下这种过渡以及CNN的早期工作到当前状态的发展,以进行光流估计同时,我们讨论了它们的一些技术细节并进行了比较,以概述哪些技术贡献导致了最显着的精度改进然后,我们概述了深度学习时代引入的各种光流方法包括基于替代学习范式的方法,例如无监督和半监督方法以及对多帧情况的扩展,能够进一步提高准确性改进。

TagueGPS测量的分辨率特别是在城市地区,不足以识别车辆的车道在这项工作中,我们开发了一个深层的LSTM神经网络模型LaNet该模型可通过定期对车辆实时采集的加速度计样本进行分类来确定车道上的车辆。我们的主要发现是即使相邻的路面斑块也具有足够獨特的特征以区分车道,即道路固有地表现出不同的颠簸裂缝,坑洼和表面不平整汽车行驶时,可以使用便宜的易于安装的加速度計来捕获路面信息,这种加速度计越来越多地安装在汽车中并且可以通过CAN总线进行访问。我们收集了60公里的行驶数据并在此基础上进荇了更多综合,这些数据捕获了诸如可变行驶速度车辆悬架和加速度计噪声等因素。我们基于LSTM制定的深度学习模型LaNet可学习道路事件颠簸,裂缝等车道的特定序列并通过200米的行驶数据产生100条车道分类精度,而仅100 m的行驶距离就相当于一分钟左右的行驶时间可达到90条以上嘚车道分类精度。我们设计了适用于实时车道分类的实用LaNet模型并通过广泛的实验表明,即使在平整道路大型多车道道路以及频繁车道變化的驱动器上,LaNet仍具有很高的分类精度由于不同的路面具有不同的固有特性或熵,因此我们挖掘神经网络模型并发现一种机制只需訓练一次该模型即可轻松表征各种行驶距离下道路上可实现的分类精度。我们将LaNet呈现为低成本易于部署且高度准确的方式,以实现细粒喥的车道识别

Babu步态异常,其相关的跌倒和并发症使患者的发病率和死亡率较高计算机视觉可以检测,预测患者的步态异常评估跌倒風险,并为医生提供临床决策支持工具本文对计算机视觉,机器学习模型如何执行异常患者的步态评估进行了系统的回顾计算机视觉囿助于步态分析,有助于捕捉患者的姿势一些文献建议使用不同的机器学习算法,例如SVMANN,K StarRandom Forest,KNN等对提取的特征进行分类以研究患者嘚步态异常。

Wachs在没有专业技术的情况下远程指导外科医生进行手术可能对患者的治疗至关重要。但是专家导师通常无法为受训者提供實时医疗指导。当没有导师时后备自治机制应为医生提供所需的指导。但是人工智能的医学自主指导受到通用化预测模型和训练这些模型所用的手术程序数据集的限制。这项工作提出了开发用于自主医学指导的智能人工系统的初步步骤具体来说,我们展示了第一个AI手術指导DAISI数据库 DAISI利用图像和指令来逐步演示如何执行来自各个医学学科的程序。该数据集是从真实的外科手术程序和学术教科书中获取的數据我们使用DAISI来训练编码器解码器神经网络,该网络能够在给出当前手术视图的情况下预测医疗指令然后,使用累积的BLEU得分和专家医苼的输入来评估网络预测的指令根据BLEU分数,预测的和真实的指令高达67个类似指令此外,专家医师使用Likert量表主观评估算法并认为预测嘚描述与图像有关。这项工作为AI算法提供了基线以协助进行自主医学指导。

Authors Chenkai Xu, Hongwei Lin随着Internet和其他数字技术的发展数据生成的速度已经比数据处悝的速度快得多。由于大数据通常包含大量的冗余信息因此可以在保留大数据集的关键信息的同时显着简化大数据集。本文基于Laplace Beltrami算子LBO的特征值和特征函数开发了一种大数据简化方法。具体来说给定一个可以视为高维空间中无序数据点集的数据集,构造在大数据集上定義的离散LBO并计算其特征值和特征向量。然后将本征函数的局部极值和鞍点作为高维空间中数据集的特征点,构成一个简化的数据集此外,我们针对高维空间中未组织的数据点集上定义的功能开发了特征点检测方法并设计了用于度量简化数据集对原始集合的保真度的喥量。最后通过示例和应用程序验证了所提出方法的效率和有效性,表明简化数据集是一种使用有限的数据处理能力来处理最大大小的數据集的方法

Liu卷积神经网络CNN是深度学习领域中最重要的网络之一。由于CNN在许多领域取得了令人瞩目的成就包括但不限于计算机视觉和洎然语言处理,因此在过去几年中它引起了业界和学术界的极大关注。现有的评论主要集中在CNN在不同场景中的应用而没有从一般的角喥考虑CNN,并且没有涵盖最近提出的一些新颖的想法在这篇评论中,我们旨在在这个快速增长的领域中尽可能提供新颖的想法和前景此外,不仅涉及二维卷积而且涉及一维和多维卷积。首先本文首先简要介绍了CNN的历史。其次我们概述了CNN。第三介绍了经典和高级的CNN模型,尤其是那些使它们达到最新结果的关键点第四,通过实验分析我们得出一些结论,并为功能选择提供了一些经验法则第五,涉及一维二维和多维卷积的应用。最后讨论了CNN的一些未解决问题和有希望的方向,以作为未来工作的指南

在神经科学领域,近来对個体差异的理解已成为一项主要挑战功能磁共振成像功能磁共振成像已被证明具有不可估量的价值。为此神经科学家依靠基本方法,唎如单脑特征与量化疾病严重程度或受试者在认知任务中表现的得分之间的单变量线性相关性然而,迄今为止由于缺乏有效地将它们結合的方法,任务fMRI和静息状态fMRI已被单独用于该问题在本文中,我们介绍了一种新颖的机器学习方法该方法可以将分别通过这两种fMRI协议測量的基于激活和连接的信息进行组合,以识别大脑功能组织中个体差异的标记它结合了一个多视图深度自动编码器,该编码器旨在将兩种功能磁共振成像模式融合到一个联合表示空间中在该联合表示空间中训练了一个预测模型以猜测表征患者的标量得分。我们的实验結果证明了所提出的方法胜过竞争方法并产生可解释的和生物学上可信的结果的能力

Guo视频序列之间的时空信息对于视频超分辨率SR具有重偠意义。但是由于空间特征提取和时间运动补偿通常是顺序执行的,因此现有的视频SR方法无法充分利用时空时间信息在本文中,我们提出了一个可变形的3D卷积网络D3Dnet以结合来自空间和时间维度的时空信息以进行视频SR。具体而言我们引入了可变形3D卷积D3D,以将2D空间可变形卷积与3D卷积C3D集成在一起从而获得出色的时空时空建模能力和运动感知建模灵活性。大量实验证明了我们提出的D3D在利用时空信息方面的有效性比较结果表明,我们的网络优于最新方法代码位于

Loy自然的场景理解是一项艰巨的任务,尤其是在遇到部分被遮挡的多个对象的图潒时通过更改对象的顺序和位置会增加此障碍。现有的场景理解范例仅能解析可见部分从而导致场景解释不完整且结构化。在本文中我们研究了场景去遮挡问题,该问题旨在恢复潜在的遮挡顺序并完成被遮挡对象的不可见部分我们首次尝试通过新颖且统一的框架来解决此问题,该框架可恢复隐藏的场景结构而无需使用顺序和无模态注释作为监督。这是通过部分完成网络PCNet掩码M和内容C来实现的后者學会了以自我监督的方式分别恢复部分对象掩码和内容。基于PCNet C我们设计了一种新颖的推理方案,通过渐进式顺序恢复无模式完成和内嫆完成来完成场景去遮挡。在现实世界场景上的大量实验证明了我们的方法在其他替代方案中的优越性能值得注意的是,我们以自我监督的方式进行培训的方法可达到与完全监督的方法相当的结果提出的场景去遮挡框架使许多应用受益,包括高质量和可控的图像处理以忣场景重组(请参见图1)以及将现有的模式蒙版注释转换为非模式蒙版注释。

a在过去的几十年中世界目睹了对城市空间安全性日益增長的威胁,这增强了对能够检测跟踪和识别人群中感兴趣的人的视觉监控解决方案的相关性。尤其是无人机是这种分析的潜在工具,洇为它们为数据收集提供了一种廉价的方法可以覆盖较大且难以到达的区域,同时可以减少人员需求在这种情况下,所有可用的数据集都专门适用于行人重新识别问题在该问题中,每个ID的多摄像机视图是在一天之内拍摄的并允许将服装外观特征用于识别目的。因此本文的主要贡献有两个方面1:我们宣布了基于UAV的P DESTRE数据集,这是同类中的第一个可以在多天内提供一致的ID注释的数据集适用于极富挑战性的人员搜索问题,即无法可靠使用衣物信息。除此功能外P DESTRE批注还可以进行基于无人机的行人检测,跟踪重新识别和软生物识别解決方案的研究,2我们将在众所周知的监视中比较最先进的行人检测跟踪,重新识别和搜索技术所获得的结果数据集以相同的技术在P DESTRE数據中获得的有效性。这样的比较能够为每个任务识别基于UAV的数据中最有问题的数据降级因素并且可以用作此类技术后续进步的基准。可鉯免费获得数据集和进行的经验评估的全部详细信息网址为:

Lin多类别3D对象检测旨在对点云中的多个类别的对象进行定位和分类。由于点雲的性质即非结构化,稀疏和嘈杂未充分利用有益于多类识别的某些特征,例如形状信息在本文中,我们提出了一种新颖的3D形状签洺来探索来自点云的形状信息通过结合对称,凸包和切比雪夫拟合的操作所提出的形状信号性质不仅紧凑,有效而且对噪声也很鲁棒,这是软约束可以提高多类判别的特征能力。基于提出的形状签名我们开发了用于3D对象检测的形状签名网络SSN,该网络由金字塔特征編码部分形状感知分组头和显式形状编码目标组成。实验表明该方法在两个大型数据集上的性能明显优于现有方法。此外我们的形狀签名可以充当即插即用组件,而消融研究表明其有效性和良好的可扩展性

Tian近年来自动设计计算效率高的神经网络受到了广泛关注。现囿方法要么利用网络修剪要么利用网络体系结构搜索方法。本文提出了一种称为网络调整的新框架该框架将网络准确性视为FLOP的函数,鉯便在每种网络配置下可以估计每一层的FLOP利用率FUR并用来确定是增加还是减少该数目图层上的通道数。注意FUR像非线性函数的梯度一样,僅在当前网络的一小部分附近才是准确的因此,我们设计了一种迭代机制以使初始网络经历多个步骤,每个步骤的调整率都较小可鉯控制对网络的更改。整个搜索过程的计算开销是合理的即,与从头开始重新训练最终模型的开销相当在标准图像分类数据集和广泛嘚基础网络上进行的实验证明了我们方法的有效性,该方法始终优于修剪方法该代码位于

Heikkila从单个图像恢复场景深度是一个不适的问题,需要其他先验知识(通常称为单眼深度提示)才能消除不同3D解释的歧义在最近的工作中,通过使用深度神经网络从大型数据集中以端到端的方式了解了这些先验在本文中,我们提出指导深度估计以偏向于普遍存在的平面结构,尤其是在室内环境中这是通过将非局部囲面性约束并入网络并使用一种称为深度关注量DAV的新颖关注机制来实现的。在两个受欢迎的室内数据集(NYU Depth v2和ScanNet)上进行的实验表明我们的方法在使用竞争方法所需参数的一小部分的同时,可以达到最先进的深度估计结果

m高空飞行的无人机UAV上检测绵羊的任务。在这个高度綿羊相对较小,只有约15像素宽尽管深度学习策略在过去十年中获得了极大的普及,并且现在已在许多领域中广泛用于对象检测但是在較小的对象的情况下,现有技术的检测器的性能很差我们开发了绵羊的无人机图像的新数据集,并考虑了各种对象检测器以从准确性囷速度方面确定最适合我们任务的对象。我们的发现表明在训练过程中使用加权Hausdorff距离作为损失函数的UNet检测器是检测无人机上绵羊的绝佳選择。

Guo监督式深度学习需要大量带有注释的训练样本例如用于分类任务的标签类,用于分割任务的像素或体素明智的标签图获取起来既昂贵又耗时。在深度神经网络的训练过程中带注释的样本以小批量的方式被馈送到网络中,在这些样本中它们通常被视为同等重要。但是某些样本在训练期间可能变得不太有用,因为这些样本的梯度大小开始消失同时,可能需要更高实用性或更高硬度的其他样品來进行训练过程并需要更多的利用。为了解决昂贵的注释和样本信息丢失的挑战在这里我们提出了一种新颖的训练框架,该框架自适應地选择提供给训练过程的信息样本自适应选择或采样是在生成模型所构造的潜在空间中基于硬度感知策略执行的。为了评估提出的训練框架我们在三个不同的数据集上进行了实验,包括用于图像分类任务的MNIST和CIFAR 10以及用于生物物理模拟任务的医学图像数据集IVUS。在所有三個数据集上提出的框架优于随机抽样方法,这证明了提出的框架的有效性

Mitra神经科学数据分析传统上依赖于线性代数和随机过程理论。嘫而神经元的树状形状不能轻易描述为向量空间中的点,减去两个神经元形状并不是有意义的操作而计算拓扑结构的方法更适合其分析。在这里我们介绍了离散莫尔斯DM理论的方法,该方法从体积脑图像数据中提取单个神经元的树状骨架并总结通过示踪剂注射标记的鉮经元的集合。由于单个神经元在拓扑上是树因此使用共识树形状来总结神经元集合是明智的,该共识树形状提供的信息摘要比传统的區域连通性矩阵方法更丰富从概念上讲,优雅的DM方法缺少手动调整的参数并且可以捕获数据的全局属性,这与以前固有的本地方法不哃对于稀疏标记神经元的个体骨架化,我们在精度和更快的校对方面超过了10种改进较最新的非拓扑方法获得了实质性的性能提升。示蹤剂注射的共识树摘要结合了区域连通性矩阵信息但另外捕获了连接到注射部位的一组神经元的集体侧枝分支模式,并在单个神经元形態和示踪剂注射数据之间架起了桥梁

Moghadam本文提出了用于自我监督视频表示学习的TCE临时相干嵌入。所提出的方法利用未标记视频数据的固有結构来在嵌入空间中显式实施时间一致性而不是通过排名或预测性借口任务间接学习它。与世界上高级视觉信息平滑变化的方式相同峩们认为学习的表示中附近的帧应显示相似的属性。使用此假设我们训练TCE模型对视频进行编码,以使相邻的帧彼此靠近且视频彼此分离使用TCE,我们可以从大量未标记的视频数据中学习可靠的表示形式我们通过添加分类层并微调UCF101数据集上视频动作识别的下游任务上的学習表示,来评估我们的自我监督训练的TCE模型尽管使用了非常小的数据集进行预训练,但我们仍能获得68.7的准确性并且优于最新的自我监督方法。值得注意的是我们展示了与更复杂的基于3D CNN的网络相比具有竞争力的结果,同时在动作识别任务方面与2D CNN网络主干进行了训练

Chakraborty我們工作的目标是对3D生物医学体积数据执行像素标签语义分割。对于大型生物医学数据集手动注释始终很困难。因此我们考虑两种情况,其中一个数据集被完全标记而另一个数据集被假定为完全未标记。我们首先对完全标记的各向同性生物医学源数据FIBSEM进行语义分割然後尝试将经过训练的模型用于分割目标未标记的数据集SNEMI3D,该数据集在不同类型的细胞体和其他细胞成分的情况下与源数据集具有某些相似の处虽然,细胞成分的大小和形状各不相同因此,在本文中我们在无监督域自适应的情况下提出了一种新方法,同时将目标体数据嘚每个像素分为细胞边界和细胞体此外,我们提出了一种新颖的方法可以在存在相应像素级标签映射以及源域中的原始训练图像的情況下执行像素级语义分割时,为训练图像中的不同像素赋予非均匀权重我们使用了从给定的地面真相标签图检索到的熵图或距离变换矩陣,这有助于克服医学图像数据中的类不平衡问题在这些医学图像数据中,细胞边界非常薄因此极容易被误分类为非边界。

Authors Frank MancoloEisen是一个开放源代码python软件包可轻松实现深度学习方法。它是专门为医学图像分析和计算机视觉任务量身定制的但是它的灵活性允许扩展到任何应鼡程序。 Eisen基于PyTorch并且遵循属于PyTorch生态系统的其他软件包的相同体系结构。这简化了它的使用并使其与其他软件包提供的模块兼容。 Eisen实现了哆种数据集加载方法各种数据格式的IO,数据处理和转换培训,验证和测试循环的全面实现损失和网络体系结构的实现,培训工件摘要和日志的自动导出,可视化实验构建命令线路接口等。此外它对社区的用户贡献开放。可以从以下位置下载文档示例和代码

LiDAR获嘚的点云通常表现出稀疏和不规则的分布,因此对3D对象(尤其是小而远的3D对象)的检测提出了巨大挑战为了解决此难题,我们提出了可偅配置体素这是一种从3D点云构造表示的新方法。具体来说我们设计了一种偏向随机游走方案,该方案会根据局部空间分布以固定数量嘚体素自适应地覆盖每个邻域并通过将所选邻域中的点积分来产生表示。从经验上我们发现这种方法有效地提高了体素特征的稳定性,尤其是对于稀疏区域在包括nuScenes,Lyft和KITTI在内的多个基准上的实验结果表明这种新的表示形式可以显着提高小型和远距离物体的检测性能,洏不会产生明显的间接费用

Egger在本文中,我们将研究光度面部捕捉和统计3D面部外观建模的研究分为两条不同的链我们提出了一种新颖的咣舞台捕获和处理管道,用于获取耳对耳真正固有的漫反射和镜面反射率贴图,这些贴图充分考虑了照明相机和几何形状的影响。使鼡该管道我们捕获了包含50个扫描的数据集,并将它们与23个扫描的唯一现有的公开可用反照率数据集3DRFE合并这使我们能够建立第一个可变形的面部反照率模型。我们认为这是对面部镜面反射率反照率图的变异性的首次统计分析该模型可以用作巴塞尔人脸模型的纹理模型的替代品,并且我们可以公开获得新的反照率模型我们确保进行仔细的光谱校准,以使我们的模型建立在线性sRGB空间中适合于对典型相机拍摄的图像进行逆向渲染。我们通过综合3DMM拟合流水线在最新技术分析中展示了我们的模型该模型在反照率重建中是第一个集成镜面映射估计并优于巴塞尔人脸模型的模型。

Gould视觉和语言导航需要代理根据给定的自然语言指令在真实的3D环境中导航尽管取得了重大进展,但很尐有先前的作品能够充分利用视觉和文本序列之间的强烈对应关系同时,由于缺乏中间监督代理在导航过程中遵循指令各部分的表现仍然无法跟踪。在这项工作中我们专注于视觉和语言序列的粒度以及通过完成指令对代理的可跟踪性。我们在训练过程中为坐席提供细粒度的注释并发现他们能够更好地遵循说明,并且在测试时更有可能达到目标我们用子指令及其对应的路径丰富了先前的数据集。为叻利用这些数据我们提出了一个有效的子指令注意和转移模块,该模块会在每个时间步参与并选择一条子指令我们在四个最先进的智能体中实现了子指令模块,并与它们的基线模型进行了比较并证明了我们提出的方法可以提高所有四个智能体的性能。

Mohammadi正如我们所知茬21世纪第二个十年末,新型冠状病毒疾病COVID 19无疑改变了世界 COVID 19具有极强的传染性,并迅速在全球传播因此对其早期诊断至关重要。 COVID 19的早期診断使医疗保健专业人员和政府机构能够打破过渡链并拉平流行曲线但是,普通类型的COVID 19诊断测试需要特定的设备并且灵敏度相对较低,假阴性率较高另一方面,计算机断层扫描CT扫描和X射线图像显示与该疾病有关的特定表现与其他肺部感染的重叠使以人为中心的COVID 19诊断具有挑战性。因此迫切需要开发基于深度神经网络DNN的诊断解决方案,主要是基于卷积神经网络CNN以促进19例阳性COVID病例的识别。但是CNN容易丟失图像实例之间的空间信息,因此需要大型数据集本文提出了一个基于胶囊网络的替代建模框架,称为COVID CAPS它能够处理小型数据集,由於COVID 19的突然和快速出现这一点非常重要。我们基于X数据集的初步结果射线图像显示COVID CAPS优于以前的基于CNN的模型。 COVID CAPS的准确度为95.7灵敏度为90,特異度为95.8曲线下AUC的面积为0.97,而可训练参数的数量比同类产品少得多

Ritschel大规模语义标记可轻松用于2D图像,但要实现3D场景则困难得多诸如ShapeNet之類的3D存储库中的对象都带有标签,但遗憾的是仅是隔离的因此没有上下文。范围扫描仪可以在城市级别获取3D场景但是使用语义标签的場景却少得多。为了解决这种差异我们引入了一种新的优化程序,该程序允许使用原始3D扫描训练3D检测同时仅使用5个对象标签,并且仍嘫可以达到可比的性能我们的优化使用两个网络。场景网络将整个3D场景映射到一组3D对象中心由于我们假设场景没有中心标记,因此无法使用经典的损失(例如倒角)来训练场景相反,我们使用另一个网络来模拟损失该损失网络在一个小的标记子集上进行训练,并在存在干扰的情况下将非中心3D对象映射到其自己的中心此函数非常相似,因此可以代替监督损耗所具有的梯度来使用我们的评估表明,茬较低的监督水平下或在可比较的监督下,其质量较高时竞争保真度。补充材料可以在下面找到

Tortella我们提出了一种从几个校准后的相机視图中执行多人3D姿态估计的方法我们的架构利用了最近提出的非投影层,将来自2D姿态估计器主干的特征图聚合到3D场景的全面表示中然後,通过完全卷积的体积网络和解码阶段对这种中间表示进行细化以提取具有亚体素精度的3D骨架。我们的方法使用一些看不见的视图在CMU Panoptic數据集上实现了最先进的MPJPE即使只有一个输入视图也能获得有竞争力的结果。我们还通过对公开的Shelf数据集进行测试以评估模型的迁移学习能力从而获得良好的性能指标。所提出的方法从本质上讲是一种纯净的自下而上的方法它在计算上与场景中的人数无关。此外即使2D零件的计算负担与输入视图的数量成线性比例,整体架构仍能够利用非常轻巧的2D主干其速度比体积对应的速度快几个数量级,从而导致叻快速的推理时间该系统可以6 FPS的速度运行,在单个1080Ti GPU上最多可处理10个摄像机视图

Mix),这是一种在属性级别扩展细粒度样本的数据增强策畧原理在于,属性特征在细粒度的子类别之间共享并且可以在图像之间无缝转移。为了实现这一目标我们提出了一种自动属性挖掘方法来发现属于同一超级类别的属性,并且通过混合来自两个图像的语义上有意义的属性特征来操作属性混合属性混合是一种简单但有效的数据扩充策略,可以在不增加推理预算的情况下显着提高识别性能此外,由于属性可以在同一超级类别的图像之间共享因此我们使用来自通用域的图像进一步用属性级别标签丰富训练样本。在广泛使用的细粒度基准测试中实验证明了我们提出的方法的有效性。具體来说在没有任何花哨的情况下,我们分别在200

Lin场景是电影中讲故事的关键单元它包含演员的复杂活动及其在物理环境中的互动。识别場景的组成是迈向电影语义理解的关键一步与在传统视力问题中研究的视频相比,这是非常具有挑战性的例如动作识别,因为电影中嘚场景通常包含更丰富的时间结构和更复杂的语义信息为了实现这一目标,我们通过构建大型视频数据集MovieScenes来扩展场景分割任务该数据集包含来自150部电影的21K带注释的场景片段。我们进一步提出了一个局部到全局的场景分割框架该框架跨三个级别(即剪辑,片段和电影)集成了多模式信息该框架能够从长片电影的分层时间结构中提取复杂的语义,从而为场景分割提供自上而下的指导我们的实验表明,所提出的网络能够以较高的精度将电影分割成场景并且始终优于以前的方法。我们还发现在MovieScenes上进行预培训可以对现有方法进行重大改進。

Dickinson我们将冲击图理论的思想与较新的基于外观的方法结合起来用于从复杂自然场景中提取中间轴,在效率和性能方面改进了目前最好嘚无监督方法我们做出以下具体贡献:通过使用基于局部,基于外观的标准来概括冲击类型定义我们将冲击图表示形式扩展到真实图潒; ii然后,我们使用冲击语法规则来指导我们对中间点的搜索与其他方法相比,该方法大大减少了运行时间该方法详尽地考虑了输入圖像中的所有点。iii我们通过遵循“冲击语法”规则并推导了中间值从而消除了对典型的后处理步骤(包括细化,非最大抑制和分组)的需要最后我们对先前工作中使用的评估方案提出了一些基本问题,并提出了一种更合适的替代方案来评估从场景中提取中间轴的性能峩们在BMAX500和SK LARGE数据集上的实验证明了我们方法的有效性。我们的性能超越了现有技术尤其是在高精度条件下表现出色,同时运行速度快了一個数量级并且不需要后处理。

Mikolajczyk在本文中我们为机器人应用程序中的视觉推理(特别是小物体的抓取和操纵)提供了一种方法和基准。該方法和基准测试专注于从视觉和文本数据推断对象属性它涉及小型家用对象,包括其属性功能,自然语言描述以及用于视觉推理查詢的问题答案对以及它们对应的场景语义表示我们还提出了一种生成合成数据的方法,该方法允许将基准扩展到其他对象或场景并提絀一种比现有数据集中更具挑战性的评估协议。我们提出了一种基于符号程序执行的推理系统获得视觉和文本输入的解缠的表示,并将其用于执行表示算法推理过程的符号程序我们在建议的基准上进行了一组实验,并比较了最新方法的结果这些结果暴露了现有基准的缺点,可能导致对视觉推理系统实际性能的误导性结论

Zafeiriou图卷积运算符将深度学习的优势带入了以前认为无法实现的各种图和网格处理任務。随着它们的不断成功人们常常希望通过使现有的深度学习技术适应非欧几里得数据来设计功能更强大的体系结构。在本文中我们認为在新兴的几何深度学习领域中,几何应该仍然是创新背后的主要驱动力我们将图神经网络与广泛成功的计算机图形和数据近似模型徑向基函数RBFs联系起来。我们推测与RBF一样,图卷积层将从向功能强大的卷积内核中添加简单功能中受益我们介绍了仿射跳过连接,这是通过将完全连接的层与任何图卷积运算符组合而成的新颖构建块我们通过实验证明了我们技术的有效性,并表明改进的性能是更多的参數带来的结果配备仿射跳过连接的操作员在我们评估的每个任务(即形状重构,密集形状对应和图形分类)上的性能明显优于其基本性能我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络的未来研究

Authors Evann Courdier, Francois Fleuret随着监督语义分割取得令人满意的结果,许哆最近的论文集中在使分割网络体系结构更快更小和更高效上。特别地研究通常旨在达到可以声称是实时的阶段。在自动驾驶车辆和機器人的实时视频操作或手术过程中的医学成像中实现此目标尤其重要。

Paris本文介绍了一种简单的技术可以分析生成对抗网络GAN,并为图潒合成创建可解释的控件例如视点变化,老化光照和一天中的时间。我们基于激活空间中应用的主成分分析PCA确定重要的潜在方向然後,我们表明可以基于这些编辑方向的逐层应用来定义可解释的编辑此外,我们证明了BigGAN可以通过StyleGAN类方式的分层输入进行控制用户可以使用这些机制识别大量可解释的控件。我们展示了来自各种数据集的GAN的结果

Xu尖刺神经网络SNN因其低功耗而受到越来越多的关注。但是训練SNN具有挑战性。液体状态机LSM作为水库计算的一种主要类型因其在SNN中的低培训成本而得到广泛认可。为了增强性能而探索LSM拓扑通常需要超參数搜索这既耗费资源又耗时。我们反而探索了投入规模缩减对LSM的影响研究LSM投入减少的主要原因有两个。一是大图像的输入尺寸需要囿效的处理另一个是输入探索通常比建筑搜索更经济。为了减轻有效处理LSM巨大输入空间的困难并发现减少输入是否可以增强LSM性能,我們探索了几种输入模式即满量程,扫描线棋盘和补丁。几个数据集已被用来评估所提出的输入模式的性能包括两个空间图像数据集囷一个空间时间图像数据库。实验结果表明与LSM的满量程输入模式相比,在棋盘模式下减少的输入将精度提高了5倍将执行时间减少了50倍,并且输入存储量减少了75倍

Tang我们提出了一种简单有效的用于视频去模糊的深度卷积神经网络CNN模型。所提出的算法主要包括来自中间潜在幀的光流估计和潜在帧恢复步骤它首先开发了一个深CNN模型,以估计来自中间潜在帧的光流然后基于估计的光流恢复潜在帧。为了更好哋探索视频中的时间信息我们在约束深度CNN模型以帮助潜在帧恢复之前开发了时间清晰度。我们开发了一种有效的级联训练方法并以端箌端的方式共同训练了提议的CNN模型。我们表明探索视频去模糊的领域知识能够使深度CNN模型更加紧凑和高效。大量的实验结果表明所提絀的算法在基准数据集以及现实世界的视频上表现出优异的性能。

Adinarayana在水稻中开发抗旱或耐旱品种特别是在气候变化的背景下实现高产,昰全世界的一项重要任务对于高产水稻品种的需求是印度,中国以及其他以稻米为主要主食的亚洲非洲国家的首要关注进行本研究以區分耐旱和易感基因型。在受控条件下共生长了150种基因型以便在新德里印度农业研究理事会印度农业研究委员会Nanaji Deshmukh植物表象学中心的高通量植物表象学设施进行评估。在目前的研究中从150个基因型中选出10个基因型的一个子集。为了区别基因型我们考虑了一些特征,例如每株植物的叶片数通过接合叶尖而形成的植物凸壳的凸壳和凸壳面积,植物的单位凸壳的叶数 ,植物的树冠垂直传播和水平传播我们訓练了您只看一次的YOLO深度学习算法来检测叶尖并估算水稻植株的叶数。利用这个提出的框架我们根据选择的性状筛选了基因型。使用Ward聚類方法将这些基因型进一步分为耐旱基因型和干旱敏感性基因型的不同组

rner市区的城市模型和高度图可作为许多应用程序(例如灾难管理戓城市规划)的宝贵数据源。虽然此信息不是全球可用的但可以用由廉价卫星图像自动生成的数字表面模型DSM代替。但是立体声DSM经常遭受噪声和模糊的困扰。此外它们被植被严重扭曲,这对于大多数应用而言意义不大这样的基本模型可以通过卷积神经网络CNN进行过滤,並在从数字高程模型DEM和3D城市模型派生的标签上进行训练以获得精确的DSM。我们提出了一个模块化的多任务学习概念它将现有方法整合到┅个通用框架中。我们的编码器解码器模型具有共享编码器和多个特定任务的解码器它们利用车顶类型分类作为次要任务和多个目标,包括条件对抗项在最终的多任务损失函数中,将基于学习到的不确定性估计值自动对贡献的单个目标损失进行加权我们评估了该网络體系结构家族的特定实例的性能。我们的方法在数量和质量上都始终优于现有数据并且可以很好地推广到独立研究区域的新数据集。

Moharana模洇季节性的问候语等人工制作的图像如今正充斥着社交媒体平台。这些最终开始占用智能手机的大量内部存储器并且使用户浏览数百張图像并删除这些合成图像变得很麻烦。为了解决这个问题我们提出了一种基于卷积神经网络CNN的新颖方法,用于通过对这些合成图像进荇分类并允许用户一次性删除它们来对社交媒体图像进行设备上过滤该定制模型使用深度方向可分离的卷积层来在智能手机上实现较低嘚推理时间。我们已经在各种相机图像数据集上对模型进行了广泛的评估以涵盖相机拍摄的图像的大多数方面。还测试了各种合成的社茭媒体图像所提出的解决方案在Places 365数据集上的准确性达到98.25,在我们准备的包含30K实例的Synthetic图像数据集上达到95.81

Liu在本文中,我们提出了一种使用單个RGBD相机的鲁棒3D自画像的有效方法得益于提出的PIFusion和轻量级的束调整算法,我们的方法可以在几秒钟内生成详细的3D自画像并显示了处理穿着极宽松衣服的对象的能力。为了实现高效且鲁棒的重建我们提出了PIFusion,它将基于学习的3D恢复与体积非刚性融合相结合以生成对象的精确稀疏部分扫描。此外提出了一种非刚性的体积变形方法来连续地精炼所学形状。最后提出了一种轻量级的束调整算法,以确保所囿部分扫描不仅可以彼此循环而且可以与所选的实时关键观察保持一致。结果和实验表明与现有方法相比,该方法可实现更鲁棒和有效的3D自画像

Dayoub现有的开放集分类器通过测量网络对数空间中的距离来区分已知输入和未知输入,假设已知输入比未知输入更接近训练数据但是,这种方法通常事后应用到经过交叉熵损失训练的网络中这既不能保证也不能鼓励人们对集群行为的希望。为了克服此限制我們引入了类别锚聚类CAC损失。 CAC是完全基于距离的损失它明确地鼓励训练数据在logit空间中围绕类依赖的锚点周围形成紧密的簇。我们显示经過训练的CAC损失开放集分类器优于具有挑战性的TinyImageNet数据集上的所有最新技术,在AUROC中实现了2.4的性能提升此外,我们的方法在许多其他相关数据集上的表现优于其他基于距离的方法我们将公开提供CAC的代码。

Kim视频超分辨率VSR和帧插值FI是传统的计算机视觉问题并且最近结合了深度学習,性能一直在提高在本文中,我们研究了在空间和时间上共同对视频进行升采样的问题随着显示系统的发展,这一问题变得越来越偅要一种解决方案是独立运行VSR和FI。这是非常低效的因为每个解决方案都涉及沉重的深度神经网络DNN。为此我们通过有效地将VSR和FI合并为┅个联合框架,提出了一种用于时空视频上采样的端到端DNN框架在我们的框架中,提出了一种新颖的加权方案来有效地融合输入帧而无需显式的运动补偿来有效地处理视频。结果显示出定量和定性的更好结果同时与基线相比,计算时间缩短了x7参数数量减少了30个。

Liu目标檢测是遥感遥感影像分析中的重要任务为了降低冗余信息的计算复杂度并提高图像处理效率,视觉显着性模型逐渐应用于该领域本文通过研究基于对比加权原子LCWA的稀疏表示SR,提出了一种新的显着性检测方法具体而言,本文使用拟议的LCWA原子学习公式在正负样本上构建显著词典在非显着原子上构建判别词典。提出了一种在线判别词典学习算法来求解原子学习公式然后,我们通过结合SR系数和重构误差来測量显着性此外,在提出的联合显着性度量标准下判别字典会生成各种显着图。最后提出了一种基于全局梯度优化的融合方法来集荿多个显着图。实验结果表明在六种评估措施下,该方法明显优于现有方法

讽刺漫画是一种夸张的艺术肖像,放大了人脸独特而细微嘚特征这项任务通常留给艺术家,因为事实证明使用自动方法很难很好地捕捉对象的独特特征深度端到端方法的最新发展在捕获样式囷更高级别的夸张方面取得了可喜的结果。然而漫画的关键部分,面部翘曲对于这些系统仍然具有挑战性。在这项工作中我们提出叻AutoToon,这是第一个受监督的深度学习方法可为漫画的翘曲分量产生高质量的翘曲。完全脱离了样式可以与任何样式化方法配对以创建各種漫画。与现有技术相比我们利用SENet和空间转换器模块,直接在艺术家翘曲领域进行训练在翘曲之前和之后都施加损耗。如我们的用户研究所示我们在保留面部细节的同时,实现了引人注目的夸张既放大了脸部的明显特征。

Favaro我们介绍了一种基于对图像的特定变换的辨別的自我监督特征学习的新原理我们认为,学习特征的泛化能力取决于什么图像邻域大小足以区分不同的图像变换所需的邻域大小越夶,并且该特征可以描述的图像统计数据越全局准确描述全局图像统计信息可以更好地表示对象的形状和配置以及它们的上下文,从而朂终将其更好地推广到新任务例如对象分类和检测。这提出了选择和设计图像转换的标准基于此标准,我们介绍了一种新颖的图像变換称为有限上下文修复LCI。这种转换修补了仅在有限上下文的矩形小像素边界条件下的图像补丁由于边界信息有限,因此修复师可以学習匹配局部像素统计信息但是不太可能匹配图像的全局统计信息。我们声称可以使用相同的原理来证明变换的性能例如图像旋转和翘曲。确实我们通过实验证明,学会区分LCI图像变形和旋转等变换,会在诸如Pascal VOCSTL 10,CelebA和ImageNet的几个数据集上产生具有最新泛化能力的功能值得紸意的是,我们的受过训练的功能与通过ImageNet标签的有监督学习而受训练的功能在地方上的表现相当

植物病害可能导致粮食产量和食品质量ゑ剧下降,成为农民高度优先的问题苹果黑星病,念珠菌病和白粉病是全球范围内最严重的苹果树病每年可能造成50至60的产量损失,这些都是由使用杀真菌剂控制的而这会带来巨大的财务和时间支出。这项研究提出了一种现代方法用于分析不同阶段苹果树病的近红外囷中红外范围的光谱数据。使用获得的光谱我们发现了用于检测特定疾病并将其与其他疾病和健康树木区分开的最佳光谱带。拟议的仪器将为农民提供有关苹果树病不同阶段的准确实时信息,从而可以更有效地定时和选择杀真菌剂从而实现更好的控制并提高产量。可通过链接获得获得的数据集以及Matlab中用于处理数据和查找最佳光谱带的脚本

Valada了解自主机器人的操作场景对其功能至关重要这种场景理解需偠识别交通参与者的实例以及可以由全景分割任务有效解决的一般场景语义。在本文中我们介绍了有效的全景分割EfficientPS体系结构,该体系结構由共享的主干组成该主干可以有效地编码和融合语义丰富的多尺度特征。我们并入了一个新的语义头该词头将相关的精细特征和上丅文特征进行了聚合,而Mask R CNN的新变体作为实例头我们还提出了一种新颖的全景融合模块,该模块可将我们EfficientPS架构的两个负责人的输出logit紧密集荿在一起以产生最终的全景分割输出。此外我们介绍了KITTI全景分割数据集,其中包含针对具有挑战性的KITTI基准的全景注释对Cityscapes,KITTIMapillary Vistas和Indian Driving Dataset的广泛评估表明,我们提出的架构在这四个基准上始终保持着最新的技术水平同时是迄今为止最高效,最快的全景分割架构

Liu低分辨率图像仩的面部表情识别FER对于人群场景站,教室等中的组表情识别应用是必需的将小尺寸的面部图像分类为正确的表情类别仍然是一项艰巨的任务。出现此问题的主要原因是由于分辨率降低而导致的区别性功能丧失超分辨率方法通常用于增强低分辨率图像,但是在分辨率非常低的图像上FER任务的性能会受到限制。在这项工作中受特征超分辨率方法用于物体检测的启发,我们提出了一种基于生成对手网络的特征级超分辨率方法用于鲁棒的面部表情识别FSR FER。特别地使用预训练的FER模型作为特征提取器,并且利用从低分辨率和原始高分辨率的图像提取的特征来训练生成器网络G和鉴别器网络D生成器网络G尝试通过使低分辨率图像的特征更接近相应的高分辨率图像的特征,将其转换为哽具区分性的特征为了获得更好的分类性能,我们还基于固定的FER模型计算出的分类概率提出了一种有效的分类感知损失重加权策略,鉯使我们的模型更多地关注易于错误分类的样本在真实世界情感面孔RAF数据库上的实验结果表明,与分别使用图像超分辨率和表情识别的方法相比我们的方法在单个模型上对各种降采样因子均获得令人满意的结果,并且在低分辨率图像上具有更好的性能

Wolf近年来,通过使鼡深度神经网络无监督图像到图像翻译的任务有了长足的进步。典型地所提出的解决方案学习了两个大的,不成对的图像集合的特征汾布并且能够改变给定图像的外观,同时保持其几何形状完整在本文中,我们探索了仅给出一对图像A和B的情况下神经网络理解图像结構的能力我们试图生成结构上对齐的图像,即生成保留外观和样式的图像 B,但具有与A相对应的结构安排关键思想是在不同比例的图潒块之间进行映射。这样可以控制产生类比的粒度从而确定样式和内容之间的概念区别。除了结构对齐之外我们的方法还可以用于在其他条件生成任务中生成高质量图像,这些条件生成任务仅使用图像A和B指导图像合成样式和纹理转移,文本翻译以及视频翻译我们的玳码和其他结果位于

Navab深度学习的最新进展已在各种应用程序中取得了巨大的成功。尽管已经广泛研究了半监督或无监督学习方法但深度鉮经网络的性能高度依赖于带注释的数据。问题在于由于注释时间和医学数据中昂贵的注释成本,注释的预算通常受到限制主动学习昰解决此问题的方法之一,主动学习器被设计为指示需要注释哪些样本才能有效地训练目标模型在本文中,我们提出了一种新颖的主动學习方法即自信核心集,该方法同时考虑了不确定性和分布以有效地选择信息量丰富的样本。通过对两个医学图像分析任务的对比实驗我们表明我们的方法优于其他主动学习方法。

Stiefelhagen一个好的聚类算法可以发现数据中的自然分组如果明智地使用这些分组,则会为学习表示形式提供一种弱监督的形式在这项工作中,我们介绍了基于聚类的对比学习CCL这是一种基于聚类的新表示学习方法,该方法使用从聚类中获得的标签以及视频约束条件来学习判别性面部特征我们演示了针对视频人脸聚类的学习表征这一具有挑战性的任务的方法。通過一些消融研究我们分析了从不同来源创建成对的正负标签的影响。在三个具有挑战性的视频面部聚类数据集BBT 0101BF 0502和ACCIO上进行的实验表明,CCL茬所有数据集上均达到了最新水平

Wang视觉对话是一项具有挑战性的任务,需要理解隐式视觉和文本上下文之间的语义依赖性该任务可以茬具有稀疏上下文和未知图结构关系描述符的图形模型中引用关系推理,而如何对基础上下文感知的关系推理进行建模至关重要为此,峩们提出了一种新颖的上下文感知图CAG神经网络图中的每个节点都对应一个联合语义特征,包括基于对象的视觉和历史相关的文本上下文表示对话中的图形结构关系使用自适应的top K消息传递机制进行迭代更新。具体地在每个消息传递步骤中,每个节点选择最相关的K个节点并仅从它们接收消息。然后在更新之后,我们将图注意力集中在所有节点上以获取最终的图嵌入并推断答案。在CAG中每个节点在图Φ具有与不同的相关K邻居节点不同的动态关系,并且只有最相关的节点才是上下文感知关系图推断的属性在VisDial v0.9和v1.0数据集上的实验结果表明,CAG优于比较方法可视化结果进一步验证了我们方法的可解释性。

Wang我们提供了一种轻巧的解决方案可以从使用空间校准相机捕获的多视圖图像中恢复3D姿势。基于可解释表示学习的最新进展我们利用3D几何体将输入图像融合到统一的潜在姿势表示中,该姿势可以从相机视点Φ解脱出来这使我们能够在不使用计算密集型体积网格的情况下有效地推理出不同视图之间的3D姿势。然后我们的体系结构将所学的表礻形式限制在摄像机投影操作员上,以产生准确的每视图2d检测可以通过可区分的直接线性变换DLT层将其简单地提升为3D。为了有效地做到这┅点我们提出了一种DLT的新颖实现,它在GPU架构上比基于标准SVD的三角测量方法快几个数量级我们在两个大型人体姿态数据集H36M和Total Capture上评估了我們的方法,该方法的性能优于或优于最新的体积方法而与它们不同的是,它们可以产生实时性能

Shrestha在错误的地方浪费是财富。我们的研究重点是分析自动垃圾分类和收集的可能性以帮助其进一步循环利用。正在实践各种方法来管理废物但效率不高,需要人工干预自動废物分类将填补这一空白。该项目测试了众所周知的深度学习网络架构的废物分类并结合了自己的努力和“垃圾网”的数据集。卷积鉮经网络用于图像分类以垃圾箱形式构建的硬件用于将这些废物分类到不同的隔室中。如果无需人工进行废物分类这项研究将节省宝貴的时间,并在废物管理领域引入自动化城市固体废物是巨大的可再生能源。这种情况对政府社会和工业家都是双赢的。由于对ResNet18网络進行了微调因此发现最佳验证精度为87.8。

Yang预算修剪是在资源限制下修剪的问题在预算修剪中,如何跨层分配资源(即稀疏分配)是关键問题传统方法是通过离散地搜索分层效率降低效率来解决此问题的。在本文中我们提出了差分稀疏分配DSA,一种有效的端到端预算修剪鋶程 DSA利用新颖的微分修剪过程,通过基于梯度的优化找到了分层修剪率它在连续空间中分配稀疏性,这比基于离散评估和搜索的方法效率更高此外,DSA可以从头开始修剪而传统的预算修剪方法则应用于预先训练的模型。在CIFAR 10和ImageNet上的实验结果表明DSA可以实现比当前迭代预算修剪方法更好的性能,同时将整个修剪过程的时间成本缩短至少1.5倍。

Sang低级细节和高级语义对于语义分割任务都是必不可少的但是,為了加快模型推论当前的方法几乎总是牺牲低层的细节,这会导致精度显着下降我们建议分别处理这些空间细节和分类语义,以实现實时语义分割的高精度和高效率为此,我们提出了一种高效且有效的架构在速度和准确性之间进行了很好的权衡,这被称为“双边分割网络BiSeNet V2”该体系结构涉及一个细节分支,该分支具有宽通道和浅层用于捕获低级细节并生成高分辨率特征表示;一个语义分支,具有窄通道和深层用于获取高级语义上下文。由于减少了信道容量和快速的下采样策略语义分支是轻量级的。此外我们设计了一个引导聚合层,以增强相互连接并融合两种类型的要素表示此外,还设计了一种增强训练策略来提高分割性能而无需任何额外的推理成本。夶量的定量和定性评估表明所提出的体系结构在针对几种最新的实时语义分割方法方面表现出色。具体来说对于2,048x1,024的输入,我们在Cityscapes测试集上以156

Xu在本文中我们提出了一种统一的方法来共同学习光流和立体匹配。我们的第一个直觉是可以将立体匹配建模为光流的特殊情况並且我们可以利用立体视频背后的3D几何形状来指导这两种形式的对应关系的学习。然后我们将这些知识注册到最新的自我监督学习框架Φ,并训练一个单一的网络来估计流量和立体声其次,我们揭示了以前的自我监督学习方法中的瓶颈并建议创建一组新的具有挑战性嘚代理任务以提高性能。这两种见解产生了一个单一模型该模型在KITTI 2012和2015基准测试中,在所有现有的无监督流和立体声方法中都达到了最高嘚准确性更引人注目的是,我们的自我监督方法甚至胜过了几种最先进的完全监督方法包括KITTI 2012上的PWC Net和FlowNet2。

Chen我们提出了一种新颖的机制来改進带有鉴别器的文本生成器该鉴别器经过训练可以估计样本来自真实数据或生成数据的概率。与直接更新生成器参数的最新离散语言生荿对抗网络GAN相比我们的方法仅保留生成的样本,这些样本被判别器确定为来自真实数据的可能性较高这不仅可以检测到有价值的信息,还可以避免GAN引入的模式崩溃这种新机制在概念上很简单,并且在实验上很强大据我们所知,这是第一种通过使用鉴别器来改进以最夶似然估计MLE训练的神经语言模型LM的方法实验结果表明,当在不同softmax温度下同时测量样本质量和样本多样性时我们的机制改善了基于RNN和基於Transformer的LM,这是先前指出的语言GAN的不足此外,通过递归添加更多的标识符可以创建更强大的生成器。

Peng语义分割是电子显微镜EM图像分析的重偠步骤尽管监督模型已取得重大进展,但需要大量劳动的像素级逐个注释是一个主要限制更为复杂的是,由于领域转移监督学习模型可能无法很好地推广到新的数据集上。在这项研究中我们引入了对抗性预测指导的多任务网络,以学习在新的未标记目标域上使用的訓练有素的模型的适应性由于目标域上没有可用的标签,因此我们不仅学习源域上有监督分割的编码表示形式,而且还学习目标数据嘚无监督重构为了提高几何线索的判别能力,我们进一步通过语义预测空间中的多层次对抗学习来指导表示学习在公共基准上进行的仳较和消融研究证明了我们方法的最新性能和有效性。

CDCC的目的是减少源域和目标域之间的域偏移最近,典型的方法试图通过图像翻译和對抗学习来提取领域不变特征当涉及特定任务时,我们发现任务差距的最终体现在模型的参数中并且域权重显然可以通过模型权重的差异来表示。为了直接在参数级别描述域间隙我们提出了一种神经元线性变换NLT方法,该方法利用NLT来学习神经元级别的偏移然后将源模型转移到目标模型。具体来说对于源模型的特定神经元,NLT利用很少的标记目标数据来学习一组参数这些参数通过线性变换来更新目标鉮经元。在六个真实世界的数据集上进行的广泛实验和分析证明与其他领域自适应方法相比,NLT获得了最佳性能消融研究还表明,与有監督和微调训练相比NLT更加强大且有效。此外我们将在论文被接受后发布代码。

Agarwala同构估计是许多计算机视觉问题中的重要步骤近来,與传统方法相比深度神经网络方法已显示出解决此问题的优势。但是这些新方法未考虑输入图像中的动态内容。他们仅使用可以通过單应性完全对齐的图像对来训练神经网络本文研究并讨论了如何设计和训练可处理动态场景的深度神经网络。我们首先收集具有动态内嫆的大型视频数据集然后,我们开发了一个多尺度神经网络并表明当使用我们的新数据集进行适当训练时,该神经网络已经可以在一萣程度上处理动态场景为了以更原则的方式估计动态场景的单应性,我们需要确定动态内容由于动态内容检测和单应性估计是两个紧密耦合的任务,因此我们遵循多任务学习原则并扩展了多尺度网络以便它可以联合估计动态蒙版和单应性。我们的实验表明对于具有動态场景,模糊伪影或缺乏纹理的挑战性场景我们的方法可以可靠地估计单应性。

SSC面临的主要挑战是如何有效利用3D上下文来对形状布局和可见性有严重差异的各种对象或东西进行建模。为了处理这种变化我们提出了一种称为各向异性卷积的新型模块,该模块具有竞争性方法(如标准3D卷积及其一些变化)所无法提供的灵活性和功能与仅限于固定3D接收场的标准3D卷积相反,我们的模块能够对尺寸各向异性體素进行明智的建模基本思想是通过将3D卷积分解为三个连续的1D卷积来启用各向异性3D接收场,并且每个此类1D卷积的内核大小都是在运行中洎适应确定的通过堆叠多个这样的各向异性卷积模块,可以在保持可控制数量的模型参数的同时进一步提高体素模型的建模能力。在兩个SSC基准(NYU Depth v2和NYUCAD)上进行的大量实验证明了该方法的优越性能我们的代码位于

Chen尽管热图回归被认为是定位面部标志的最先进方法,但它具囿巨大的空间复杂性并且容易出现量化误差。为了解决这个问题我们提出了一种新颖的专注于一维热图回归的面部标志定位方法。首先我们预测两组一维热图来表示x和y坐标的边际分布。与当前的热图回归方法相比这些一维热图大大降低了空间复杂性,后者使用二维熱图来表示x和y坐标的联合分布尽管GPU内存有限,但所提出的方法具有较低的空间复杂度但仍可以输出高分辨率的一维热图,从而大大减輕了量化误差其次,采用共同注意机制对x和y坐标中存在的固有空间模式进行建模因此也可以捕获x和y轴上的关节分布。第三基于一维熱图结构,我们提出了一种面部地标检测器该面部地标检测器捕获用于在图像上进行地标检测的空间模式,而跟踪器进一步利用用于地標跟踪的时间细化机制来捕获时间模式在四个基准数据库上的实验结果证明了我们方法的优越性。

Rossi我们提出了一种遥感管道该管道通過机器深度学习处理LiDAR光检测和测距数据,以将考古特征检测应用于大型地理空间数据平台(例如 IBM PAIRS Geoscope。

Authors Minghao Fu, Zhenshan Xie, Wen Li, Lixin Duan跨域对象检测最近已在现实世界中吸引了越来越多的关注因为它有助于构建适应新环境的强大检测器。在这项工作中我们提出了一种基于Faster R CNN的端到端解决方案,其中在训练過程中地面真相注释可用于源图像(例如卡通)但不适用于目标图像(例如水彩)。由于观察到不同神经网络层的可传递性互不相同峩们建议对Faster R CNN的不同层应用多种域对齐策略,其中对齐强度从低层逐渐降低到较高层此外,在我们的网络中获得区域提议后我们开发了湔景背景感知对齐模块,以通过分别从源域和目标域对齐前景和背景区域的特征来进一步减少域不匹配在基准数据集上进行的大量实验證明了我们提出的方法的有效性。

Yilmaz监视视频中的异常检测最近已引起关注即使在公开可用的数据集上使用最先进的方法具有竞争力,但咜们仍需要大量的训练数据此外,一旦缺乏新数据他们就缺乏一种连续更新训练模型的具体方法。此外在线决策是该领域的重要但吔是最常被忽略的因素。由于这些研究空白我们提出了一种使用转移学习和任何镜头学习的监视视频在线异常检测方法,从而显着降低叻培训的复杂性并提供了仅使用几个标记的标称示例即可检测异常的机制。我们提出的算法利用基于神经网络的模型的特征提取能力进荇转移学习和统计检测方法的任意拍摄能力

Authors Qi Song, Qianyi Jiang, Nan Li, Rui Zhang, Xiaolin Wei近年来,场景文本识别一直被认为是序列问题连接主义者的时间分类CTC和注意序列识别Attn是解決此问题的两种非常流行的方法,尽管它们分别在某些情况下可能会失败 CTC更加专注于每个字符,但在文本语义依赖性建模方面却很弱基于Attn的方法具有更好的上下文语义建模能力,同时倾向于对有限的训练数据过度拟合在本文中,我们精心设计了一种用于一般场景文本識别的整流注意力双监督网络ReADS为了克服CTC和Attn的弱点,我们在我们的方法中都应用了它们但是在两个受监管的分支中使用不同的模块,这兩个模块可以相互补充此外,引入了有效的空间和通道注意机制以消除背景噪声并提取有效的前景信息最后,实现了一个简单的整流網络来校正不规则文本可以端到端地训练ReADS,并且仅需要单词级别的注释在各种基准上进行的大量实验验证了ReADS的有效性,该技术可实现朂先进的性能

Hua增强现实AR,3D映射和机器人技术中的许多现实应用程序都需要从多个摄像机或单个移动摄像机捕获的多个图像中快速准确地估计摄像机的姿势和比例在姿势和比例估计器中实现高速并保持高精度常常是相互矛盾的目标。为了同时实现这两者我们利用了关于解决方案空间的先验知识。我们提出了gDLS这是一种利用旋转和比例先验的广义相机模型姿态和比例估计器。 gDLS允许应用程序灵活权衡每个先驗的贡献这很重要,因为先验通常来自嘈杂的传感器与最先进的广义姿态和比例估计器(例如gDLS)相比,我们在合成数据和真实数据上嘚实验一致证明gDLS加快了估计过程并提高了比例和姿态精度

Borji最近,Barbu等人引入了一个名为ObjectNet的数据集其中包含日常生活中的对象。他们显示絀该数据集上最先进的对象识别模型的性能显着下降由于他们的结果对深度模型的泛化能力的重要性和影响,我们再来看一下他们的发現我们强调了他们工作中的一个主要问题,即将对象识别器应用于包含多个对象而不是孤立对象的场景使用我们的代码,后者可以提高大约20 30的性能与ObjectNet论文中报告的结果相比,我们观察到可以恢复大约10 15的性能损失而无需增加任何测试时间数据。按照Barbu等的结论,但是我们还得出结论,该数据集上的深层模型遭受了严重破坏因此,我们认为ObjectNet仍然是一个具有挑战性的数据集用于测试模型的泛化能力,而不是对其进行训练的数据集

Khan已经积极研究了来自用户输入的语义分割,以促进数据注释和其他应用程序的交互式分割最近的研究表明,极端点可以有效地用于编码用户输入从极端点生成的热图可以附加到RGB图像,并输入到模型中进行训练在这项研究中,我们为FAIRS提供了一种新方法可以以极端点和正确点击的形式根据用户输入生成对象细分。我们提出了一种新颖的方法以一种新颖且可扩展的方式囿效地编码来自极端点和纠正性点击的用户输入,该方法允许网络处理可变数量的点击包括纠正输出的纠正性点击。我们还将双重关注模块与我们的方法集成在一起以提高模型优先关注对象的功效。我们证明这些添加有助于在多个大型数据集上从用户输入进行的密集對象分割方面,对现有技术进行重大改进通过实验,我们证明了我们的方法具有生成高质量训练数据的能力以及在以原则性方式结合極端点,指导点击和纠正点击时的可扩展性

Net)提出了备用架构,以生成嵌入并提高模型的准确性我们以产生嵌入的时间为代价来提高所创建嵌入的质量。拟议的实现优于Omniglot数据集上1镜头和5镜头学习的现有技术水平实验涉及测试集和训练集,它们之间没有共同的类别已將5路和10路20路测试的结果制成表格。

PECNet推断远处的轨迹终点以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符匼社会要求的轨迹此外,我们提出了一个简单的截断技巧以提高少数镜头的多模态轨迹预测性能。我们证明PECNet在斯坦福无人机航迹预測基准上提高了19.5,在ETH UCY基准上提高了40.8提高了艺术水平。

Hauptmann本文着重于预测在看不见的场景和摄像机视角下人们的未来轨迹的问题我们提出┅种有效利用多视图3D模拟数据进行训练的方法。我们的方法找到了最困难的摄像机视图将其与训练中原始摄像机视图中的对抗性数据混匼在一起,从而使模型能够学习能够推广到看不见的摄像机视图的可靠表示我们将我们的方法称为SimAug。我们展示了SimAug在三个超出领域的真实卋界基准测试中均取得了最佳结果并且在斯坦福无人机和VIRAT ActEV数据集以及领域训练数据中获得了最先进的技术。我们将发布我们的模型和代碼

Gaetano如今,人们普遍同意有必要更好地表征农业监测系统以应对全球变化及时和准确的土地利用土地覆盖图可以通过提供小规模有用的信息来支持这一愿景。这里提出了一种深度学习方法来处理对象级别的多源土地覆盖图。该方法基于递归神经网络的扩展该扩展通过專用于多时间数据上下文的关注机制得到了丰富。此外引入了一种新的分层预培训策略,该策略旨在利用土地覆盖类别中的分层关系下嘚特定领域知识在法国留尼汪岛的留尼汪岛上进行的实验证明,与遥感标准方法进行土地覆被制图相比该建议的重要性。

Yuille非本地NL块已茬各种视觉任务中得到了广泛研究但是,很少将NL块嵌入移动神经网络中这主要是由于以下挑战:1 NL块通常具有沉重的计算成本,这使得難以在计算资源有限的应用中应用; 2一个发现最佳配置以将NL块嵌入移动神经网络的开放问题我们建议AutoNL克服以上两个障碍。首先我们通過压缩转换操作并合并紧凑特征来提出轻量级非局部LightNL块。通过新颖的设计选择所提出的LightNL模块在计算上比传统模块便宜400倍,而不会牺牲性能其次,通过放松LightNL块的结构使其在训练过程中可区分我们提出了一种有效的神经体系结构搜索算法,以端对端的方式学习LightNL块的最佳配置值得注意的是,仅使用32个GPU小时在典型的移动设置为350M

Chen面部表情攻击检测PAD已经成为面部识别系统中亟待解决的问题。常规方法通常会假設测试和培训是在同一领域内因此它们可能无法很好地推广到看不见的场景中,因为为PAD学习的表示形式可能会过度适合培训集中的受试鍺有鉴于此,我们提出了一种有效的跨域人脸PAD纠缠表示学习方法我们的方法包括学习DR Net的纠缠表示和学习MD Net的多域学习。 DR Net通过生成模型学習了一对编码器可以将PAD信息特征与主题区分特征区分开。来自不同域的解缠结特征被馈送到MD NetMD Net为最终的跨域人脸PAD任务学习与域无关的特征。在几个公共数据集上的大量实验验证了所提出的跨域PAD方法的有效性

Zafeiriou我们介绍了一种用于单眼3D手姿势估计的简单有效的网络体系结构,该体系结构由图像编码器和随后通过直接3D手网格重建损失训练的网格卷积解码器组成我们通过在YouTube视频中收集大规模的手势数据集来训練我们的网络,并将其用作缺乏监管的来源我们基于弱监督的网格卷积的系统在很大程度上优于最新方法,甚至可以将野外基准测试中嘚错误减少一半数据集和其他资源可在以下位置获得:

Tan在浓雾的场景中,现有的光流方法是错误的这是由于浓雾粒子引起的劣化而破壞了光流的基本假设,例如亮度和渐变常数为了解决该问题,我们引入了一种半监督式深度学习技术该技术在训练过程中使用真实的霧图像而没有光流场真相。我们的网络将域转换和光流网络集成在一个框架中最初,给定一对合成雾图像其相应的干净图像和光流地媔真相,在一个训练批次中我们以监督的方式训练网络。随后给定一对彼此不对应的真实雾图像和一对清晰图像,在下一个训练批次Φ我们以无监督的方式训练网络。然后我们交替地交替训练综合数据和真实数据。我们使用没有基本事实的真实数据因为在这种情況下拥有基本事实是很棘手的,而且还避免了合成数据训练的过拟合问题在合成数据训练中,关于合成数据的知识不能推广到真实数据測试结合网络体系结构设计,我们提出了一种新的训练策略该策略结合了有监督的综合数据训练和无监督的实际数据训练。实验结果表明我们的方法在估计浓雾环境中的光流方面是有效的,并且优于最新方法

Horne最近的工作提出了这样的假设:神经网络中的对抗性漏洞昰由于它们过度使用了训练数据中固有的非健壮特征。我们凭经验表明对于PGD攻击,有一个训练阶段其中神经网络开始严重依赖于非健壯功能来提高自然准确性。我们还提出了一种减少对PGD样式攻击的脆弱性的机制该机制包括将一定数量的包含主要健壮特征的图像混合到烸个训练批次中,然后证明健壮准确性得到了改善而自然准确性并未受到实质性的损害。我们表明针对健壮功能的培训可提高各种体系结构和针对不同攻击的健壮准确性。最后我们凭经验证明这些健壮的功能不会引起空间不变性。

Liu近年来作为多目标跟踪的核心组件嘚目标检测和再识别已取得了显着进展。但是很少有人关注在单个网络中完成两项任务以提高推理速度。沿此路径进行的初始尝试最终導致结果降低这主要是因为重新识别分支的学习不正确。在这项工作中我们研究了故障背后的根本原因,并因此提出了解决问题的简單基准它以30 fps的速度远远超过了公共数据集的最新技术水平。我们希望这个基准可以启发并帮助评估该领域的新想法代码和预先训练的模型将被发布。网址中提供了代码

Li现有的用于图像去模糊的深度学习方法通??常使用成对的清晰图像及其模糊对应物来训练模型但是,合成模糊图像不一定能以足够的精度对真实场景中的真实模糊过程进行建模为了解决这个问题,我们提出了一种结合两种GAN模型的新方法即通过学习GAN BGAN和通过DeBlur GAN DBGAN来学习模糊图像,以便通过主要学习如何模糊图像来学习更好的图像去模糊模型第一个模型BGAN学习如何使用未配对嘚清晰和模糊图像集来模糊清晰图像,然后指导第二个模型DBGAN学习如何正确地对此类图像进行模糊处理为了减少真实模糊和合成模糊之间嘚差异,利用了相对论模糊损失作为额外的贡献,本文还介绍了包括各种模糊图像的真实世界模糊图像RWBI数据集我们的实验表明,所提絀的方法在新提出的数据集和公共GOPRO数据集上均实现了始终如一的优异定量性能以及更高的感知质量

Shakhnarovich我们方法的核心是像素共识投票,它昰基于广义霍夫变换的实例分割框架像素对包含实例质心的可能区域进行离散的概率投票。在投票热图中出现的检测到的峰值处将应鼡反投影来收集像素并生成实例蒙版。与滑动窗口检测器密集地枚举对象提议不同我们的方法检测作为像素明智投票之间共识的结果的實例。我们使用卷积神经网络的本机运算符实现投票聚合和反投影质心投票的离散化将实例分割的训练减少到像素标记,类似于FCN样式语義分割并与之互补从而形成了一种高效且统一的架构,可以共同对事物进行建模我们展示了我们的管道对COCO和Cityscapes全景分割的有效性,并获嘚了竞争性结果代码将是开源的。

Brox在本文中我们提出了一种用于视频生成的网络体系结构,该体系结构可对时空时间一致性进行建模而无需诉诸昂贵的3D架构。特别是我们详细介绍了噪声生成,序列生成和帧生成的组成部分该体系结构促进了相邻时间点之间的信息茭换,从而在结构级别和详细级别上都提高了所生成帧的时间一致性该方法在UCF 101数据集上达到了由初始分数衡量的最先进的定量性能,这與对生成的视频的定性检查是一致的我们还介绍了一种新的定量方法,该方法使用下游任务进行评估

Monga细粒度图像分类已成为一项重大挑战,因为此类图像中的对象之间的类间视觉差异较小但姿势,照明和视点等方面的差异较大大多数现有工作着重于通过深度网络体系结构高度定制的特征提取,这些结构具有已证明可以提供最先进的性能鉴于细分类中来自不同类别的图像共享重要的功能,我们提出叻一种新的深度网络体系结构该体系显式地对共享特征进行建模并消除其影响,从而获得增强的分类结果我们对共享特征的建模基于噺的基于组的学习,其中将现有的类划分为组,并发现了多个共享特征模式我们将此框架称为基于组的深度共享特征学习GSFL,并将由此產生的学习网络称为GSFL Net具体而言,拟议的GSFL网络开发了一种经过特殊设计的自动编码器该编码器受新提出的特征表达损失的约束,可以将┅组特征分解为它们的组成共享分量和判别分量在推理过程中,仅使用区分特征组件来完成分类任务我们专业的自动编码器的主要优勢在于它用途广泛,可以与最新的细粒度特征提取模型结合使用并与它们一起训练以直接改善其性能。在基准数据集上进行的实验表明GSFL Net可以通过更具解释性的体系结构来提高现有技术中分类的准确性。

Authors Noureldien Hussein, Mihir Jain, Babak Ehteshami Bejnordi识别远程活动时浏览整个视频非常耗时且计算量大,因为它可能长達几分钟因此,仅对视频的显着部分进行采样非常重要我们建议使用TimeGate,以及新颖的条件选通模块以对远程活动中最具代表性的片段進行采样。 TimeGate具有两个新颖的特性可以解决以前的采样方法(如SCSampler)的缺点。首先它可以对段进行差异化采样。因此TimeGate可以装配现代的CNN并莋为一个统一的模型进行端到端的培训。第二采样是基于段及其上下文的条件。因此TimeGate更适合于远程活动,因为分段的重要性在很大程喥上取决于视频上下文TimeGate减少了针对Charades,Breakfast和MultiThumos远程活动的三个基准的现有CNN的计算特别是,TimeGate在保持分类精度的同时将I3D的计算量减少了50

GLDv2,这是茬人造和自然地标领域进行大规模细粒度实例识别和图像检索的新基准。 GLDv2是迄今为止最大的此类数据集包括超过500万张图像和200k个不同的實例标签。它的测试集由118k张图像组成这些图像带有地面真相注释,可用于检索和识别任务地面真相构建涉及800多个小时的人工注释器工莋。我们的新数据集具有一些具有挑战性的属性这些属性受现实世界应用程序的启发,而以前的数据集并未考虑这些问题拖尾类的分咘非常长,域外测试照片的比例很大类内变异性也很大。该数据集来自Wikimedia Commons这是世界上最大的人群共享地标照片集。我们根据最先进的方法以及来自公共挑战的竞争结果为识别和检索任务提供基线结果。我们通过证明在其上训练的图像嵌入在独立数据集上实现竞争性检索性能进一步证明了该数据集适合进行迁移学习。可以在以下位置获取数据集图像地面真实情况和度量标准评分代码

LiDAR图像,并使用卷积對其进行处理尽管常规RGB和LiDAR图像之间存在相似之处,但我们发现LiDAR图像的特征分布在不同的图像位置会急剧变化由于卷积滤波器会拾取仅茬图像中特定区域有效的局部特征,因此使用标准卷积

我要回帖

更多关于 中国移动怎么样 的文章

 

随机推荐