腾讯正在arxiv上公布论文细致引见了数据集的形成以及评价尺度等内容

26 6月

腾讯正在arxiv上公布论文细致引见了数据集的形成以及评价尺度等内容

  正在现有的视觉暗示进修使命中,深度卷积神经收集(CNN)凡是是针对带有单个标签的图像进行锻炼的,例如 ImageNet。然而,单个标签无法描述一幅图像的所有主要内容,一些有用的视觉消息正在锻炼过程中可能会被华侈。正在这项工做中,我们对带有多个标签的图像进行锻炼,以提高锻炼后的 CNN 模子的视觉暗示质量。

  腾讯 ML-Images 数据库,ResNet-101 的 checkpoint 以及所有锻炼代码已正在上发布。它无望鞭策研究范畴和工业界的其他视觉使命的成长。

  此外,腾讯 AI Lab 还供给基于 ML-Images 锻炼获得的深度残差收集 ResNet-101。该模子具有优异的视觉暗示能力和泛化机能,正在当前业内同类模子中精度最高,将为包罗图像、视频等正在内的视觉使命供给强大支持,并帮力求像分类、物体检测、物体、语义朋分等手艺程度的提拔。

  我们通过迁徙进修三种分歧的视觉使命,了 Tencent ML-Images 和其预锻炼的查抄点有着比力好的质量。

  正在 GitHub()上发布了 Tencent ML-Images 数据库,包含锻炼的 ResNet-101 查抄点,以及从数据预处置,预锻炼,微调到图像分类和特征提取的完整代码。估计这将鞭策研究范畴和工业界的其他视觉使命的成长。

  第一做者是吴保元,现正在是腾讯 AI Lab 的高级研究员,2014 年 8 月至 2016 年 11 月正在 KAUST 进行博士后进修,取 Bernard Ghanem 传授一路工做。2014 年 6 月获得中国科学院从动化研究所模式识别国度沉点尝试室博士学位,导师为胡包钢传授。做者研究乐趣包罗机械进修、计较机视觉和优化,包罗图像标注、弱 / 无监视进修、布局化预测、概率图模子、视频处置和整数规划。

  为什么我们需要多标签图像数据库?因为正在大大都天然图像中存正在多个对象,单个标注可能会脱漏一些有用的消息,从而 CNN 的锻炼。例如,同时包含牛和草的两个视觉上类似的图像可能别离被标注为牛和草。合理的方式是 “告诉”CNN 模子这两幅图像同时包含牛和草。

  腾讯 AI Lab 发布的图像数据集 ML-Images,包含了 1800 万图像和 1.1 万多种常见物体类别,正在业内已公开的多标签图像数据集中规模最大,脚以满脚一般科研机构及中小企业的利用场景。

  成立了一个包含一千八百万张图像和一万一千个类此外多标签图像数据库,被称为 Tencent ML-Images,这是迄今为止最大的公开可用的多标签图像数据库。

  这项工做正在新建的多标签图像数据库(称为 Tencent ML-Images)上展现了大规模的视觉暗示进修。文章从会商以下两个问题起头。

  为什么我们需要大规模的图像数据库?深度进修一曲处于持久低谷,曲到 2012 年,AlexNet 正在 ILSVRC2012 挑和的单标签图像分类使命中取得了令人惊讶的成就。深度神经收集的潜力是通过大规模的图像数据库出来的,即 ImageNet-ILSVRC2012 。此外,对于很多视觉使命,如方针检测和语义朋分,获取锻炼数据的成本常高的。因为锻炼数据不脚,需要正在其他大型数据库上事后锻炼好的视觉呈现优良的 checkpoint 做为初始化,用于其他视觉使命 (如针对单标签图像分类的 ImageNet-ILSVRC2012)。

  操纵大规模分布式深度进修框架,正在 Tencent ML-Images 上无效地锻炼 ResNet-101 模子。此外,还设想了一种新的丧失函数来缓解大规模多标签数据库中严沉的类失衡问题。

  2018 年 9 月腾讯 AI Lab 开源 “Tencent ML-Images” 项目,该项目由多标签图像数据集 ML-Images,以及业内目前同类深度进修模子中精度最高的深度残差收集 ResNet-101 形成。 近日腾讯正在 arxiv 上发布论文细致引见了数据集的形成以及评价尺度等内容,对 Tencent ML-Images 数据集的理解很有帮帮。