首页 科技 正文

谷歌AI最新3D数据集,1.5万张动图,400万张图片,让AR主宰你的生活。

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

见过3D物体数据集,见过会动的3D物体数据集吗?

每段动态视频都以方针为中央拍摄,不但自带标注整体的鸿沟框,每一个视频还附带相机位姿和稀少点云。

这是谷歌的开源3D物体数据集Objectron,包孕15000份短视频样本,和从五个大年夜洲、十个国度里搜集来的400多万张带注释的图象。

谷歌认为,3D方针理解范畴,贫乏像2D中的ImageNet如许的大年夜型数据集,而Objectron数据集能在一定程度上解决这个问题

数据集一经推出,1.6k网友点赞。

有网友奚弄,谷歌刚好在本身想“谷歌”这类数据集的时刻,把它发了出来。

也有团队前成员透露显露,很愉快看到如许的数据集和模子,给AR带来前进的可能。

除此之外,谷歌还发布了用Objectron数据集演习的针对鞋子、椅子、杯子和相机4种类别的3D方针检测模子。

来看看这个数据集包孕甚么,和谷歌供应的3D方针检测方案吧~(项目地址见文末)

9类物体,对AR挺友爱

今朝,这个数据集中包孕的3D物体样本,包孕自行车,书本,瓶子,摄影机,麦片盒子,椅子,杯子,笔记本电脑和鞋子。

当然,这个数据集,绝不但仅只是一些以物体为中央拍摄的视频和图象,它具有以下特点:

注释标签(3D方针立体鸿沟框)用于AR数据的数据(相机位姿、稀少点云、二维外面)数据预措置(图象名目为tf.example,视频名目为SequenceExample)支持颠末历程脚本运行3D IoU指标的评估支持颠末历程脚本实现Tensorflow、PyTorch、JAX的数据加载及可视化,包孕“Hello World”样例支持Apache Beam,用于措置谷歌云(Google Cloud)根本架构上的数据集所有可用样本的索引,包孕演习/测试部分,便于下载

图象部分的画风,根基是如许的,也标注得异常具体:

而在视频中,不但有从各个角度拍摄的、以方针为中央的片断(从左到右、从下到上):

也有分歧数量的视频类型(一个方针、或两个以上的方针):

谷歌希望颠末历程发布这个数据集,让研究界可以或许进一步打破3D方针理解范畴,和相干的如无看管进修等标的目标的研究利用。

怎样用?谷歌“以身示范”

拿到数据集的第一刻,其实不知道它是不是好用,而且总感到感染有点无从下手?

别耽忧,这个数据集的演习后果,谷歌已替我们试过了。

看起来还不错:

别的,谷歌将演习好的3D方针检测模子,也一并给了出来。(传送见文末)

算法主要包孕两部分,第一部分是Tensorflow的2D方针检测模子,用来“发现物体的位置”;

第二部分则进行图象裁剪,来估计3D物体的鸿沟框(同时较量争论方针下一帧的2D裁剪,是以不需要运行每一个帧),整体布局以下图:

在模子的评估上,谷歌接纳了Sutherland-Hodgman多边形裁剪算法,来较量争论两个立体鸿沟框的交点,并较量争论出两个立方体的订交体积,究竟较量争论出3D方针检测模子的IoU。

简单来讲,两个立方体堆叠体积越大年夜,3D方针检测模子后果就越好。

这个模子是谷歌推出的MediaPipe中的一个部分,后者是一个开源的跨平台框架,用于构建pipeline,以措置分歧形式的感知数据。

它推出的MediaPipe Objectron实时3D方针检测模子,用移动设备(手机)就可以进行方针实时检测。

看,(他们玩很多欢畅)实时方针检测的后果还不错:

其他部分3D数据集

除谷歌推出的数据集之外,此前视觉3D方针范畴,也有很多类型分歧的数据集,每一个数据集都有本身的特点。

例如此坦福大年夜学等提出的ScanNetV2,是个室内场景数据集,而ScanNet则是个RGB-D视频数据集,一共有21个方针类,一共1513个收集场景数据,可做语义豆割和方针检测义务。

而今朝在主动驾驶范畴异常热点的KITTI数据集,也是一个3D数据集,是今朝最大年夜的主动驾驶场景下较量争论机视觉的算法评测数据集,包孕市区、村落和高速公路等场景收集的真实图象数据。

别的,还有Waymo、SemanticKITTI、H3D等等数据集,也都用在分歧的场景中。(例如SemanticKITTI,平居被专门用于主动驾驶的3D语义豆割)

不管是视频照样图象,这些数据集的单个样本根基包孕多个方针,利用处景上也与谷歌的Objectron有所分歧。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/1713.html