斯坦福吴佳俊团队,给机器东说念主遐想了一套拼装宜家产物的视频教程!
具体来说,团队忽视了用于机器东说念主的大型多模态数据集IKEA Video Manuals,已入选NeurIPS。
数据集涵盖了6大类IKEA产物,每种产物都包含圆善的3D模子、拼装评释书和践诺拼装视频。
而且分辨邃密无比,拆解出的安装子阵势多达1000多个。
作家先容,该数据集初次已矣了拼装辅导在真实场景中的4D对皆,为商榷这一复杂问题提供了挫折基准。
着名科技博主、前微软计策商榷者Robert Scoble说,有了这个数据集,机器东说念主将不错学会我方拼装产物。
团队成员、斯坦福拜谒学者李曼玲(Manling Li)暗示,这是空间智能范畴的一项挫折使命:
这项使命将拼装策动从2D鼓舞到3D空间,通过领会底层视觉细节,经管了空间智能商榷中的一个主要瓶颈。
1120个子阵势胪陈拼装历程
IKEA Video Manuals数据围聚,涵盖了6大类36种IKEA产物,圣洁单的凳子到复杂的柜子,呈现了不同难度的拼装任务。
每一款产物,都包括以下三种模态:
安装评释书,提供了任务的全体理会和重要阵势;
真实拼装视频,展示了防护的拼装历程;
3D模子,界说了部件之间的精准空间关联。
何况这三种模态并非浅陋地堆砌在沿路,作家通过对视频和操作阵势的拆解,将三种模态进行了邃密无比的对皆。
举个例子,在这么一条对于长凳的数据当中,包含了其基本粗豪、视频信息、重要帧信息,以及安装阵势。
从下图中不错看出,安装阵势当中有主要阵势和子阵势的分辨,还标注了对应的视频位置。
统共数据围聚,共包含了137个手册阵势,凭据安装视频被细分为了1120个具体子阵势,捕捉了圆善的拼装历程。
何况通过6D Pose追踪,每个部件的空间轨迹都被精准记载,最终在视频帧、产物拼装评释书和3D模子之间缔造了密集的对应关联。
时空信息邃密无比标注
IKEA Video Manuals数据集是在IKEA-Manual和IKEA Assembly in the Wild(IAW)两个数据集的基础上缔造的。
其中,IKEA-Manual数据集提供了模子偏执对应评释书,IAW则包含了大都用户拼装宜家产物的视频片断。
这些视频来自90多个不同的环境,包括室表里场景、不同光照条目,真实反馈了产物拼装的各种性。
与在实验室环境下相聚的数据比拟,这些真实视频带来了更丰富的挑战:
部件平日被手或其他物体隐私;
相似部件识别(如四条一模一样的桌子腿);
录像机频繁移动、变焦,带来参数料到的坚苦;
室表里场景、不同光照条目下的各种性。
为了得回高质料的标注,应酬真实视频带来的挑战,商榷团队缔造了一套可靠的标注系统:
识别并标注相机参数变化的重要帧,确保片断内的一致性;
聚积2D-3D对应点和RANSAC算法进行相机参数料到;
广瑞优配通过多视角考据和时序拘谨保证标注质料。
当先,商榷者们当先界说了一套档次化的安装历程描述框架,将统共安装历程分为阵势、子阵势和视频帧等多个层级。
作家当先从IAW数据围聚提真金不怕火每个手动阵势的视频片断,并将每个视频片断理会为更小的拒绝(子阵势)。
对于每个子阵势,作家以1FPS的速率采样视频帧,并在每个子阵势的第一帧中标注分娩物部件。
为了在统共拼装视频中对产物部件进行追踪,作家还在采样帧中为3D部件注视了2D图像分割掩码。
为了促进注视历程,炒股配资服务商榷团队开荒了一个披露扶植2D和3D信息的Web界面,同期该界面还可基于Segment Anything Model(SAM)模子进行交互式掩码注视。
标注历程中,标注东说念主员会在3D模子上选中零件,然后在2D视频帧上诱骗其轻便位置,并将其输入到SAM模子中以及时生成2D分割掩码。
为了经管SAM在提真金不怕火具有相似纹理的部分之间或低光区域的鸿沟方面的固有局限,作家还允许标注东说念主员使用画笔和橡皮擦用具进行手动退换。
此外,作家还要料到视频中的相机参数,为此商榷者们当先东说念主工标志出视频帧中可能出现相机畅通(如焦距变化、切换视角等)的位置,然后标注出视频帧和3D模子之间的2D-3D对应重要点。
临了,聚积这两类标注信息,商榷者们使用PnP (Perspective-n-Point)算法料到出每段视频的相机内参数,得到相机参数的脱手料到后,专揽交互式用具来细化每个视频帧中零件的6D姿态。
空间模子智商评估
基于IKEA Video Manuals数据集,团队遐想了多个中枢任务来评估刻下AI系统在领会和实行产物拼装,以及空间推理(spatial reasoning)方面的智商。
当先是基于3D模子的分割(Segmentation)与姿态料到 (Pose Estimation)。
此类任务输入3D模子和视频帧,要求AI准确分割出特定部件区域,并料到其在视频中的6解放度姿态。
从美团公布的财报可知,美团2023年年营收2767亿元,同比增长26%。在2023年实现了139亿元的利润,而2022年则为亏损67亿元。美团2023年经调整EBITDA及经调整净利润分别增长至239亿元和233亿元。在2023年也实现了经营现金流入405亿元。截至2023年12月31日,持有的现金及现金等价物和短期理财投资分别为333亿元和1118亿元。
△上:基于3D模子的分割,下:基于3D模子的姿态料到
实验测试了最新的分割模子(CNOS, SAM-6D)和姿态料到模子(MegaPose)。
分析发现,它们在以下场景进展欠安:
隐私问题:手部隐私、近距离拍摄导致部分可见、隐私引起的深度料到间隙;
特征缺失:接力纹理的部件难以分割、对称部件的标的难以判断;
非常拍摄角度(如俯瞰)导致的圭臬误判。
△上:隐私问题,左下:特征缺失,右下:非常角度
第二类任务是视频主义分割,作家对比测试了两个最新的视频追踪模子SAM2和Cutie。
效果披露,在真实拼装场景中,这些模子相同濒临着三大挑战。
一是相机的畅通,可能导致主义丢失。
二是难以区分外不雅相似的部件(如多个换取的桌腿)。
临了,保握长本领追踪的准确度也存在一定难度。
第三类任务,是基于视频的时势拼装。
团队忽视了一个立异的拼装系统,包含重要帧检测、部件识别、姿态料到和迭代拼装四个阵势。
实验接收两种建立:
使用GPT-4V自动检测重要帧:效果不睬念念,Chamfer Distance达0.55,且1/3的测试视频未能完成拼装;
使用东说念主工标注的重要帧:由于姿态料到模子的局限性,最终Chamfer Distance仍达0.33。
这些实验效果揭示了刻下AI模子的两个重要局限:
视频领会智商不及:刻下的视频模子对时序信息的分析仍然较弱,频频停留在单帧图像分析的层面;
空间推理受限:在真实场景的复杂条目下(如光照变化、视角转变、部件隐私等),现存模子的空间推明智商仍显不及。
作家简介
本样式第一作家,是斯坦福大学筹划机科学硕士生刘雨浓(Yunong Liu)当今在斯坦福SVL实验室(Vision and Learning Lab),由吴佳俊训诲指挥。
她本科毕业于爱丁堡大学电子与筹划机科学专科(荣誉学位),曾在德克萨斯大学奥斯汀分校从事商榷实习。
斯坦福大学助理训诲、清华姚班学友吴佳俊,是本样式的指挥训诲。
另据论文信息披露,斯坦福大学博士后商榷员刘蔚宇(Weiyu Liu),与吴佳俊具有同等孝顺。
此外,Salesforce AI Research商榷主任Juan Carlos Niebles,西北大学筹划机科学系助理训诲、斯坦福拜谒学者李曼玲(Manling Li)等东说念主亦参与了此样式。
其他作家情况如下: