3D数据:从数据采集到数据表示,再到数据应用

发布于:2025-07-16 ⋅ 阅读:(23) ⋅ 点赞:(0)

3D扫描场景 (3D Scanned Scene) 是什么?

我们想把一个真实的房间(比如你的书房)完整地“搬”进电脑里,让电脑知道这个房间的三维结构。3D扫描就是实现这个过程的技术。

  • 定义:3D扫描场景是使用特殊传感器(如LiDAR激光雷达RGB-D深度相机)对真实世界环境进行测量,从而捕捉其空间几何信息后生成的数字三维模型。
  • 过程
    1. 传感器会发射光(通常是人眼看不见的激光或红外光)。
    2. 光束射到物体表面(如墙壁、桌子、椅子)后会反射回来。
    3. 传感器通过测量光束返回的时间或模式,精确计算出传感器到物体表面上每一点的距离。
    4. 通过成千上万次的测量,就能获得场景中大量物体的表面点三维坐标 (X, Y, Z)。
  • 实例:苹果新款iPhone和iPad Pro上的“激光雷达扫描仪”就是一个微型的LiDAR,可以用来创建房间的3D扫描场景。自动驾驶汽车顶部的旋转装置也是一个LiDAR,它在实时扫描周围的道路、车辆和行人。

点云 (Point Cloud) 和 3D网格 (3D Mesh)

3D扫描完成后,我们得到了一大堆原始数据点。如何用这些点在电脑里把场景“画”出来呢?这时就需要两种主流的表示形式:点云3D网格

点云 (Point Cloud)
  • 定义:点云是三维空间中一系列点的集合。它是3D扫描后最原始、最直接的数据表示。
  • 形式:每个点至少包含三维坐标 (X, Y, Z)。通常还会附带其他信息,比如:
    • 颜色 (R, G, B):如果用RGB-D相机扫描,每个点还能记录下颜色,组合起来就像一张立体的、由无数小色点组成的照片。
    • 强度 (Intensity):激光雷达反射回来的信号强度,可以反映物体表面的材质。
  • 视觉想象:您可以把点云想象成一团“数字尘埃”或一幅三维的“点彩画”。每个尘埃颗粒或颜色点都有精确的空间位置,但它们之间是独立、离散的,没有明确的连接关系。
  • 什么叫稀疏点云 (Sparse Point Cloud)?
    • “稀疏”是相对于“稠密”而言的。稀疏点云意味着在单位空间体积内,点的数量较少,点与点之间的距离较大。这可能导致物体表面看起来不完整,有空洞。
    • 成因:可能是扫描设备精度不高、扫描速度过快,或者被扫描物体表面反光/吸光特性导致。
    • 论文关联:论文提到 ScanRefer 处理的是稀疏点云 ,意味着它所面对的挑战是在一个可能不完整、有缺失的原始数据中直接定位物体。

稠密点云,能清晰看出物体轮廓。稀疏点云,点与点之间有明显间隙。

3D网格 (3D Mesh)
  • 定义:3D网格是一种通过顶点(Vertices)边(Edges)面(Faces) 来定义物体三维形状的表示方法。它不仅仅是点的集合,更定义了点之间的拓扑连接关系,构成了物体的“表面”。
  • 形式
    • 顶点:就是点云中的点。
    • :连接两个顶点的线段。
    • :由三条或更多边闭合构成的多边形(最常见的是三角形)。
  • 视觉想象:如果说点云是“骨架”,那么网格就是给骨架蒙上了一层“皮肤”。这层皮肤是连续的,定义了物体的内外
  • 与点云的关系3D网格通常是在点云的基础上后处理生成的。算法会分析点云中点的邻近关系,智能地将它们连接起来,形成一个个三角面,最终构成完整的物体表面。
  • 实例:我们玩的3D游戏中的角色、场景,以及电影中的CGI特效物体,几乎都是用3D网格来表示的,因为网格可以方便地进行贴图、渲染和变形。

通过连接点云的点生成3D网格,形成连续的表面

任务设定和标注侧重点上有所不同

这是理解 ScanReferNr3D 这两个数据集核心差异的关键。虽然它们都源自相同的3D扫描场景(ScanNet),但它们给AI模型提出的“考题”和提供的“参考答案”是完全不同的。

ScanRefer 的情况
  • 任务设定 (Task Setting):AI模型接收的是一个相对原始的、稀疏的点云场景和一句自然语言描述(例如:“请找到那个红色的椅子”)。模型的任务是,必须直接在这个离散、可能不完整的点云中,找出并分割出哪些点属于“红色的椅子”。
  • 标注侧重点 (Annotation Focus):它的标注是将一句话的描述直接关联到点云中的一个或一组点。重点在于 “从无到有” 的定位和分割能力。
  • 打个比方:这就像给一个侦探一张模糊的广场监控录像(稀疏点云),然后告诉他:“找到穿风衣的那个男人”。侦探需要自己从模糊的人群中辨认并圈出目标。
Nr3D 的情况
  • 任务设定 (Task Setting):在Nr3D中,场景数据已经被预处理过了。场景里所有的物体(比如每把椅子、每张桌子)都已经被完美地识别出来,并用一个精确的3D边界框 (Bounding Box) 给框起来了。AI模型接收的是这个处理好的场景、所有物体的边界框列表,以及一句自然语言描述。它的任务是,在这些已有的边界框中,选出哪个框对应描述中的物体。
  • 标注侧重点 (Annotation Focus):论文明确提到,Nr3D为所有物体提供了真实的3D边界框 。它的标注重点是将一句话的描述关联到一个已存在的物体ID或边界框上。它考验的是在多个候选对象中的 “指代消歧” 能力。
  • 打个比方:这就像给一个安保人员一张广场照片,照片上每个人的轮廓都已经被用不同颜色的框完美地圈出并编了号(预处理好的边界框)。然后告诉他:“找到穿风衣的那个男人”。安保人员不需要自己去辨认轮廓,他只需要回答:“目标是5号框”。
特性 3D点云 (Point Cloud) 3D网格 (3D Mesh)
构成 离散的三维点集合 由顶点、边、面构成的连续表面
关系 点与点之间独立 点(顶点)之间通过边和面连接
来源 3D扫描的直接产物 通常由点云后处理生成
形态 数字尘埃、三维点彩画 数字雕塑、蒙皮骨架
应用 原始场景分析、自动驾驶感知 游戏、CGI、可视化、仿真
数据集 ScanRefer Nr3D
输入数据 原始、稀疏的点云 经过预处理、所有物体都有边界框的场景
AI任务 分割定位:从点云中找出属于目标的点 指代消歧:从已有的物体框中选出正确的一个
核心挑战 在不完美的原始数据中进行精细感知 理解语言描述,区分相似的候选物体

网站公告

今日签到

点亮在社区的每一天
去签到