DDS-LOGO

【DINO Talk】视启未来创始人张磊:打造具有超强物体级理解能力的视觉大模型,为空间智能提供核心支撑

视启未来,其核心团队来自粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心(IDEA CVR)孵化的 DINO-X 团队。

该团队长期深耕多模态视觉模型领域,凭借自主研发的初代 DINO 模型实现 COCO 目标检测榜单 5 个月霸榜的亮眼成绩,后续推出的 Grounding DINO 开集检测模型更入选 2024 年 ECCV 最具影响力论文,为视觉大模型 DINO-X 的诞生奠定基础,由此打开了开放世界感知和物体级理解的大门。

2025 年 8 月,视启未来正式成立,仅 1 个月便成功斩获近亿元天使轮融资,由 A 股上市公司安凯微领投,昊辰资本、德虎资本、元禾璞华、银杏谷资本、力合中科、数字未来、九安智能等市场化机构和产业资本跟投。

通过对视启未来创始人兼 CEO 张磊的深度采访,本文将揭秘 DINO-X 品牌的成长历程,共同探讨 DINO-X 视觉大模型的发展脉络,以及企业在空间智能与具身智能领域的未来布局与深度思考。

一、嘉宾介绍

4M - 张磊 - DINO Talk 封面图.jpg

张磊博士,视启未来创始人兼 CEO,现任 IDEA 研究院计算机视觉与机器人研究中心(CVR)讲席科学家、IEEE Fellow。

张磊曾在微软总部研究院担任首席研究员,研究成果被广泛用于微软必应搜索及认知服务云计算平台。其在国际顶会和期刊上共计发表 CV 领域论文 200 多篇,Google Scholar 引用超过 62000 次,H-Index 102,拥有 60 多项美国授权专利,并因对大规模图像识别和多媒体信息检索方面做出的杰出贡献,获选为 IEEE Fellow。

二、访谈内容

1. 视觉原生的技术路径选择

DINO Talk:先问一个轻松的问题,当时是出于什么样的机缘,用恐龙(DINO)来命名旗下的产品呢?

张磊:DINO 这个工作是在我们两个前续工作 DAB-DETR [ICLR 2022] 和 DN-DETR [CVPR 2022] 基础上的继续改进。

物体检测是视觉领域最为基础的问题之一,我们前续两个工作一直沿用了 DETR 这个名字,也是对 DETR 在检测问题上原创性贡献的认可和致敬。DETR 这个名字源于 DEtection TRansformer,是第一个提出使用 Transformer 来解决检测问题的研究工作。

当我们在 DETR 的基础上做出我们第三个改进工作(DINO)时,我们第一次把基于 Transformer 的检测算法做到了视觉领域的 SOTA,就想取一个更有纪念意义的名字来。当时想这个名字想了好一阵时间都不满意,后来很偶然的一次机会,我带着孩子去动物园玩,看到犀牛 (Rhino) 的名字,一下子想起了 DINO,这个名字是在美国的小朋友对恐龙 (dinosaur) 的口语化叫法。

做这个工作的几位同学都对这个名字很满意,后来的几个工作像 Mask DINO [CVPR 2023] 和 Grounding DINO [ECCV 2024] 也都沿用了 DINO 这个名字,所以恐龙就成了我们团队各种模型的标志了,包括后来我们另外一个很有特点的基于视觉提示做物体检测的工作 T-Rex2 [ECCV 2024],也是恐龙家族的霸王龙。

DINO Talk:跟当前主流的“语言驱动”的视觉模型不同,DINO 模型选择了“视觉原生”的技术路径。为什么会选择这条差异化的技术路线呢?

张磊:先回答“为什么‘先视觉后语言’”。我认为视觉是“机器与物理环境交互的感知基础”:人发展语言是为了让机器听懂指令、理解人的意图,但机器真正与环境作用时,并不需要与环境“对话”,而是依赖视觉与行动能力完成“感知 - 决策 - 执行”的闭环。

回望人类与其他动物在语言尚未产生时,同样凭借感知与行动去识别眼前物体、判断方位并采取行为;也因此,在语言技术未突破之前,靠编程驱动机器门槛极高、只能由少数人完成。以 GPT 为代表的新技术让我们得以用自然语言下达指令,这是一次重要的跃迁。

就视觉本身而言,DETR 等工作在物体级理解上推进显著,而目标检测研究也已持续数十年并不断完善;但仅有“检测”这一条线,或仅有“语言”这一条线,都不足以支撑“让人通过高层语义去驱动机器”的目标,所以语言线一直在补入视觉能力(如 GPT-4V、GPT-4o、GPT-5 等),我们自己的工作则沿着“检测”主线引入语言理解,借助语言的提示与约束,把一个基础检测器扩展为开放词表的检测器,进一步走向开放世界检测,使模型在开放环境中既能识别常见物体,也有能力面对未见类别,从而为机器在真实世界中的稳健运行打下基础。

“语言驱动”和“视觉原生”两条技术路线各有优缺:基于语言的多模态大模型更擅长把握整体/抽象语义与逻辑关联,但其本质仍是对一维序列(tokens)的建模;而基于视觉感知的模型在空间方位、细粒度要素以及 2D/3D 数据建模上更有优势,能更直接刻画结构与几何关系。两种方法始终存在深度融合的可能,但以目前实践而言,二者的融合度仍不理想,尚待在表征、训练目标与系统实现上进一步打通。

DINO Talk:做“视觉原生”大模型的最大难点在哪里?

张磊:“视觉原生”大模型的核心难点之一在于数据,物体级别的理解能力受限于更细颗粒度的训练数据。

主流多模态的做法是以图-文对齐数据为主体,通常规模可达十亿级配对。而基于视觉的多模态模型,以 DINO-X 为例,我们面向物体级的训练数据,需要为画面中的几乎每一个目标都标注边界框(bounding box),并补充细粒度标签(如类别、属性等)。这类标注能显著提升模型的物体层理解与定位能力,但投入高、覆盖面要求广。当然,现在也有越来越多的多模态模型开始引入类似的物体/区域级标注,以增强其在复杂开放场景中的感知与推理能力。

2. 视觉模型大规模商业化落地的痛点

DINO Talk:视觉模型大规模商业化落地的痛点是什么?

张磊:视觉模型商业化落地最大的痛点是,现实应用中的长尾场景非常多元,即使是通用视觉大模型也难以精准地适配某个特殊的场景或者罕见物体;与此同时,这些长尾场景的体量大多很小,投入大量人力以及定制化模型的收益不高。目前视觉模型面对长尾场景的困境是,一百万个问题往往需要一百万个模型来解决,这就导致解决方案严重碎片化,然后又衍生出了一系列的其他问题。

DINO Talk:刚才您提到了当前视觉模型针对长尾场景的解决方案过度碎片化,那么 DINO-X 模型是怎么解决这个问题的呢?能否结合具体的案例谈谈?

张磊:DINO-X 的目标就是用一个模型来解决所有问题。当然,光靠 DINO-X 通用视觉大模型是没有办法覆盖所有场景的。这里面一方面是我们没办法遍历这么多的场景和物体,这世界有太多我们没有见过和想不到的事情;另一方面是数据的限制,长尾场景的数据来源非常难得,我们很难像常见词表一样把模型训练得炉火纯青。

那怎么办呢?针对长尾场景,我们开发了一种叫 oVP(optimized Visual Prompt,精准视觉提示)的技术。为了通俗易懂,产品上我们就叫它定制模板。定制模板的原理是,通过多个视觉提示优化,生成一个 Visual Embedding,就是提示向量,最终把 Embedding 输入到 DINO-X 模型中,从而预测出新图像中的物体。通过这种技术,我们可以大幅提升模型的适应能力和准确性。DINO-X 的定制模板只需要少量图像来训练 Embedding,全程无需开发和编码,就能达到定制化模型的精度。

以智能家居为例,摄像头监控看似常规的检测场景里面其实存在很多很多的长尾目标,因为家居环境实际上是一个非常复杂的开放环境,可能不断有新的家具、新的电器以及其他各种形态的东西不断地冒出来,那这些“新东西”、“新场景”就可以通过定制模板补足。同理还有工业质检里面的零件识别、缺损检测等,我们还跟中央美院的纹理中轴团队合作,做古文物的纹样识别,这些非常垂直的场景和罕见物体,都可以通过 DINO-X 的定制模板补足,无需重新开发新的模型。

DINO Talk:DINO-X 定制模板目前已经有成熟的商业化落地了吗?

张磊:已经投入到实际的业务中。B 端业务来说,我们今年合作了很多的企业用户,比如招商局集团、美团等,他们的场景都是跟业务深度绑定的垂直场景,这个过程就需要用到 DINO-X 的定制模板。至于 C 端,我们的 MaaS(模型即服务)产品线也把定制模板功能整合进去,比如用户可以在 DINO-X 开放平台训练专属的定制模板后,可以通过 API 整合进自己的产品或者业务里面;我们旗下有一款叫 T-Rex Label 的数据标注产品,用户可以也直接添加定制模板来自动标注之前普通模型标注不好的类别;还有物品计数 APP CountAnything,定制模板的识别反馈都很不错。

3. 构筑空间智能和具身智能的核心基础

DINO Talk:关于视启未来的愿景,为什么会强调 “打造具有超强物体级理解能力的视觉大模型”?

张磊:过去几年,我们一直专注在把“目标检测”这件事情做到极致。因为我们觉得,AI 要理解世界,首先要看清楚世界。在 DINO-X 模型诞生,以及通过定制模板解决长尾场景的问题以后,我们就开始着手强化模型的理解能力。比如我们推出的 DINO-XSeek,它对于语义的理解不再停留在名词以及简单的形容词修饰上,而是真正能够分析句子的语法结构,具备高层语义的推理能力,能够处理需要多步骤逻辑分析的复杂指令。

但是这样还不够,因为这个世界是三维的。所谓“超强物体级理解能力”就是你不仅要理解万物,还要理解物体的结构,以及空间关系,所以我们在尝试把 DINO-X 拓展到能够对物体进行 3D 理解。我们从 2D 开始着手,最终希望打造一个真正理解现实物理世界的 3D 视觉大模型,为构建顶尖的空间智能和具身智能提供基础支撑。

DINO Talk:目前 DINO-X 在 3D 方面的进展可以分享一下吗?

张磊:近期最新公布的进展是我们在具身智能领域的成果。

在刚结束不久的 2025 IDEA 大会,我们展示了名为 DINO-XGrasp 的万物抓取模型,它是一个专门为机械臂打造的“具身大脑”。通过整合 DINO-X 的万物感知特性,机械臂不仅可以实现万物抓取,同时具备物体级认知的长程操作能力。值得一提的是,DINO-XGrasp 具身大脑可以用在任何机械臂上,只需要通过视觉算法就可以实现柔性控制和精准定位。

当然,我们在 3D 视觉模型方面也取得非常棒的进展,近期我们还会有不少的成果陆续发布,大家很快就能看到,这里我先卖个关子。

DINO Talk:张老师您刚才也提到了,“希望打造一个真正理解现实物理世界的 3D 视觉大模型,为构建顶尖的空间智能和具身智能提供基础支撑”。我们刚才谈到了具身智能方面的进展,能否谈谈您对空间智能的看法,以及视启未来后续相关的发展计划?

张磊:其实空间智能对我们来说,核心就是让机器像人类一样“看懂”并“运用”物理空间。

很多朋友可能觉得“空间智能”是一个新的概念,但其实它的根源很早。最早在 1983 年,美国心理学家霍华德・加德纳在《智能的结构》里就提出了 “视觉 - 空间智能”,核心是理解物体的形状、大小、位置和三维关系,还能在头脑中想象和操作这些对象。

而李飞飞教授近几年一直在推动这个概念的技术落地,她在 2024 年的 TED 大会和英伟达 GTC 开发者大会上都强调过,空间智能是更基础的 AI 技术,能让机器在真实世界中“无预训练直接执行任务”,关键就是要推断图像、文字在三维环境中的样子,再基于此行动。这也是我们对空间智能的核心认知:不是单纯的技术堆叠,而是让机器真正理解物理环境,进而做出合理决策。

那要实现这个目标,第一步就是夯实基础,实现强大的物体检测能力。李飞飞教授团队之前做过一个名为 “数字表亲” 的工作,这个工作是通过单张图片检测物体,再匹配数字资产构建仿真环境。他们在第一步进行图像物体分析时,就使用了我们的 Grounding DINO 模型。这也印证了,目标检测在整个流程中起到了基础性的入口作用。

在很长的一段时间里,DINO-X 的工作一直围绕长尾检测展开,我们的目标就是实现从头部到尾部的通用检测。与此同时,我们也在为检测结果增加更多颗粒度的理解,例如分割理解、关键点理解以及 3D 结构理解等。基于这个基础,我们从“2D 检测”升级到“3D 物体感知”,再到“3D 环境感知”。

DINO Talk:所以这其实对应到了 DINO-X 的发展路线图,从“2D 检测”到“3D 物体感知”,再到“3D 环境感知”,最后实现世界模型。这个路线中,具体包含哪些工作呢?

张磊:先说说 3D 物体感知。它不是在 2D 检测上简单叠加,对物体的 3D 姿态、关键点以及几何结构进行更细粒度的估计,为 3D 环境理解提供最基础的物体级别的能力。3D 物体感知可以集成来自不同来源的数据,如 2D 图像、深度图(LiDAR、雷达或立体视觉)以及点云数据,我们可以通过设计高效的多模态融合策略,提升对物体 3D 结构的感知能力,从而在复杂环境中实现更高的鲁棒性。

再往上就是 3D 环境感知,这是更宏观的层面。一方面要做场景语义解析,结合 3D 重建、定位技术和 2D 语义理解,构建全局的 3D 场景语义地图。模型不只是知道有什么物体,还要知道它们的空间关系、类别属性;另一方面要解决动态建模问题,比如行人的移动轨迹、光影的变化,这些动态因素会影响机器的决策,必须精准分析和预测。举个例子,机器人要在商场里导航并帮助行人,不仅要知道货架、通道的位置(静态场景),还要预判行人的行走路线(动态场景),这就是 3D 环境感知要解决的核心问题。

最后还有一个关键支撑:数据。要让模型真正理解多样化的复杂场景,必须构建大规模、多模态的空间感知数据集,这是所有算法研究的基础。没有高质量的数据,再先进的模型也很难落地。所以我们在推进技术研发的同时,也在同步搭建这个数据集生态。

DINO Talk:总结下来,视启未来的计划是先以物体检测和 3D 结构理解夯实基础,再通过 3D 物体感知、3D 环境感知实现“从物体到场景”的全面理解,最后靠高质量数据集和硬件加速、高效数据处理流程做支撑,最终打造出能真正理解物理世界的 3D 视觉大模型,为空间智能的落地提供核心支撑。

张磊:对。

DINO Talk:那在 DINO-X 通用视觉感知模型发展到空间智能的过程中,会面临哪些关键的挑战?

张磊:太多了,这是一个一路升级打怪的过程。

第一点,3D 结构的统一表示。物体的 3D 结构有很多不同的表示方法,如 3D 边界框、3D 关键点、3D 点云、3D 网格等,后续研究需要考虑如何在算法层面找到统一的表示,实现较高的可扩展性,并且能够适配不同的场景。

第二点,3D 环境的语义理解。环境的 3D 重建主要依赖基于几何的多视角视觉方法,如 SLAM 和 SfM 等方法。这些方法需要结合 2D 和 3D 物体感知对场景进行细粒度的语义理解,后续研究需要考虑如何更有效地结合基于几何和基于物体理解的两种算法,提供更具有语义性的 3D 环境理解。

第三个是计算复杂度。3D 数据的处理显著增加了计算复杂度,需要在模型设计中平衡精度与效率。

最后是泛化能力。我们需要系统化 3D 感知数据集的构建能力,以确保模型能在真实场景中泛化,尤其是跨域数据或不完备数据的处理能力。

DINO Talk:最后来一个展望,视启未来的愿景就是打造具有超强物体级理解能力的视觉大模型,为空间智能提供基础支撑。终极目标是什么?

张磊:我们的终极目标就是利用 DINO-X 模型的优势,实现一个能够结合人类常识、物理规律、空间推理及世界知识等经验能力来理解物理世界、构建世界模型、预测物理世界中物体运动状态的模型,从而对具身智能的技术进步做出扎实的贡献。