作者:李飞飞(Fei-Fei Li)
发表时间:2025 年 11 月 10 日
原文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
1950 年,当计算机还不过是自动化的算术与简单逻辑时,艾伦·图灵提出了一个至今仍在回响的问题:“机器能思考吗?”要看到他所看到的——即智能或许可以被构建而非天生——需要非凡的想象力。这一洞见后来催生了一场不懈的科学探索,我们称之为“人工智能”(AI)。在我从事人工智能研究的第 25 个年头,图灵的愿景依然激励着我。但我们离目标还有多远?答案并不简单。
如今,以大语言模型(LLMs)为代表的前沿 AI 技术已经开始改变我们获取和处理抽象知识的方式。然而,它们仍是“黑暗中的文人”:言辞流利却缺乏经验,知识渊博却无现实根基。而空间智能(Spatial Intelligence)将彻底改变我们创造并与现实及虚拟世界互动的方式——它将重塑叙事、创造力、机器人技术、科学发现等众多领域。这正是人工智能的下一个前沿。
自踏入这一领域以来,视觉与空间智能始终是我追寻的北极星。这也是我花费多年构建 ImageNet 的原因——这是首个大规模视觉学习与基准数据集,与神经网络算法和现代计算硬件(如 GPU)并列为推动现代 AI 诞生的三大关键要素。这也是为什么过去十年,我在斯坦福大学的实验室一直致力于将计算机视觉与机器人学习相结合。同样,这也是我和联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 在一年多前创立 World Labs 的初衷:首次全面实现这一可能性。
在本文中,我将解释什么是空间智能、为何它至关重要,以及我们如何构建能够解锁它的“世界模型”(World Models)——其影响将重塑创造力、具身智能(embodied intelligence)乃至人类进步。
空间智能:人类认知的脚手架
AI 从未像今天这样令人兴奋。生成式 AI 模型(如 LLMs)已从实验室走入日常生活,成为数十亿人用于创造、提升效率和沟通的工具。它们展现出的能力曾被认为遥不可及:生成连贯文本、海量代码、逼真图像,甚至短视频片段。AI 是否会改变世界?按任何合理标准来看,它已经做到了。
然而,仍有太多能力遥不可及。自主机器人的愿景虽引人入胜,却仍属推测,远未成为日常生活中如 futurists 所承诺的常态。在疾病治疗、新材料发现、粒子物理等领域加速科研的梦想仍大多未实现。而真正理解并赋能人类创作者的 AI——无论是学习分子化学复杂概念的学生、可视化空间的建筑师、构建世界的电影人,还是追求完全沉浸式虚拟体验的任何人——仍遥不可及。
要理解这些能力为何难以实现,我们需要审视空间智能是如何演化的,以及它如何塑造我们对世界的理解。
视觉长期以来是人类智能的基石,但其力量源于更根本的东西。早在动物筑巢、抚育后代、使用语言或建立文明之前,“感知”这一看似孤立的能力——无论是微光一闪,还是触感纹理——就悄然开启了通向智能的进化之旅。
这种从外部世界获取信息的能力,在感知与生存之间架起了一座桥梁,并随着世代更迭不断强化、复杂化。一层又一层的神经元由此生长,形成神经系统,用以解读世界并协调生物体与其环境的互动。因此,许多科学家推测,感知与行动构成了驱动智能演化的闭环,也是大自然创造我们这个物种——这个集感知、学习、思考与行动于一体的终极载体——的基础。
空间智能在我们与物理世界互动中扮演着根本性角色。每天,我们都依赖它完成最普通的动作:想象保险杠与路缘之间的空隙来停车;接住对面扔来的钥匙;在拥挤的人行道上穿行而不碰撞;或是在半睡半醒中不看也能把咖啡倒入杯中。在极端情况下,消防员在浓烟弥漫、建筑坍塌的环境中快速判断结构稳定性与逃生路径,依靠手势、肢体语言和一种无法用语言替代的职业直觉进行沟通。而儿童则在尚不能言语的数月甚至数年间,通过与环境的游戏式互动来学习世界。所有这一切都直观、自动地发生——这种“流畅性”,机器尚未掌握。
空间智能也是我们想象力与创造力的基础。讲故事的人在脑海中构建独特而丰富的世界,并借助各种视觉媒介将其呈现给他人——从远古洞穴壁画到现代电影,再到沉浸式电子游戏。无论是孩子在沙滩上堆沙堡,还是在电脑上玩《我的世界》(Minecraft),基于空间的想象力构成了我们在现实或虚拟世界中互动体验的基础。在众多工业应用中,对物体、场景和动态交互环境的模拟支撑着无数关键业务场景,从工业设计到数字孪生,再到机器人训练。
历史上,空间智能多次推动文明跃迁。古希腊时期,埃拉托色尼(Eratosthenes)通过观察亚历山大港一处 7 度的影子角度(此时赛伊尼正午无影),将光影转化为几何,从而计算出地球周长。哈格里夫斯(Hargreaves)的“珍妮纺纱机”通过一个空间洞察力革新了纺织业:将多个纺锤并排置于同一框架内,使一名工人可同时纺八根线,生产效率提升八倍。沃森与克里克通过亲手搭建三维分子模型,摆弄金属片与铁丝,直到碱基对的空间排列“咔哒”一声契合,最终揭示了 DNA 结构。在每一个案例中,空间智能都在科学家和发明家必须操控物体、可视化结构、推理物理空间时推动了文明前进——而这些都无法仅靠文字捕捉。
空间智能是我们认知的脚手架。当我们被动观察或主动创造时,它都在发挥作用。它驱动我们对最抽象主题的推理与规划。它也决定了我们如何与他人或环境互动——无论通过语言还是身体。虽然我们大多数人不会每天都像埃拉托色尼那样揭示宇宙真理,但我们每天都以相同方式思考:通过感官感知复杂世界,并凭借对物理空间运作方式的直觉理解来赋予其意义。
遗憾的是,今天的 AI 尚未如此思考。
过去几年确实取得了巨大进展。多模态大语言模型(MLLMs)在文本之外还接受了海量多媒体数据训练,初步具备了一些空间意识。如今的 AI 能分析图片、回答相关问题,并生成超写实图像和短视频。借助传感器与触觉技术的突破,最先进的机器人也开始能在高度受限的环境中操作物体和工具。
但坦率地说,AI 的空间能力仍远未达到人类水平。其局限很快显现:当前最先进的 MLLM 模型在估算距离、方向和大小方面表现几乎不优于随机猜测;也无法“在脑中”旋转物体以从新角度重新生成;它们无法走迷宫、识别捷径,或预测基础物理规律。AI 生成的视频——尽管新颖酷炫——往往几秒后就失去连贯性。
尽管当前最先进的 AI 在阅读、写作、研究和数据模式识别方面表现出色,但在表征或与物理世界互动方面仍存在根本性局限。我们对世界的看法是整体性的——不仅关注眼前之物,更关注万物之间的空间关系、意义及其重要性。通过想象、推理、创造和互动(而不仅是描述)来理解这一点,正是空间智能的力量所在。没有它,AI 就与它试图理解的物理现实脱节。它无法有效驾驶汽车,无法在家庭和医院中引导机器人,无法为学习与娱乐提供全新的沉浸式互动体验,也无法加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道:“我的语言的界限意味着我的世界的界限。”我不是哲学家,但我知道,对 AI 而言,世界不止于文字。空间智能代表了超越语言的前沿——它是连接想象、感知与行动的能力,为机器真正提升人类生活开辟了可能,从医疗健康到创造力,从科学发现到日常辅助。
人工智能的下一个十年:构建真正具备空间智能的机器
那么,我们如何构建具备空间智能的 AI?通往能够像埃拉托色尼那样洞察、像工业设计师那样精准、像讲故事者那样富有想象力、像急救人员那样流畅地与环境互动的模型之路是什么?
构建空间智能 AI 需要比 LLMs 更雄心勃勃的东西:世界模型(World Models)——一种新型生成模型,其理解、推理、生成并与语义、物理、几何及动态复杂的现实或虚拟世界互动的能力,远超今日 LLMs 所能达到的范围。该领域尚处萌芽阶段,现有方法从抽象推理模型到视频生成系统不一而足。World Labs 正是在这一信念下于 2024 年初成立的:基础方法仍在建立之中,这将成为未来十年的决定性挑战。
在此新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三项核心能力定义世界模型:
1. 生成性(Generative)
世界模型能生成具有感知、几何和物理一致性的世界。
要解锁空间理解与推理,世界模型必须能生成自身模拟的世界。它们应能根据语义或感知指令,生成无限多样且多变的模拟世界,同时保持几何、物理和动态的一致性——无论是代表现实还是虚拟空间。研究界正在积极探索:这些世界应以隐式还是显式方式表示其内在几何结构。此外,除了强大的潜在表征,我认为通用世界模型的输出还必须允许生成一个显式的、可观测的世界状态,以满足多种应用场景。尤其重要的是,其对当前的理解必须与过去连贯一致——即与导致当前状态的先前世界状态紧密关联。
2. 多模态性(Multimodal)
世界模型天生就是多模态的。
正如动物和人类一样,世界模型应能处理多种形式的输入(在生成式 AI 领域称为“提示”)。面对部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应尽可能完整地预测或生成世界状态。这要求模型既能以真实视觉的保真度处理视觉输入,又能同样自如地解读语义指令。这使得智能体和人类都能通过多样化输入与模型就世界进行交流,并获得多样化的输出。
3. 交互性(Interactive)
世界模型能根据输入动作输出下一状态。
最后,如果动作和/或目标是世界模型提示的一部分,其输出必须包含世界的下一状态(可隐式或显式表示)。当仅给出一个动作(无论是否带有目标状态)作为输入时,世界模型应生成一个与世界先前状态、预期目标状态(如有)及其语义含义、物理定律和动态行为一致的输出。随着空间智能世界模型在推理与生成能力上变得更强大、更稳健,可以设想:在给定目标的情况下,世界模型不仅能预测世界的下一状态,还能基于新状态预测下一步动作。
这一挑战的广度超越了 AI 迄今面临的任何问题。
语言是人类认知中纯粹的生成现象,而世界遵循更复杂的规则。在地球上,重力支配运动,原子结构决定光如何产生颜色与亮度,无数物理定律约束着每一次互动。即使是最富幻想的创意世界,也由遵循物理定律和动态行为的空间对象与智能体构成。要一致地调和这一切——语义、几何、动态与物理——需要全新的方法。表征一个世界的维度复杂性远超语言这种一维、序列化的信号。要实现具备人类级通用能力的世界模型,我们必须克服若干严峻的技术障碍。在 World Labs,我们的研究团队正致力于在这一目标上取得根本性进展。
以下是我们当前研究的一些方向:
- 新的通用任务函数用于训练:定义一个像 LLM 中“下一个词预测”那样简洁优雅的通用任务函数,一直是世界模型研究的核心目标。由于其输入与输出空间的复杂性,此类函数天然更难构建。但尽管前路漫漫,这一目标函数及其对应表征必须体现几何与物理定律,尊重世界模型作为想象与现实之接地表征的根本属性。
- 大规模训练数据:训练世界模型所需的数据远比文本整理复杂得多。好消息是:大规模数据源已然存在。互联网规模的图像与视频集合提供了丰富且易得的训练材料——挑战在于开发能从这些二维图像或视频帧信号(即 RGB)中提取更深层空间信息的算法。过去十年的研究已证明,在语言模型中,数据量与模型规模之间存在缩放定律;而世界模型的关键在于构建能以同等规模利用现有视觉数据的架构。此外,我不低估高质量合成数据及其他模态(如深度和触觉信息)的力量。它们在训练过程的关键步骤中补充了互联网规模数据。但前路依赖于更好的传感器系统、更鲁棒的信号提取算法,以及更强大的神经仿真方法。
- 新模型架构与表征学习:世界模型研究必将推动模型架构与学习算法的进步,特别是超越当前 MLLM 和视频扩散范式。这两者通常将数据标记化为 1D 或 2D 序列,使简单的空间任务变得异常困难——例如在短视频中统计唯一椅子的数量,或记住一小时前房间的样子。替代架构可能有所帮助,例如用于标记化、上下文和记忆的 3D 或 4D 感知方法。例如,在 World Labs,我们近期关于名为 RTFM 的实时生成帧模型的工作就展示了这一转变:它使用空间锚定的帧作为空间记忆形式,在保持生成世界持久性的同时实现高效实时生成。
显然,在通过世界建模完全解锁空间智能之前,我们仍面临艰巨挑战。这项研究不仅是理论练习,更是新一代创意与生产力工具的核心引擎。World Labs 的进展令人鼓舞。我们最近已向有限用户展示了 Marble 的初步版本——这是首个可通过多模态输入提示生成并维持一致 3D 环境的世界模型,供创作者和讲故事者探索、互动并在其创作流程中进一步构建。我们正努力尽快向公众开放!
Marble 只是我们构建真正空间智能世界模型的第一步。随着进展加速,研究人员、工程师、用户和商业领袖都开始认识到其非凡潜力。下一代世界模型将使机器在空间智能上达到全新水平——这一成就将解锁当今 AI 系统仍普遍缺失的关键能力。
用世界模型为人类构建更美好的世界
AI 发展的动机至关重要。作为帮助开启现代 AI 时代的科学家之一,我的动机始终明确:AI 必须增强人类能力,而非取代人类。多年来,我致力于推动 AI 的开发、部署与治理与人类需求对齐。如今,技术乌托邦与末日论的极端叙事泛滥,但我仍持一种更务实的观点:AI 由人开发、被人使用、受人治理。它必须始终尊重人的能动性与尊严。其魔力在于拓展我们的能力——让我们更具创造力、更紧密连接、更高效、更充实。空间智能正体现了这一愿景——赋能人类创作者、照护者、科学家与梦想家,实现曾经不可能之事。这一信念驱动我将空间智能视为 AI 下一个伟大前沿。
空间智能的应用横跨不同时间尺度。创意工具正在涌现——World Labs 的 Marble 已将这些能力交到创作者和讲故事者手中。机器人代表中期雄心,我们将完善感知与行动的闭环。最具变革性的科学应用将耗时更久,但有望对人类福祉产生深远影响。
在所有这些时间尺度上,有几个领域因其重塑人类能力的潜力而尤为突出。这需要整个 AI 生态系统的共同参与——研究人员、创新者、企业家、公司乃至政策制定者——朝着共同愿景努力。但这一愿景值得追求。未来将呈现如下图景:
创造力:赋能叙事与沉浸式体验
“创造力是智力在玩耍。”这是我个人英雄爱因斯坦的一句名言。早在文字出现之前,人类就在讲故事——画在洞穴墙上,代代相传,以共享叙事构建整个文化。故事是我们理解世界、跨越时空连接、探索人性本质、并在自身生命与爱中寻找意义的方式。如今,空间智能有望以前所未有的方式变革我们创造与体验叙事的方式,不仅限于娱乐,更延伸至教育、设计与建造。
World Labs 的 Marble 平台将前所未有的空间能力与编辑可控性交到电影人、游戏设计师、建筑师及各类讲故事者手中,让他们无需传统 3D 设计软件的繁重负担,即可快速创建并迭代完全可探索的 3D 世界。创作行为本身依然如故——充满人性与活力;AI 工具只是放大并加速创作者所能实现的成果。这包括:
- 多维叙事体验:电影人和游戏设计师正使用 Marble 构建完整世界,不受预算或地理限制,探索传统制作流程中难以企及的场景与视角。随着不同媒介与娱乐形式的边界模糊,我们正迈向融合艺术、模拟与游戏的全新互动体验——个性化世界中,任何人都能(而不仅是工作室)创造并栖居于自己的故事。随着将概念与分镜更快转化为完整体验的新方法兴起,叙事将不再局限于单一媒介,创作者可自由构建跨越多种平台的共享叙事世界。
- 通过设计实现空间叙事:几乎所有制造物品或构筑空间都需先在虚拟 3D 中设计。这一过程高度迭代,耗时耗资。借助空间智能模型,建筑师可在投入数月设计前快速可视化结构,步入尚不存在的空间——本质上是在讲述关于我们未来如何生活、工作与聚集的故事。工业与时尚设计师可即时将想象转化为形态,探索物体如何与人体及空间互动。
- 全新沉浸式与互动体验:体验本身是我们这个物种创造意义的最深层方式之一。在人类历史的绝大部分时间里,我们只有一个共享的 3D 世界:物理世界。仅在过去几十年,通过游戏与早期虚拟现实(VR),我们才开始窥见拥有自己创造的替代世界意味着什么。如今,空间智能结合 VR、扩展现实(XR)头显和沉浸式显示等新形态,以前所未有的方式提升这些体验。我们正迈向一个未来:步入完全实现的多维世界将如同打开一本书般自然。空间智能让世界构建不仅对拥有专业制作团队的工作室开放,也对个体创作者、教育者及任何有愿景分享的人开放。
机器人:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航并与世界互动。机器人亦不例外。具备空间意识的机器自该领域诞生之初便是梦想,包括我在斯坦福实验室与学生及合作者的工作。这也正是我对 World Labs 所构建模型潜力感到兴奋的原因。
- 通过世界模型扩展机器人学习:机器人学习的进步取决于可扩展的可行训练数据解决方案。鉴于机器人需学习理解、推理、规划并与之互动的状态空间极其庞大,许多人推测,必须结合互联网数据、合成仿真与真实人类演示才能真正创造通用机器人。但与语言模型不同,当前机器人研究的训练数据稀缺。世界模型将在此发挥决定性作用。随着其感知保真度与计算效率提升,世界模型的输出可迅速弥合仿真与现实之间的鸿沟,从而帮助机器人在无数状态、互动与环境的仿真中训练。
- 伙伴与协作者:作为人类协作者的机器人——无论是在实验室协助科学家,还是帮助独居老人——可扩大急需更多劳动力与生产力的 workforce。但这要求空间智能能感知、推理、规划并行动,同时——这一点最为关键——与人类目标和行为保持共情对齐。例如,实验室机器人可操作仪器,让科学家专注于需要灵巧性或推理的任务;家庭助手可帮助老人做饭,而不削弱其乐趣或自主性。能预测下一状态(甚至可能预测符合此预期的动作)的真正空间智能世界模型,对实现这一目标至关重要。
- 拓展具身形式:人形机器人在我们为自己构建的世界中扮演角色。但创新的全部益处将来自更广泛的设计:递送药物的纳米机器人、穿越狭小空间的软体机器人,以及为深海或外太空打造的机器。无论其形态如何,未来的空间智能模型都必须整合机器人所处环境及其自身的具身感知与运动。但开发这些机器人的关键挑战在于缺乏这些多样化具身形态的训练数据。世界模型将在仿真数据、训练环境和基准任务中发挥关键作用。
更长远的视野:科学、医疗与教育
除创意与机器人应用外,空间智能的深远影响还将延伸至 AI 能以拯救生命和加速发现的方式增强人类能力的领域。以下三个应用领域极具变革潜力(当然,空间智能的用例实际上遍及更多行业):
- 科学研究:空间智能系统可模拟实验、并行测试假设,并探索人类无法进入的环境——从深海到遥远星球。该技术可变革气候科学和材料研究等领域的计算建模。通过将多维仿真与现实数据收集结合,这些工具可降低计算门槛,拓展每个实验室可观测与理解的范围。
- 医疗健康:空间智能将重塑从实验室到病床的一切。在斯坦福,我和学生及合作者多年来与医院、养老院及居家患者合作。这段经历让我坚信空间智能在此的巨大潜力。AI 可通过多维建模分子相互作用加速药物发现,通过帮助放射科医生识别医学影像中的模式提升诊断,还可实现环境监测系统,在不取代治愈所需的人际连接的前提下支持患者与照护者——更不用说机器人在多种场景下协助医护人员与患者的潜力。
- 教育:空间智能可实现沉浸式学习,使抽象或复杂的概念变得具体可感,并创造对我们大脑与身体学习机制至关重要的迭代体验。在 AI 时代,儿童与成人都迫切需要更快、更有效的学习与再技能化。学生可探索细胞机器或在多维中“穿越”历史事件;教师可借助互动环境个性化教学;专业人士——从外科医生到工程师——可在逼真模拟中安全练习复杂技能。
在所有这些领域,可能性无穷无尽,但目标始终如一:AI 增强人类专长、加速人类发现、放大人类关怀——而非取代作为人类核心的判断力、创造力与同理心。
结语
过去十年,AI 已成为全球现象,并成为技术、经济乃至地缘政治的拐点。但作为一名研究者、教育者,如今也是一名创业者,最激励我的仍是图灵 75 年前那个问题背后的精神。我依然怀有他的惊奇感。正是空间智能的挑战,每天赋予我能量。
历史上首次,我们有望构建出与物理世界如此协调的机器,使其成为我们应对最大挑战的真正伙伴。无论是在实验室加速疾病理解、彻底改变我们讲故事的方式,还是在我们因疾病、受伤或衰老而最脆弱的时刻提供支持,我们都站在一种能提升我们最珍视生活方面的技术门槛上。这是一个更深刻、更丰富、更赋能的生活愿景。
在自然界首次在远古动物身上释放空间智能的微光近五亿年后,我们有幸成为可能赋予机器同样能力的技术世代,并更有幸将这些能力用于造福全人类。没有空间智能,我们对真正智能机器的梦想就不会完整。
这一探索是我的北极星。加入我,一同追寻它。
转载请注明:学时网 » 从文字到世界:空间智能是人工智能的下一个前沿