【AI笔记29|AI 3D建模:李飞飞的空间智能产品世界大模型Marble开启公测】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-11-17 22:16

AI笔记29|AI 3D建模:李飞飞的空间智能产品世界大模型Marble开启公测

作者：微信文章
目录

全文分为2个部分，共计2975字：

1.神奇的Marble

2.再谈空间智能

Marble生成的3D模型（视频来源：World Labs官网）

这篇笔记是3D建模爱好者的福音，尤其是是游戏开发者、设计师、影视创作者或建筑师，AI 3D建模值得关注！

2025年11月13日，AI教母李飞飞博士在社交平台X上发文，宣布她的公司世界实验室（World Labs）旗下的空间智能产品世界大模型Marble开启公测。

李飞飞的X推文（图片来源：X截图）

现在人人都能轻松创建专属的3D世界。咱们再也不需要花大量时间学习建模知识和技能，我也第一时间将Sketch Up、Rhino和3Ds Max等建模软件都卸载了，耗我时间毁我青春。还记得当时学这些软件，还要背快捷键，还要学每个命令能干啥，然后我变成了一只坐在电脑前毫无感情敲键盘的猴子。

认真建模的小吗喽（图片来源：小红书，邪恶贝）

有了Marble，只需要输入提示词、图片或视频，就可以生成可自由探索的3D模型，还可以下载。之前内测，俺没拿到名额，现在开放公测，深度体验了3天，兴奋之余写篇笔记冷静一下。

神奇的Marble

登陆网址：

https://marble.worldlabs.ai

来到Marble首页

Marble首页用户界面（图片来源：Marble截图）

普通用户每月有7000积分，支持生成4个3D模型，玩一下还是够的。有文本、图像和全景图三种方式生成3D模型：

Marble用户权益（图片来源：Marble截图）

1

文本生成3D模型（Text-to-3D Model）

提示词：一个详细、充满生活气息的霍比特人厨房，里面摆满了编织篮子和铜壶，沐浴在平静的淡蓝色日光和柔和的环境阴影中。

提示词生成3D模型（图片来源：Marble截图）

等了2分钟，就根据提示词生成了一个可以自由探索的3D模型。关键是模型场景生成后就不会发生变化，再也不用抽卡了，Amazing！

Marble生成的3D模型（视频来源：作者录制）

2

图像生成3D模型（Image-to-3D Model）

为了生成更好的3D模型，我特地找了一张有空间感的图片。

门廊图片（图片来源：知乎，高效收藏夹）

依然只用了2分钟左右，上效果。

Marble生成的门廊3D模型（视频来源：作者录制）

我滴妈，AI总是让人意外！

另外还支持多张图像生成模型，我一激动给积分用完了，借用官方案例用用。

多图生成室内模型（视频来源：World Labs官网）

3

视频生成3D模型（Video-to-3D Model）

我上传了一段视频，却被提醒需要会员权限，交马内。我交不了一点，贫穷是我的错咯，只能请富哥富姐们去开个会员试试了。

上传的视频（视频来源：作者录制）

Marble提醒界面（图片来源：Marble截图）

Marble除了可以生成3D模型外，还具有AI原生3D编辑能力：

1.增删，增加或删除模型场景内容；

删除模型中的垃圾桶（视频来源：World Labs官网）

2.修改，修改模型场景内容；

修改厨房台面材质（视频来源：World Labs官网）

3.扩展，将多个模型场景拼接。

多个模型拼接（视频来源：World Labs官网）

Marble生成的3D模型文件还可以导出到本地，有3种导出方式：

1.高斯散点，3D模型保存为大量半透明粒子的集合。可以使用与THREE.js 集成的开源跨平台渲染器Spark在浏览器中渲染这些散点；

高斯散点图（图片来源：Marble截图）

2.三角形网格，用于粗略物理模拟的低保真度网格以及高质量网格，这些网格尽可能接近高斯散点的视觉保真度；

mesh网格模型（视频来源：World Labs官网）

3.增强视频，3D模型增强导出为视频，增强后的视频可以添加细节，并为场景添加动态元素，同时保持像素级的相机控制和遵循生成的 3D模型的结构。

模型渲染增强视频（视频来源：World Labs官网）

更多细节，请查看这份使用手册：

https://www.worldlabs.ai/blog/marble-world-model

再谈空间智能

空间智能听起来有点不接地气，俺也是似懂非懂的，迷糊。我在AI笔记23中，关于李飞飞博士和空间智能，基于当时的理解已经记下简要的笔记。2025年11月10日，李飞飞老师在X上发文，再次解释了什么是空间智能，我拿着小本本，先记为敬。

传送门：

AI笔记23｜AI人物志01：AI教母李飞飞与她看到的世界（AI世界大模型）

李飞飞博士的X推文（图片来源：X截图）

自2022年11月OpenAI发布ChatPGT至今，生成式AI模型从各大实验室走向咱们的日常生活：

咱们用ChatGPT、豆包、DeepSeek等大语言模型生成文字；

用Midjourney、Nano-Banana、即梦等绘画大模型生成图片；

用Sora2、可灵等视频大模型生成视频。

这3年间，一个一个曾经被认为不可能的事，变成现实。

俺注意到，图像和视频大模型也都是基于语言大模型（Transformer构架）发展而来，同时有着维度的进阶：

1.语言大模型，文本序列，一维；

2.图像大模型，像素网格，二维；

3.视频大模型，时间轴上的排列的图像序列，伪三维，我愿称之为二点五维。

李飞飞博士说，目前的AI虽然能力很强，但仍然是“黑暗中的文字匠人”（AI语言大模型），能言善辩却缺乏现实经验，知识渊博却根基不牢。

比如ChatGPT，它能写诗、写论文、写代码，但如果我问它“你站在桌子前向右转，再向前走三步，桌子在哪里？”，它只能瞎猜。ChatGPT并不理解空间和方向，它也不知道1m的距离有多长。

ChatGPT的回答（图片来源：ChatGPT截图）

另外用即梦AI生成图像，输入提示词后，会出现三只手和面部崩坏的情况。同样也是不真正理解“手的三维结构”，只是在匹配“看起来像手的纹理”。

三只手和面部崩坏展示（图片来源：即梦AI生成）

因此AI需要像人一样，真正理解三维世界，拥有空间智能。空间智能才是AI的下一个前沿，也是走向真正智能的必经之路。

铺垫了半天，所以说啥子是空间智能？

空间智能是一种认知能力。指的是理解、想象、记忆、推理和操作空间中物体之间关系的能力。它让我们能“在脑子里看到东西”，并对位置、形状、方向、运动等进行判断和推理。

再总结就是：

空间智能 = 在大脑里“看见”世界 + 动手“操作”世界 + “预测”世界如何变化的能力。

没有这种能力，咱们甚至连走路不撞人、打开柜门不打到自己和判断车距不追尾都做不到。

空间智能在我们与物理世界互动中扮演着基础性角色。我们每天都无意识的依赖空间智能完成最平凡的举动：

倒车时，大脑会自动计算后保险杠与车位线之间的距离，来判断是否还能往后倒；

朋友从远处扔来车钥匙，你下意识就伸手接住，电光火石间，大脑已完成钥匙飞行轨迹的计算，并指挥手爪子在准确的时间抵达准确的位置；

在拥挤的人行道穿行，大脑不断计算着自己与路人的距离，保证不会发生碰撞。

空间智能也是想象力和创造力的基础。讲故事的人会先在脑海中想象独特丰富的世界，再利用多种视觉媒介将故事具象化呈现给别人，比如从古代石窟壁画到现代电影再到沉浸式电子游戏。

空间智能在一些伟大的发现与发明中也发挥了核心作用。比如哈格里夫斯发明的“珍妮纺纱机”通过空间洞察力革新了纺织业，将多个纺锤并排组装在单个框架中，这样1名工人就能同时纺织多根纱线，生产力提高了8倍；

珍妮纺纱机（图片来源：秘塔AI搜索）

沃森和克里克通过搭建3D分子实体模型发现了DNA的双螺旋结构，两个科学家在大脑中想象这些分子的三维空间结构然后动手拼接，直到碱基对的空间排列契合到位。

DNA双螺旋结构（图片来源：秘塔AI搜索）

到这里，关于空间智能的解释已经很充分了。最后，李飞飞博士还定义了“真正具备空间智能的世界模型”所需要的3项能力：

1.生成式（Generative），具备空间理解能力，不仅能创造符合物理和几何规律的虚拟世界，还能清楚地表示世界的状态，并把现在与过去的状态联系起来；

2.多模态（Multimodal），就像动物和人类一样，能够处理多种形式输入，无论是图像、视频、深度图、文本指令、手势还是动作；

3.交互式（Interactive），可以根据当前状态和目标，预测世界会怎样变化，并随着能力增强，还能预测下一步应该做什么。

原文名称：

《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》

原文地址：

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

END

编辑 | 王彦新一

邮箱 | archi_ybwang@163.com

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI笔记29|AI 3D建模:李飞飞的空间智能产品世界大模型Marble开启公测