AI笔记29|AI 3D建模:李飞飞的空间智能产品世界大模型Marble开启公测
作者:微信文章目录
全文分为2个部分,共计2975字:
1.神奇的Marble
2.再谈空间智能
Marble生成的3D模型(视频来源:World Labs官网)
这篇笔记是3D建模爱好者的福音,尤其是是游戏开发者、设计师、影视创作者或建筑师,AI 3D建模值得关注!
2025年11月13日,AI教母李飞飞博士在社交平台X上发文,宣布她的公司世界实验室(World Labs)旗下的空间智能产品世界大模型Marble开启公测。
李飞飞的X推文(图片来源:X截图)
现在人人都能轻松创建专属的3D世界。咱们再也不需要花大量时间学习建模知识和技能,我也第一时间将Sketch Up、Rhino和3Ds Max等建模软件都卸载了,耗我时间毁我青春。还记得当时学这些软件,还要背快捷键,还要学每个命令能干啥,然后我变成了一只坐在电脑前毫无感情敲键盘的猴子。
认真建模的小吗喽(图片来源:小红书,邪恶贝)
有了Marble,只需要输入提示词、图片或视频,就可以生成可自由探索的3D模型,还可以下载。之前内测,俺没拿到名额,现在开放公测,深度体验了3天,兴奋之余写篇笔记冷静一下。
神奇的Marble
登陆网址:
https://marble.worldlabs.ai
来到Marble首页
Marble首页用户界面(图片来源:Marble截图)
普通用户每月有7000积分,支持生成4个3D模型,玩一下还是够的。有文本、图像和全景图三种方式生成3D模型:
Marble用户权益(图片来源:Marble截图)
1
文本生成3D模型(Text-to-3D Model)
提示词:一个详细、充满生活气息的霍比特人厨房,里面摆满了编织篮子和铜壶,沐浴在平静的淡蓝色日光和柔和的环境阴影中。
提示词生成3D模型(图片来源:Marble截图)
等了2分钟,就根据提示词生成了一个可以自由探索的3D模型。关键是模型场景生成后就不会发生变化,再也不用抽卡了,Amazing!
Marble生成的3D模型(视频来源:作者录制)
2
图像生成3D模型(Image-to-3D Model)
为了生成更好的3D模型,我特地找了一张有空间感的图片。
门廊图片(图片来源:知乎,高效收藏夹)
依然只用了2分钟左右,上效果。
Marble生成的门廊3D模型(视频来源:作者录制)
我滴妈,AI总是让人意外!
另外还支持多张图像生成模型,我一激动给积分用完了,借用官方案例用用。
多图生成室内模型(视频来源:World Labs官网)
3
视频生成3D模型(Video-to-3D Model)
我上传了一段视频,却被提醒需要会员权限,交马内。我交不了一点,贫穷是我的错咯,只能请富哥富姐们去开个会员试试了。
上传的视频(视频来源:作者录制)
Marble提醒界面(图片来源:Marble截图)
Marble除了可以生成3D模型外,还具有AI原生3D编辑能力:
1.增删,增加或删除模型场景内容;
删除模型中的垃圾桶(视频来源:World Labs官网)
2.修改,修改模型场景内容;
修改厨房台面材质(视频来源:World Labs官网)
3.扩展,将多个模型场景拼接。
多个模型拼接(视频来源:World Labs官网)
Marble生成的3D模型文件还可以导出到本地,有3种导出方式:
1.高斯散点,3D模型保存为大量半透明粒子的集合。可以使用与THREE.js 集成的开源跨平台渲染器Spark在浏览器中渲染这些散点;
高斯散点图(图片来源:Marble截图)
2.三角形网格,用于粗略物理模拟的低保真度网格以及高质量网格,这些网格尽可能接近高斯散点的视觉保真度;
mesh网格模型(视频来源:World Labs官网)
3.增强视频,3D模型增强导出为视频,增强后的视频可以添加细节,并为场景添加动态元素,同时保持像素级的相机控制和遵循生成的 3D模型的结构。
模型渲染增强视频(视频来源:World Labs官网)
更多细节,请查看这份使用手册:
https://www.worldlabs.ai/blog/marble-world-model
再谈空间智能
空间智能听起来有点不接地气,俺也是似懂非懂的,迷糊。我在AI笔记23中,关于李飞飞博士和空间智能,基于当时的理解已经记下简要的笔记。2025年11月10日,李飞飞老师在X上发文,再次解释了什么是空间智能,我拿着小本本,先记为敬。
传送门:
AI笔记23|AI人物志01:AI教母李飞飞与她看到的世界(AI世界大模型)
李飞飞博士的X推文(图片来源:X截图)
自2022年11月OpenAI发布ChatPGT至今,生成式AI模型从各大实验室走向咱们的日常生活:
咱们用ChatGPT、豆包、DeepSeek等大语言模型生成文字;
用Midjourney、Nano-Banana、即梦等绘画大模型生成图片;
用Sora2、可灵等视频大模型生成视频。
这3年间,一个一个曾经被认为不可能的事,变成现实。
俺注意到,图像和视频大模型也都是基于语言大模型(Transformer构架)发展而来,同时有着维度的进阶:
1.语言大模型,文本序列,一维;
2.图像大模型,像素网格,二维;
3.视频大模型,时间轴上的排列的图像序列,伪三维,我愿称之为二点五维。
李飞飞博士说,目前的AI虽然能力很强,但仍然是“黑暗中的文字匠人”(AI语言大模型),能言善辩却缺乏现实经验,知识渊博却根基不牢。
比如ChatGPT,它能写诗、写论文、写代码,但如果我问它“你站在桌子前向右转,再向前走三步,桌子在哪里?”,它只能瞎猜。ChatGPT并不理解空间和方向,它也不知道1m的距离有多长。
ChatGPT的回答(图片来源:ChatGPT截图)
另外用即梦AI生成图像,输入提示词后,会出现三只手和面部崩坏的情况。同样也是不真正理解“手的三维结构”,只是在匹配“看起来像手的纹理”。
三只手和面部崩坏展示(图片来源:即梦AI生成)
因此AI需要像人一样,真正理解三维世界,拥有空间智能。空间智能才是AI的下一个前沿,也是走向真正智能的必经之路。
铺垫了半天,所以说啥子是空间智能?
空间智能是一种认知能力。指的是理解、想象、记忆、推理和操作空间中物体之间关系的能力。它让我们能“在脑子里看到东西”,并对位置、形状、方向、运动等进行判断和推理。
再总结就是:
空间智能 = 在大脑里“看见”世界 + 动手“操作”世界 + “预测”世界如何变化的能力。
没有这种能力,咱们甚至连走路不撞人、打开柜门不打到自己和判断车距不追尾都做不到。
空间智能在我们与物理世界互动中扮演着基础性角色。我们每天都无意识的依赖空间智能完成最平凡的举动:
倒车时,大脑会自动计算后保险杠与车位线之间的距离,来判断是否还能往后倒;
朋友从远处扔来车钥匙,你下意识就伸手接住,电光火石间,大脑已完成钥匙飞行轨迹的计算,并指挥手爪子在准确的时间抵达准确的位置;
在拥挤的人行道穿行,大脑不断计算着自己与路人的距离,保证不会发生碰撞。
空间智能也是想象力和创造力的基础。讲故事的人会先在脑海中想象独特丰富的世界,再利用多种视觉媒介将故事具象化呈现给别人,比如从古代石窟壁画到现代电影再到沉浸式电子游戏。
空间智能在一些伟大的发现与发明中也发挥了核心作用。比如哈格里夫斯发明的“珍妮纺纱机”通过空间洞察力革新了纺织业,将多个纺锤并排组装在单个框架中,这样1名工人就能同时纺织多根纱线,生产力提高了8倍;
珍妮纺纱机(图片来源:秘塔AI搜索)
沃森和克里克通过搭建3D分子实体模型发现了DNA的双螺旋结构,两个科学家在大脑中想象这些分子的三维空间结构然后动手拼接,直到碱基对的空间排列契合到位。
DNA双螺旋结构(图片来源:秘塔AI搜索)
到这里,关于空间智能的解释已经很充分了。最后,李飞飞博士还定义了“真正具备空间智能的世界模型”所需要的3项能力:
1.生成式(Generative),具备空间理解能力,不仅能创造符合物理和几何规律的虚拟世界,还能清楚地表示世界的状态,并把现在与过去的状态联系起来;
2.多模态(Multimodal),就像动物和人类一样,能够处理多种形式输入,无论是图像、视频、深度图、文本指令、手势还是动作;
3.交互式(Interactive),可以根据当前状态和目标,预测世界会怎样变化,并随着能力增强,还能预测下一步应该做什么。
原文名称:
《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》
原文地址:
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
END
编辑 | 王彦新一
邮箱 | archi_ybwang@163.com
页:
[1]