我爱免费 发表于 2025-7-6 01:05

AI音效师诞生!阿里推出思维链音频模型ThinkSound

作者:微信文章
近日,阿里巴巴通义实验室宣布开源旗下首个音频生成模型ThinkSound,该模型首次将CoT(Chain-of-Thought,思维链)技术引入音频生成领域,让AI学会像专业音效师一样逐步分析画面事件与声音的关联,生成与画面同步的高保真空间音频。这一突破标志着AI音频生成技术从“被动模仿”迈向“主动理解”。



ThinkSound由多模态大语言模型和统一音频生成模型两部分组成,通过“理解整体画面→聚焦具体物体→响应用户指令”三阶段流程,精准捕捉视觉细节并生成对应音效。

例如,当画面中出现雨滴落在树叶的场景时,模型不仅能识别物体(雨滴、树叶),还能结合环境特征模拟出符合物理规律的雨声与碰撞音效,实现“听音辨景”的沉浸式体验。

阿里通义实验室同期开源的还包括OmniAudio(空间音频生成模型)和InspireMusic(音乐生成技术)。

其中,OmniAudio基于Sphere360大规模数据集,可从360°视频中生成FOA(全向空间音频),为虚拟现实和沉浸式娱乐提供更真实的声场环境;而InspireMusic支持通过文字描述或音频提示生成多种风格的高质量音乐作品,进一步拓展了AI在音乐创作领域的应用边界。
📘 本文内容来源于网络,仅供参考。如有出入,请以阿里官方信息为准。欢迎留言交流。全文完,看更多刘强东与京东资讯!敬请关注【老刘那些事】。
往期回顾

01

“苏超”入驻京东旗舰店,豪送1000台百寸电视

02

全国高温破纪录,京东空调安装量猛涨340%

03

京东物流「智狼系统」全国落地,智能仓储迈入规模化新阶段
点击这里进入阿里课程中心
页: [1]
查看完整版本: AI音效师诞生!阿里推出思维链音频模型ThinkSound