【AI音效师诞生!阿里推出思维链音频模型ThinkSound】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-7-6 01:05

AI音效师诞生!阿里推出思维链音频模型ThinkSound

作者：微信文章
近日，阿里巴巴通义实验室宣布开源旗下首个音频生成模型ThinkSound，该模型首次将CoT（Chain-of-Thought，思维链）技术引入音频生成领域，让AI学会像专业音效师一样逐步分析画面事件与声音的关联，生成与画面同步的高保真空间音频。这一突破标志着AI音频生成技术从“被动模仿”迈向“主动理解”。

ThinkSound由多模态大语言模型和统一音频生成模型两部分组成，通过“理解整体画面→聚焦具体物体→响应用户指令”三阶段流程，精准捕捉视觉细节并生成对应音效。

例如，当画面中出现雨滴落在树叶的场景时，模型不仅能识别物体（雨滴、树叶），还能结合环境特征模拟出符合物理规律的雨声与碰撞音效，实现“听音辨景”的沉浸式体验。

阿里通义实验室同期开源的还包括OmniAudio（空间音频生成模型）和InspireMusic（音乐生成技术）。

其中，OmniAudio基于Sphere360大规模数据集，可从360°视频中生成FOA（全向空间音频），为虚拟现实和沉浸式娱乐提供更真实的声场环境；而InspireMusic支持通过文字描述或音频提示生成多种风格的高质量音乐作品，进一步拓展了AI在音乐创作领域的应用边界。
📘 本文内容来源于网络，仅供参考。如有出入，请以阿里官方信息为准。欢迎留言交流。全文完，看更多刘强东与京东资讯！敬请关注【老刘那些事】。
往期回顾

01

“苏超”入驻京东旗舰店，豪送1000台百寸电视

02

全国高温破纪录，京东空调安装量猛涨340%

03

京东物流「智狼系统」全国落地，智能仓储迈入规模化新阶段
点击这里进入阿里课程中心

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI音效师诞生!阿里推出思维链音频模型ThinkSound