我爱免费 发表于 2025-8-29 17:21

OpenAI的实时语音可以“笑”了,微软1秒造歌,今天的AI已经这么牛了吗?

作者:微信文章
1

xAI发布智能代码生成模型Grok Code Fast 1

马斯克旗下xAI于2025年8月29日发布智能代码生成模型Grok Code Fast 1。该模型主打高速和经济实惠,采用全新架构,擅长TypeScript、Python、Java等多种语言,能完成从项目构建到Bug修复的各种任务。其定价为每百万输入token 0.20美元,输出token 1.50美元。





2

腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley

腾讯混元团队于2025年8月28日开源端到端视频音效生成模型HunyuanVideo-Foley。该模型能根据输入的视频和文字描述,自动生成匹配画面的高质量音效,支持电影、短视频、游戏等多种创作场景,有效解决了AI生成视频"无声"的痛点。其采用多模态扩散变换器架构,确保了音画同步与专业级音频保真度。





3

阿里巴巴瓴羊发布“超级数据分析师”Agent

阿里巴巴旗下瓴羊公司于2025年8月28日正式发布“超级数据分析师”Agent,由问数、解读、报告三大核心模块组成。该产品显著提升数据分析效率:数据获取最快仅需10秒(原需1天),深度报告生成缩短至20分钟(原需数天)。





4

微软推出自研AI模型MAI-Voice-1和MAI-1-preview

微软于2025年8月29日推出其首批自研AI模型:MAI-Voice-1语音模型和MAI-1-preview通用模型。MAI-Voice-1仅需单块GPU即可在1秒内生成1分钟音频,已用于Copilot Daily新闻播报。MAI-1-preview基于约1.5万块H100 GPU训练,专注于指令遵循与日常问答,计划用于Copilot文本功能,并已在LMArena平台开放测试。



5

IBM与NASA联合发布开源太阳物理基础模型Surya

IBM与NASA于2025年8月联合发布开源太阳物理基础模型Surya(梵语意为“太阳”),用于高精度预测太阳耀斑、太阳风及日冕物质抛射等活动。该模型基于NASA太阳动力学天文台(SDO)257TB高分辨率观测数据训练,采用时空变换器架构,首次实现太阳耀斑的可视化预测(提前2小时定位),并将耀斑分类准确率提升16%,太阳风预测前瞻时间达4天。





真实太阳活动与 Surya 的预测。(上:真实图片;下:预测图片)

6

OpenAI凌晨发布最新生产级别语音模型和API

OpenAI于2025年8月29日发布最先进的语音到语音模型GPT-Realtime及可支持生产级的实时智能体Realtime API。该模型采用端到端语音架构,无需文本中转即可直接生成自然语音,在音质、理解力、指令遵循和函数调用方面全面提升:支持多语种无缝切换、情感语调自定义(如“带法国口音的专业语调”),并新增Cedar、Marin两种高拟真音色。性能全面超越前代:BigBench Audio推理准确率达82.8%,指令遵循率提升至30.5%,函数调用准确率升至66.5%。





往期回顾



AI信息差!端侧多模态大模型MiniCPM-V4.5登场,腾讯混元挑战极限代码能力

国务院重磅部署:“人工智能+”行动正式启动,所有行业都值得重做一遍

腾讯又有大动作!Grok 2.5开源、DeepSeek新版本上线,还有这些重磅发布!
页: [1]
查看完整版本: OpenAI的实时语音可以“笑”了,微软1秒造歌,今天的AI已经这么牛了吗?