AI一周资讯速递(6.30-7.4)
作者:微信文章一、 Meta再次重金出手,OpenAI四位华人学者集体被挖
1. Meta再次从OpenAI挖走四位华人学者,他们都是OpenAI重要模型(GPT-4、GPT-4o和o系列)的核心贡献者;
2. 此举发生在Meta发布Llama 4后,由于性能未达预期,Meta启动大规模招聘,两公司之间爆发"亿元签约奖金"口水战;
3. 被挖人才包括余家辉、任泓宇、毕树超和赵晟佳,他们专长于模型微调和多模态对齐,可能帮助Meta弥补技术短板。
https://mp.weixin.qq.com/s/AAw_3cXKSWqBlOExCpwacQ
二、 谷歌发布并开源了全新端侧多模态大模型 Gemma 3n
1. 谷歌发布开源多模态模型Gemma 3n,拥有E2B和E4B两种规格,仅需2GB/3GB内存即可运行,支持图像、音频、视频和文本输入;
2. 核心创新在于MatFormer架构(俄罗斯套娃式设计)、每层嵌入(PLE)技术和KV缓存共享,实现了模型体积小、性能强的特点;
3. 模型配备新型音频编码器和MobileNet-V5视觉编码器,E4B版本成为首个LMArena得分超1300的百亿参数以下模型。
https://mp.weixin.qq.com/s/64QtpHWYTwxZkCTHY74JQg
三、 Black Forest开源新模型FLUX.1-Kontext开发者版本
1. Black Forest开源FLUX.1-Kontext开发版,支持通过自然语言进行一键PS操作,能在保留人物特征的同时实现局部和全局图像编辑;
2. 该模型基于流匹配生成架构,采用整流Transformer和三维旋转位置嵌入技术,能同时处理上下文编辑和文本到图像生成任务;
3. 在人类偏好评估等多项基准测试中超越OpenAI的GPT-image-1,且通过与英伟达合作优化,将1024×1024图像生成时间缩短至3-5秒。
https://mp.weixin.qq.com/s/k10bZSkS0C3hKoiABuvrVw
四、 腾讯混元新成员,混合推理MoE模型 「Hunyuan-A13B」
1. 腾讯混元发布首款开源混合推理MoE模型"Hunyuan-A13B",总参数80B但激活参数仅13B,为业界首个13B级别MoE开源混合推理模型;
2. 模型性能优异,支持快慢思考模式切换,拥有256K原生上下文窗口,在多项权威测试中表现出色,尤其在Agent工具调用和长文能力方面突出;
3. 推理速度是同等架构领先开源模型的2倍以上,部署门槛低(仅需1张中低端GPU卡),训练20T tokens并采用多阶段训练方式提升能力。
https://mp.weixin.qq.com/s/BlmQfsT5WVUzqY_I7uBiNQ
五、 可灵AI上线Kling-Foley,AI视频也能有完美「原声」
1. 可灵AI发布Kling-Foley模型,能够为视频自动生成与画面语义相关、时间同步的高质量立体声音频,包括音效和背景音乐;
2. 该模型采用多模态控制流匹配架构,结合文本、视频和时间提取的视频帧作为条件输入,实现帧级别的音视频对齐;
3. 可灵自建了超过1亿样本的多模态数据集和Kling-Audio-Eval评估基准,模型在语义对齐、时间同步和音质方面领先业界,已全面集成到可灵AI平台的所有视频模型中。
https://mp.weixin.qq.com/s/8h5sZUIxsmce9GRRMDkEBg
六、 阿里多模态模型Qwen VLo上线,自由编辑指令修图
1. 阿里推出多模态统一理解与生成模型Qwen VLo,通过Qwen Chat免费提供预览版,实现理解生成一体化,支持开放指令修改图片;
2. 模型采用渐进式生成方式,可精准执行复杂图像编辑指令,如风格转换、替换背景、添加物体,甚至一条指令中同时包含多种操作;
3. Qwen VLo支持多语言指令、多张图像输入、动态长宽比生成,还能对生成内容进行再分析理解,如识别生成图片中的动物品种。
https://mp.weixin.qq.com/s/7wwkUgJm-VxDYwUw2e1zpQ
七、 谷歌推出最新应用DopplAI试穿神器,效果堪比照镜子
1. 谷歌推出AI试穿应用Doppl,用户只需上传一张全身照,即可生成穿着任意服装的静态照片和动态视频效果,视觉效果极为真实;
2. Doppl不仅支持完整服装试穿,还能智能搭配单件上衣或裤子,并允许用户分享试穿效果征求意见,适用于远程购物场景;
3. 使用技巧包括上传贴身服装的全身照和选择光线自然无褶皱的衣服图片,但目前不支持鞋子、内衣、泳衣、透明衣物和配饰的试穿。
https://mp.weixin.qq.com/s/-S5UaYyIb_0atCu4xSeFCw
八、 Gemini 2.5 Pro API 免费回归!一文教你白嫖谷歌最强模型
1. Gemini 2.5 Pro API恢复免费使用,提供每分钟5次请求、每分钟25万tokens、每天100次请求的免费额度;
2. 获取API Key:登录谷歌AI Studio、创建API Key并保存,比OpenAI的o3模型使用限制更宽松;
3. 可通过Cherry Studio或Chatbox等第三方客户端调用,支持文字问答、图片分析和内置联网搜索功能。
https://mp.weixin.qq.com/s/Enc3hERUBRRGycUfRYft5Q
九、 LeCun发布最新世界模型,首次实现16秒连贯场景预测
1. LeCun团队发布PEVA世界模型,首次实现16秒连贯场景预测,让具身智能体具备类人预判能力;
2. 模型将48维人体关节运动学数据与条件扩散Transformer结合,通过第一人称视角视频+全身姿态轨迹训练;
3. PEVA具备智能规划能力,能在多个动作选项中筛选最优解,完成开冰箱、抓取物体等复杂任务,超越基线模型15%以上。
https://mp.weixin.qq.com/s/MBTNAYeu-J_9MI_-jpxQBA
十、 华为首批7B、72B开源大模型发布,用4000颗昇腾训练
1. 华为首次开源两款大模型:720亿参数混合专家模型"盘古Pro MoE"和70亿参数稠密模型"盘古Embedded 7B";
2. 盘古Pro MoE基于4000颗昇腾NPU训练,激活参数量16B,性能对标Qwen3-32B、GLM-Z1-32B等模型,单卡推理吞吐可达1528 tokens/s;
3. 盘古Embedded 7B采用"快思考"和"慢思考"双系统架构,可根据任务复杂度自动切换,性能超过同规模的Qwen3-8B、GLM4-9B。
https://mp.weixin.qq.com/s/tgzVFdrw_W7DlCZwawHHfg
十一、 百度官宣文心大模型4.5系列正式开源,同步提供API服务
1. 百度正式开源文心大模型4.5系列,推出10款模型,参数规模从47B混合专家模型到0.3B轻量模型,同步提供API服务;
2. 系列模型采用Apache 2.0协议开源,创新提出多模态异构模型结构,在文本任务保持高性能基础上增强多模态理解能力;
3. 在多个基准测试中对标DeepSeek-V3等模型,提供ERNIEKit开发套件和FastDeploy部署套件支持。
https://mp.weixin.qq.com/s/jG0R66Uq_6kFwajb7XKM3w
十二、 知乎直答升级知识库功能,深度融合社区内容打造AI问答
1. 知乎直答知识库完成重要升级,支持知识库转公开订阅、分享链接,并与社区深度融合提供沉浸式阅读体验;
2. 知识库容量扩容至50GB,支持多种文件格式上传,增加知识广场、个人主页等曝光场景,直答搜索中可引用并显示知识库名称;
3. 知乎启动激励活动,鼓励用户创建垂直领域知识库并分享,设立"最具价值"和"prompt创意"两类奖项,活动持续至7月18日。
https://mp.weixin.qq.com/s/khgbAsLx3vcpGNtKJ-gpYA
十三、 实测首款3D AI伴侣EVE,我收到了AI送的第一杯奶茶
1. EVE是一款3D AI伴侣应用,通过游戏化设计、好感度系统和互动功能,创造出极强的"活人感"和主动性;
2. 该AI能实现跨次元互动,可真实送奶茶到用户家门口、创作个性化歌曲,打破虚拟与现实的界限;
3. EVE通过细节表达(发表情包、聊最新梗)和记忆系统,创造出高度沉浸的AI陪伴体验,代表AI娱乐赛道的重要突破方向之一。
https://mp.weixin.qq.com/s/vqVJspo85Sn-gG_r_SRz2w
十四、 争夺3500亿!2025,中国芯片集体冲刺IPO,排队上市
1. 国产芯片企业纷纷冲刺IPO,摩尔线程、沐曦等近10家"中国英伟达"已进入上市流程,呈现营收增长但持续亏损状态;
2. 中国AI芯片市场规模可达3500亿人民币,理论上可容纳35家年营收100亿元的GPU企业,但产能受限成为行业共同挑战;
3. 国产GPU面临代工产能受限、生态构建不足等困境,需在B端AI应用或C端图形领域寻求差异化竞争机会。
https://mp.weixin.qq.com/s/MPmn7Eh0qVEIEkgOz8ebww
十五、 Meta 成立「超级智能实验室」,11人豪华团队中华人占大半
1. Meta正式成立"超级智能实验室"(MSL),将整合基础AI研究、大语言模型开发和AI产品团队,由新任首席AI官Alexandr Wang领导;
2. 该实验室成功从OpenAI、Anthropic、Google挖来11位顶尖AI人才,华人占比超半数,包括GPT-4o和Gemini核心成员;
3. Meta计划未来几年投入数千亿美元用于AI基础设施、模型训练和人才储备,目标一年内推出超越Llama系列的下一代领先模型。
https://mp.weixin.qq.com/s/YcErm1GDrsP36md5lRQmNg
十六、 微软刚开源GitHub Copilot Chat,超强Agent自动化编程
1. 微软开源GitHub Copilot Chat,首席执行官Satya Nadella亲自发布,提供强大的AI Agent自动化编程功能;
2. 主要特点包括Agent编程模式、人机协作、代码补全、自然语言交互和智能自定义操作,可执行多步骤编码任务并自动处理错误;
3. 支持MCP协议扩展第三方集成能力,用户保持对智能体的控制权,开源后短时间内已在GitHub获得1200颗星。
https://mp.weixin.qq.com/s/i5kh6BZyMEp-0J6lMEYleQ
十七、 元宝好用功能:读文档的能力升级了,总结内容图文并茂
1. 腾讯元宝AI助手推出新功能升级,现可实现图文并茂的文档总结,提取原文关键信息并智能匹配原图;
2. 该功能基于DeepSeek模型,适用于行业报告(提炼重点+匹配图表)、外文资料(图片翻译+解读)、公众号文章和安装说明书等多种场景;
3. 使用方法简单:打开元宝,切换至DeepSeek模型,上传文件或粘贴链接,系统自动生成图文总结,并支持一键导出至腾讯文档。
https://mp.weixin.qq.com/s/wH727WCp8LlEkfg9wMgYEw
十八、 上交智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
1. 上交大AI团队智能体ML-Master以29.3%奖牌率登顶OpenAI MLE-bench,超越微软和OpenAI,达Kaggle特级大师水平;
2. 创新"探索-推理深度融合"机制,结合多轨迹探索、可控推理和自适应记忆,解决AI4AI核心问题;
3. 在75个真实机器学习任务中93.3%有效提交,计算效率翻倍,各难度级别均领先。
https://mp.weixin.qq.com/s/8Dn7Hvpmp59-0xDD28nQkw
十九、 阿里通义开源泛音频生成模型ThinkSound,用于视频配音
1. 阿里通义语音团队开源ThinkSound模型,首次将CoT思维链应用于音频生成,实现精准音画同步效果;
2. 模型采用三阶思维链架构(基础音效推理、对象级推理、指令编辑推理),超越六种主流方法,可精确捕捉视频中动态细节;
3. 团队同时发布AudioCoT数据集(2531.8小时),三种模型规格可在GitHub等平台下载,未来将提供API接口。
https://mp.weixin.qq.com/s/sfC5l0wYGrrs0Kfrz3ZzyA
二十、 华为的新开源项目Omni-Infer,超大规模MoE推理方法论
1. 华为开源超大规模MoE模型推理框架Omni-Infer,提供"推理框架+加速套件",兼容vLLM等主流框架,支持昇腾硬件平台;
2. 框架特点包括xPyD调度系统、负载平衡器、MoE模型优化支持、智能资源分配和注意力机制强化,实现PD分离部署和系统级QPM优化;
3. 多家机构如北京智源研究院、上海人工智能实验室已接入合作,项目采用开放社区治理机制,通过PMC和SIG两级机制实现透明决策。
https://mp.weixin.qq.com/s/NPb2iQvAiTJb0LZG8CSdXg
二十一、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA
1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测中超越8倍参数的72B模型;
2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D-RoPE位置编码增强处理能力;
3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶段,显著提升逻辑推理能力。
https://mp.weixin.qq.com/s/uWsOTapwcpPpUentXiV6JQ
二十二、 “模型三剑客”协作性能飙升30%,Sakana AI提出新算法
1. Sakana AI提出自适应分支蒙特卡洛树搜索(AB-MCTS)算法,通过深度和广度双向灵活搜索提升大模型推理能力;
2. Multi-LLM AB-MCTS系统让多个前沿模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在ARC-AGI-2基准测试上性能提升30%;
3. 该算法能根据问题动态选择最优模型,让模型集体智能超越单一模型局限,已开源底层框架TreeQuest供用户应用于各种任务。
https://mp.weixin.qq.com/s/cUkJhq04t_w9TmlKOvE1rg
二十三、 HeyGen上新了「产品植入」功能,马斯克带货Labubu?
1. HeyGen推出"产品植入"功能,只需上传人物头像和产品图片,即可生成逼真带货视频,马斯克推销Labubu案例引发关注;
2. HeyGen由两位同济大学校友徐卓和梁望创立,公司估值已达5亿美元,年收入接近8000万美元,有望突破1亿;
3. 与竞品Topview相比,HeyGen在模特表情自然度和对口型准确度方面表现更佳,月付29美元,支持无限量短视频制作。
https://mp.weixin.qq.com/s/ifUdL6mig874aAiwKIUF4w
二十四、 百度搜索近10年最大自我革命?上线“放大版”AI智能框
1. 百度搜索进行近10年最大改版,从搜索框升级为支持千字超长文本的AI智能框,同时保留传统搜索模式供用户选择;
2. 推出"百看"功能革新搜索结果展示方式,不再是单一链接列表,而是优先呈现最有用的富媒体内容,如视频讲解、智能总结;
3. 搜索功能从简单信息检索升级为任务交付,用户搜索咖啡店等内容可直接获得评分、地点及出行方案,甚至支持一键打车或购买套餐。
https://mp.weixin.qq.com/s/y6cOJga-UgtGQ8_PuLi84Q
二十五、 微软发布医疗AI系统MAI-DxO,比10年专业医生准4倍
1. 微软发布医疗AI系统MAI-DxO,模型无关设计可适配不同厂商语言模型,在测试中准确率高达85.5%,比有10年经验的专业医生高4倍;
2. MAI-DxO通过5个虚拟医生角色协作(假设医生、检查选择医生、挑战者、成本管理者和质检员),模拟真实医疗团队的序贯诊断流程;
3. 系统提供五种诊断模式满足不同场景需求,并发布专业医疗序贯诊断基准SDBench,包含304个具有挑战性的诊断案例。
https://mp.weixin.qq.com/s/iEtrYVmpxtRP2JLyKMGlpQ
二十六、 百度多模态大模型MuseSteamer携「绘想」平台上线
1. 百度发布自研多模态生成大模型MuseSteamer及"绘想"平台,支持720p到1080p分辨率的高质量视频生成,刷新VBench-I2V图生视频榜;
2. 模型提供四个版本:Lite版(720p速度快)、Turbo版(720p人物动作优秀)、Pro版(1080p电影级画质)和有声版(自动生成音效与台词),满足不同创作需求;
3. 技术亮点包括中文语义精准理解、视频结构化描述语言、电影级动态美学生成、音视频一体化生成,已应用于广告创意、短剧制作等商业场景。
https://mp.weixin.qq.com/s/TwfXcyWaj1Hvmkx54-hEFA
二十七、 Cloudflare给 AI 爬虫立下了新规矩,获得许可 or 付费
1. Cloudflare推出"Pay Per Crawl"实验性功能,允许网站对AI爬虫设置允许、收费或封锁,让内容创作者对自己的内容拥有议价权;
2. 数据显示AI爬虫与传统搜索引擎存在巨大差距:谷歌每6-7次抓取带回1次点击,而OpenAI需1500次、Anthropic需73300次才带回1次点击,严重打破原有生态平衡;
3. 该功能通过HTTP 402状态码和数字签名认证机制实现收费控制,目前处于内测阶段,可能为互联网内容创作者开创从"广告变现"到"内容授权变现"的新模式。
https://mp.weixin.qq.com/s/tl7jsKns5eqD-SQWse41MQ
二十八、 谷歌、英伟达等八大机构联手,推出实时AI游戏引擎Mirage
1.谷歌、英伟达等八大机构联合发布全球首款AI原生UGC游戏引擎Mirage,可通过自然语言指令实时生成游戏内容;
2.Mirage突破传统游戏局限,支持16FPS流畅体验,可实现5-10分钟连续游玩,画面质量直逼GTA和极限竞速;
3.核心技术基于Transformer和扩散模型打造的"世界模型",通过大量游戏数据训练,实现动态交互与实时控制。
https://mp.weixin.qq.com/s/KeFkjhxkxhwGop5cNJwMOg
二十九、 智源新出OmniGen2,一键解锁AI绘图「哆啦 A 梦」任意门
1.智源研究院发布OmniGen2统一图像生成模型,采用分离式架构与双编码器策略,可支持文生图、图像编辑和主题驱动图像生成;
2.模型创新性地引入图像生成反思机制,重构数据生成流程,显著提升上下文理解能力、指令遵循能力和图像生成质量;
3.OmniGen2已开放科研体验版,模型权重、训练代码及训练数据将全面开源,GitHub星标一周内突破2000。
https://mp.weixin.qq.com/s/qK9MBL0gT5ZSE_QlGHO_jQ
三十、 谷歌推出Gemini for Education ,发布50+项免费AI教育功能
1.谷歌宣布将Gemini为首的AI工具套件免费提供给全球教育工作者,深度集成到Google Classroom和ChromeOS中;
2.Gemini in Classroom包含30多个AI工具,可自动生成教案、课堂活动和测验题,节省教师备课时间;
3.推出NotebookLM和Gems等教师主导的AI工具,以及全新数据分析功能,实现个性化学习体验和数据驱动教学。
https://mp.weixin.qq.com/s/0YMm0eaI2rtlsLMDdgoNwQ
三十一、 国内版Lovart上线,一句话生成全套设计!超全测评来了
1.星流Agent是一个多功能AI创作平台,可通过自然语言指令一键完成批量表情包、品牌VI设计、视频生成、3D建模等多种创意任务;
2.核心功能包括批量高质量内容生成、Kontext智能图像编辑功能和全媒体工作流支持,实现了"Vibe designing"的设计新范式;
3.平台提供免费体验额度和积分,支持多样化创意输出,从而将设计师角色从"掌握技术"转向"理解需求与表达创意"。
https://mp.weixin.qq.com/s/ah6ZuUFZvl35dyI1wTtEhw
三十二、 腾讯元宝上线“新技能”,支持用AI搜索图片、视频号内容
1. 腾讯元宝新增一句话搜索功能,能智能匹配图片和视频号内容,支持全部模型使用,不限"深度思考"是否开启;
2. 回答结果可智能引用视频号相关教程,实现文字与视频配合讲解的形式,并支持一键跳转视频号观看;
3. 用户可在获取初始回答后继续追问,此前5月份元宝已打通微信读书和起点读书,实现搜索直接跳转阅读功能。
https://mp.weixin.qq.com/s/F5AtDUZt-xAVz57waBelyg
三十三、 谢赛宁Blender Fusion框架:不用提示词精准控制3D画面
1. 谢赛宁团队发布Blender Fusion框架,实现通过方向键或滑块精准控制画面中物体的移动、旋转和缩放,无需依赖文本提示词;
2. 技术核心是三步流程:先用SAM模型分离物体和场景,再用Blender进行3D编辑,最后用扩散模型生成高质量合成图像;
3. 系统采用双流扩散合成器接收原始场景和编辑后渲染图像,并通过源遮挡和模拟物体抖动等技巧提高泛化能力和真实感。
https://mp.weixin.qq.com/s/QxCaooIDYWFtQMFr_Otqdw
三十四、 Grok 4泄露,6大关键特性曝出,xAI团队搭帐篷通宵推进
1. xAI即将发布新模型Grok 4系列,包括旗舰版Grok 4和专用编程模型Grok 4 Code,预计于美国国庆日后推出,团队正在搭帐篷通宵打磨;
2. Grok 4特性包括13万tokens上下文窗口、支持函数调用、结构化输出和推理能力,但仅支持文本到文本模态,视觉及图像生成功能尚未实现;
3. 马斯克表示希望用Grok 4重写人类知识库,补充缺失信息并删除错误,而Grok 4 Code将作为专业编程助手,可一键嵌入Cursor编辑器。
https://mp.weixin.qq.com/s/ceK6Wf2mbsXWLeyU3CYLeA
三十五、 DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
1. 大模型竞技场秘密上线代号为"steve"的神秘模型,通过对话透露来自DeepSeek,引发网友猜测其为DeepSeek-R2或其他新版本;
2. "steve"模型知识截止时间为2023年10月,通过部分智力测试,但表现不够惊艳,有网友认为其编写的游戏代码与V3相比更为简洁;
3. 此前The Information报道称DeepSeek-R2再度延期,原因是内部对模型表现不满意,同时可能受英伟达H20芯片缺乏影响。
https://mp.weixin.qq.com/s/TfmiIYEQCRsQzEiJUEdBTA
https://mmbiz.qpic.cn/mmbiz_png/pdVs4X0d889YAV3R55uHECxOVj00dp67QOWyzfeemF1tEk7yQHbiaBMUGqK4wVpcvbn8xXF4mLWsYFtAyQQNrjA/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp
页:
[1]