|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
AI模型发布
Anthropic发布Claude Haiku 4.5模型(2025年10月15日):Anthropic直接推出Claude Haiku 4.5,跳过4.0/4.1版本,其能力与Sonnet 4.5相当,但速度提升超2倍(基准测试达Sonnet 4.5的3.5倍),成本降低3倍(输入Token定价1.00美元/百万,输出Token定价5.00美元/百万)。在编码任务中表现突出(SWE-bench Verified超越73%的同类模型),集成至GitHub Copilot公共预览,支持200K上下文窗口和多代理构建,显著降低高性能AI使用门槛,推动企业开发和自动化应用普及。
Google发布Veo 3.1视频生成模型(2025年10月15日):Google推出Veo 3.1及Veo 3.1 Fast,通过Gemini API以预览形式发布,新增原生音频支持、电影级风格、视频到视频参考生成、转场效果和内容扩展功能,与Sora 2 Pro并列Video Arena榜首。演示显示其保真度和提示遵循能力显著提升(如“Will Smith吃意大利面”场景),标志着Google在生成式视频领域的顶尖地位,增强AI在创意内容和专业工作流的控制力。
AI推理优化
Together AI实现500 TPS推理加速(2025年10月10日):Together AI推出ATLAS自适应推测解码系统,在DeepSeek-V3.1模型上实现500 Token/秒(TPS)生成速度,较基线提升4倍(Turbo版本2倍),无需手动调优维持质量。该突破降低大模型推理成本,对实时AI应用(如聊天机器人、代理)至关重要,助力Together AI年化收入达3亿美元。
AI硬件开发
NVIDIA推出DGX Spark迷你AI超级计算机(2025年10月15日):NVIDIA发布售价3999美元的DGX Spark,配备128GB LPDDR5X统一内存和GB10 Grace Blackwell超级芯片,支持1 PFLOP稀疏FP4算力,可本地运行200亿参数AI模型。开售后迅速售罄,作为GB200集群开发套件,为中小企业和开发者提供集群级算力,优化FP4精度下120B模型性能(预计30-40 Token/秒),标志个人AI计算普及化。
Intel公布Crescent Island推理GPU架构(2025年10月14日):Intel在2025 OCP全球峰会宣布Crescent Island推理专用GPU,基于Xe3P Celestial架构,配备160GB LPDDR5X内存(带宽1.5TB/s),支持块浮点格式,移除光线追踪和编解码器以优化功耗和成本。计划2026年下半年提供样品,针对风冷服务器和CXL集成设计,有望挑战NVIDIA推理市场垄断,推动AI算力价格下降。
OpenAI与Broadcom合作开发10GW专用AI芯片(2025年10月13日):OpenAI与Broadcom启动多年战略合作,开发10吉瓦(GW)规模AI加速器和网络系统(目标250GW),由TPU校友参与,被称为“史上最大联合工业项目”。该芯片专注推理,支撑100亿人24/7 AI代理服务,减少对NVIDIA依赖,与Oracle、NVIDIA、AMD合作互补,可能重塑AI芯片市场格局。
AI企业融资
Anthropic年化收入增至70亿美元(2025年1月-10月):Anthropic年化收入(ARR)从10亿美元激增至近70亿美元(10月中旬数据,较8月50亿美元增长),反映Claude模型在企业应用(如加密合规、代码生成)的强劲需求。尽管面临OpenAI和Google竞争,凸显其在安全导向AI市场的商业成功,支持2025年底9亿美元ARR和2026年潜在26亿美元ARR目标。
Reducto AI完成7500万美元B轮融资(2025年10月14日):Reducto AI在Andreessen Horowitz领投的B轮融资中获7500万美元,累计融资1.08亿美元,月度文档处理量增长6倍,已为Airtable、Scale等处理超10亿页文档。反映AI在法律、金融等垂直领域加速落地,推动文档理解技术商业化,支持Reducto在AI数据处理生态扩张。
一. 中国大模型与生成式AI: Alibaba, DeepSeek, Moonshot, ByteDance
二. 美国大模型与生成式AI: Anthropic, Google, OpenAI
三. 硬件与基础设施提供商: AMD/ROCm, Apple, Intel, NVIDIA, Together AI
四. 开源平台、开发工具与初创企业: Cursor Community, DSPy, Hugging Face, Modular, Perplexity AI, tinygrad, vLLM, Groq, Karpathy的nanochat, Manus.im, OpenRouter, MegaFold项目, Modular Context Protocol, SEAL框架, Mamba 3架构, 低精度模型训练, Unsloth AI平台, Windsurf, AI Granny, ReductoAI公司, LMArena平台
一. 中国大模型与生成式AI
Alibaba
Qwen3-VL系列模型
阿里巴巴推出了轻量级Qwen3-VL模型,包括4B和8B参数版本,提供指令跟随(Instruct)与思考链(Thinking)模式。这些模型包含FP8精度检查点,支持显存(VRAM)占用低,同时支持256K上下文窗口(可扩展至1M)。
它们在科学、技术、工程和数学(STEM)、视觉问答(VQA)、光学字符识别(OCR)、视频理解以及Agent任务中表现卓越,超越Gemini 2.5 Flash Lite和GPT-5 Nano,并与更大规模模型如Qwen2.5-VL-72B性能相当。
Qwen3-VL-Flash版本增强了空间推理、三维定位、OCR及模型安全性能。Qwen3-VL-235B-A22B-Instruct在OpenRouter平台上占据了图像处理48%的市场份额。
部署:针对边缘设备进行优化,并提供可直接部署的模型权重。
Qwen3多模态能力与推理能力拓展
新型多模态模型支持实时视频理解、长篇文档理解、图像编辑、多语言语音及游戏场景。
这些万亿参数模型融合了开放式与封闭式AI的技术路径,通过快速迭代,其在视频生成和模型安全性方面占据了开放模型排行榜的主导地位。
Wan 2.5视频生成模型
Wan 2.5在Video Arena榜单上,其文本到视频排名第5位、图像到视频排名第8位,支持1080p分辨率下24fps、持续时间达10秒,并具备基于音频输入的唇部动作同步(Lip Sync)功能。
定价约为每秒0.15美元,目前仍为闭源状态。
Qwen3Guard安全工具集
开源组件包括Qwen3-4B-SafeRL,增强了对WildJailbreak攻击的抵抗能力,以及Qwen3GuardTest,用于对模型的“思考”过程进行分类,并实现逐Token的内容审查。
附加功能
Qwen代码功能更新:引入“计划模式”,用于提供详细的实现方案;“视觉智能”功能在处理用户界面截图时,可自动切换至Qwen3-VL-Plus(支持256K输入),从而辅助调试工作。
对话记忆:跨会话保留用户授权的个性化细节,以提供更具针对性的响应。
DeepSeek
DeepSeek-V3.1 Terminus模型
一种混合架构模型,支持推理(Inference)与非推理模式,具备优于V3/R1版本的智能水平和成本效益。
它有效降低了“幻觉”现象,并提升了编码及搜索任务中的Agent能力,通过840B Token的持续预训练,支持长上下文推理能力。
由SambaNova托管,仅通过临时API接口提供,用于基准对比测试。
DeepSeek-V3.2-Exp模型
基于V3.1 Terminus构建,V3.2-Exp引入DeepSeek稀疏注意力机制(DSA),实现了长上下文处理速度50%的提升,降低了推理成本,同时保持了原有性能水平。
支持多步Agent任务、长篇文档处理,已在Hugging Face平台开源。
适用于聊天机器人、代码生成、内容摘要等场景,并支持本地部署安装,具备将上下文扩展至1M+的潜力。
使用与工程
免费套餐:限制为50次请求,且无需预存10美元余额即可使用。
工程突破:据报道,DeepSeek工程师通过使用低级PTX/SASS代码,成功绕过了受限H20硬件的内存带宽限制。
Moonshot (Kimi K-2)
模型性能
Kimi K2:计划于2025年7月发布,采用1万亿(1T)参数的MoE架构(其中激活参数32B,由384个专家组成,每Token激活8个)。
Kimi K2在创意性编码及工具调用方面表现卓越,在LiveCodeBench(53.7%)、MATH-500(97.4%)和SWE-bench Verified等基准测试中,取得了最先进水平(SOTA),性能超越了GPT-4.1(LiveCodeBench 44.7%)和DeepSeek-V3(46.9%)。
支持128K上下文(K2-Instruct-0905高达256K)、多语言(中文/英文/法文),以及Agent任务。
在修改后的MIT许可下开源,并通过Moonshot平台API对外提供服务。在Groq平台上托管运行时,可实现185至220Token/秒(TPS)的推理速度。
社区
值得关注的是,有开发人员(Aspen)正在离职,此外,高昂的API数据成本引发了关于模型微调的行业讨论。
由Alibaba/Xiaohongshu/Meituan注资支持,到2025年6月在中国的排名位居第7,同时面临广告和隐私方面的监管审查。
ByteDance (Kling 2.5 Turbo)
增强了文本到视频和图像到视频的生成能力,具备动态运动、物理模拟及电影级画质。
在Video Arena榜单上位居榜首(基准测试排名第1),盲测结果显示,其相对于竞争对手具有285%/212%/160%的胜率优势。
定价为25积分/5秒1080p视频(约合0.15美元,较2.1版本降低30%),并支持电影、电视、游戏等专业级工作流程。
自2024年6月起,已累计处理超过2亿个视频。
二. 美国大模型与生成式AI
Anthropic
Claude Haiku 4.5模型
发布日期:2025年10月15日
该模型跳过了4.0/4.1版本,Haiku 4.5在能力上与Sonnet 4.5持平,但速度提升超过2倍,成本降低3倍(输入Token定价为1.00美元/百万,输出Token定价为5.00美元/百万,高于Haiku 3的0.25美元/百万输入Token和1.25美元/百万输出Token)。
基准测试显示,速度为Sonnet 4.5的3.5倍,在Artificial Analysis推理指数上的得分为55分,在SWE-bench Verified基准测试中,性能超越了73%的同类模型(尤其在计算机使用任务中超越了Sonnet 4),在DSPy NYT Connections测试中得分71%(耗时25分钟,成本约11美元)。
该模型针对编码任务进行了优化,但在非技术类任务中的表现不及Gemini 2.5 Flash、Deepseek R1或Kimi K2。
目前在GitHub Copilot中提供公开预览。
ClaudeAgent能力
Claude Skills通过Markdown指令和文件格式(如.pdf、.docx、.xlsx、.pptx)支持,实现了专用Agent的构建。这一能力通过领域特定的运行时脚本实现,极大地促进了AIAgent开发的爆发式增长。
工作流程中,Sonnet用于规划,而Haiku用于执行。
Claude Code的增强功能包括:支持自我调用以实现Agent搜索;可预先声明子Agent;利用文件I/O驱动工作流程图;以及通过提示中嵌入脚本的方式实现确定性控制。
业务与合作伙伴关系
收入:年化收入(ARR)从2025年1月的10亿美元,增长至10月中旬的70亿美元,尽管面临来自GPT-5和Codex的激烈竞争。
集成:在Salesforce Agentforce平台中,优先面向受监管行业提供服务,与Slack进行深度集成,并在Salesforce内部的工程开发中应用Claude Code,并支持Microsoft 365(SharePoint、OneDrive、Outlook、Teams)。
Google
Veo 3.1和3.1 Fast视频生成模型
发布日期:2025年10月15日
通过Gemini API以预览版的形式发布,这些模型新增了原生音频支持、电影级风格、视频到视频的参考生成、转场效果以及内容扩展功能。
与Sora 2 Pro并列Video Arena榜单第1位,演示表明其在保真度方面有所提升(例如,“Will Smith吃意大利面”的生成效果)。
功能包括对首帧/末帧的精确控制、更丰富的音轨生成以及更严格的提示指令遵循能力。
通过Flow、Gemini应用、Google Cloud Vertex AI平台以及Gemini API接口提供。
Gemini模型更新
有传闻称Gemini 3.0 Pro的编码能力将优于GPT-5 Pro 5%至10%,具备Agent功能“Jules”,并支持通过单条提示生成HTML游戏(例如,Geometry Dash的克隆版本)。
由于服务器资源重新分配给3.0版本,Gemini 2.5的服务质量有所下降,但2.5 Pro在创意内容中表现出色。
Gemini 2.5的原生音频推理能力(Native Audio Thinking)在Big Bench Audio大规模音频基准测试中取得了92%的得分(语音到语音推理领域的最先进水平SOTA)。
该模型使用用户数据进行训练(用户可选择退出该项授权)。
科学AI(AI for Science)项目
发布日期:2025年10月14日
基于27B Gemma的C2S-Scale模型,将基因表达数据转化为“细胞句子”进行Token化处理,旨在验证Silmitasertib通过增强肿瘤免疫信号作为免疫治疗靶点的假设,该项目与耶鲁大学(Yale)合作开展。
开发者工具集
AI Studio新增了使用情况和速率限制仪表板,其中包含RPM(每分钟请求数)、TPM(每分钟Token数)和RPD(每日请求数)等图表。
NotebookLM的升级包括:采用Nano Banana模型驱动的视频概览视觉风格;新增“简报”(Brief)格式;以及支持对话式arXiv文献概览。
OpenAI
Sora 2和Sora 2 Pro视频模型
发布日期:2025年10月15日
Sora 2为Pro用户引入了“故事板”(Storyboard)功能,支持逐帧规划、情节大纲编辑和场景细节优化。
视频生成时长扩展至15秒(面向所有用户)和25秒(面向Pro用户)。
Sora 2 Pro与Veo 3并列Video Arena榜单第1位,增强了物理模拟、音频同步能力以及叙事控制力。
可通过网页端、应用程序和API接口获取(提供10秒、15秒和25秒的选项)。
禁止生成受版权保护的内容(例如动漫战斗场景、马丁·路德·金肖像等),其隐藏水印如果被遮挡,将显示为“模糊印记”。
ChatGPT与API功能
记忆管理功能允许Plus/Pro用户在网页端搜索、排序和重新调整记忆的优先级。
计划于2025年12月,通过基于身份验证(KYC)的机制引入“成人模式”(Adult Mode),用于提供受年龄限制的成人内容,以应对来自Character.AI的竞争。
GPT-5搜索API的调用成本为每1000次调用10美元(降低60%),并具备域名过滤功能;用户正在要求增加日期/国家过滤和Codex集成。
存在的问题包括:使用PDF指令进行图像生成时失败;无法生成逼真的面部图像;以及偶发的无限响应循环现象。
基础设施与算力
发布日期:2025年10月13日(与Broadcom的合作关系)
OpenAI与Broadcom合作开发10吉瓦(GW)推理专用ASIC芯片,这是一个18个月的项目,由TPU校友参与,被称为“历史上最大的联合工业项目”。
当前算力容量为2吉瓦(GW)(主要用于研发),目标为250吉瓦(GW)。
合作伙伴包括Oracle的3000亿美元(9月10日)、NVIDIA的10吉瓦(GW)(9月22日),以及AMD的6吉瓦(GW)(10月6日)。
推理需求旨在支持为100亿人提供24/7Agent服务。
安全与伦理
成立了由八名专家组成的委员会,专注于福祉与人工智能(AI)议题,以处理相关的伦理问题。
三. 硬件与基础设施提供商
AMD/ROCm
性能与竞争对比
MI300X与NVIDIA H100:在总拥有成本(TCO)方面,其性能效益比H100低5%至10%,MI300X在单GPU部署场景中表现出色,得益于192GB HBM3内存,支持更大规模模型而无需多GPU配置。
在Llama 3.1 70B FP8上,MI300X在批次大小(Batch Size)达到256的TP1模式中性能超越了H100,同时避免了内存溢出问题。
ROCm 6.1及后续版本自2024年初以来,稳定性提升了数个数量级,增强了PyTorch/TensorFlow支持,并针对Transformer模型优化了FP8和稀疏性。
MI325X与H200竞争对比:MI325X提供了40%更高的吞吐量和20%至30%更低的延迟,FP16/FP8计算能力高1.3倍,内存容量为1.8倍(256GB HBM3E),带宽为1.3倍(6TB/s)对比H200。
MLPerf 5.0提交确认在Llama 2 70B和SDXL中的竞争性能,GPU分区支持Supermicro和Gigabyte等伙伴实现一致结果。
产品生产和出货将从2024年第四季度(Q4)开始,并于2025年第一季度(Q1)实现大规模普及。
GPU MODE Discord社区竞赛
MI300x8配置在amd-all2all基准测试中实现了低延迟的all-to-all通信(216微秒),amd-gemm-rs和amd-ag-gemm基准在8xMI300集群上运行了6万次迭代,历时超过48天。
2025年AMD开发者挑战赛将在GPU Mode Discord社区举办,旨在邀请团队优化Instinct GPU的推理内核。获胜者将受邀参加开源AI周期间的AMD开发者日(DevDay);所有提交的代码均通过KernelBot进行自动化评估。
硬件与支持问题
消费级GPU方面:Radeon RX 9070 XT在稀疏INT4精度下可提供约1,557 TOPS的算力,实现了相比前代产品2倍的LLM性能提升。该卡配备16GB GDDR6显存(VRAM),带宽为640GB/s,在Windows平台上的llama.cpp中,可支持70B Q4模型达到约13至14Token/秒(t/s)的速度。
支持方面仍存在差距:ROCm 7.0.2通过HIP SDK 6.2.4增加了对gfx1200(RX 9070/9060 XT)的Windows支持,但在Windows平台上的llama.cpp仍需要手动构建rocBLAS Tensile才能优化gfx1200性能;预计在2026年第一季度(Q1)发布的ROCm 7.1中实现完整的集成。
合作伙伴关系
NVIDIA与OpenAI的合作协议:NVIDIA于2025年9月22日承诺向OpenAI提供10吉瓦(GW)的算力支持,包括高达1000亿美元投资,用于从2026年下半年(H2)开始的Vera Rubin平台;NVIDIA初始的100亿美元资金将在部署后生效,为OpenAI基础设施提供超过400万至500万块GPU的驱动算力。
Apple (M系列)
芯片发布与性能
M5芯片:于2025年10月17日发布,应用于14英寸MacBook Pro;配备10核CPU、10核GPU,每个核心集成了神经加速器(Neural Accelerators),提供了高达3.5倍的LLM提示处理速度(例如,通过mlx-lm在8B Q4模型上的首Token输出时间TTFT),峰值GPU算力为M4的4倍。
集成了iPhone 17的AI加速器,以增强设备端(On-device)的推理能力,SSD速度提升2倍(高达4TB),统一内存的带宽达到153GB/s(比M4的120GB/s提升27.5%),能够加速本地LLM的加载速度。
基准测试显示多核CPU得分比M4高20%(Geekbench 6约17,862)。
M2 Ultra:通过mlx-lm在70B Q4模型上可提供12Token/秒(t/s)的速度,优化后可提升至16 t/s;在200W功耗下,其性能可媲美4块RTX 4090显卡(18 t/s),主要利用800GB/s的带宽高效处理高参数量模型的推理任务。
Intel
即将推出的硬件
Crescent Island GPU:于2025年10月14日宣布,计划于2026年下半年(H2)开始提供样品;采用仅用于推理的Xe3P Celestial架构,配备160GB LPDDR5X内存(通过640-1280位接口,带宽高达1.5TB/s),支持块浮点(Block Floating Point)等多种数据格式,以高效处理AI负载。
移除了光线追踪和编解码器模块,以优化功耗和成本,从而适配风冷服务器;具备CXL集成的潜力,可实现低成本的CPU通信。
通过优先考虑“功耗性能比”以及LPDDR5X相较于HBM4的成本优势,与NVIDIA Rubin CPX(128GB GDDR7,2TB/s)展开竞争;计划从2026年起每年发布一款GPU产品。
NVIDIA
硬件发布与性能
DGX Spark:于2025年10月15日推出,是一款售价4000美元的迷你PC,配备128GB LPDDR5X统一内存和GB10 Grace Blackwell超级芯片(Superchip),可提供约1 PFLOP的稀疏FP4精度算力,带宽为273GB/s。
在GPT-OSS-120B-FP4模型上速度约为11 t/s,由于带宽限制落后于Apple M4 Max的66 t/s,但其优势在于支持跨两个单元的405B模型。
该产品已售罄;作为GB200集群/CUDA开发套件的一部分,优化后的FP4精度120B模型预计可达到30至40 t/s的性能。
Blackwell架构:RTX 6000 Pro配备了完整的第五代Tensor核心(tcgen05),拥有24,064个CUDA核心和96GB GDDR7显存;在游戏和LLM工作负载中,性能比RTX 5090快10%至15%,解决了此前关于部分实现的“真正的Blackwell”架构的争议。
软件与优化
Nsight工具集:Nsight Compute/Systems 2025.3.1版本支持对RTX 5090进行性能分析(Profiling),并增强了针对Hopper/Blackwell架构的CUDA 12.8指标;JupyterLab扩展支持在Notebook环境中进行内核性能分析。
PyTorch对等内存(Symmetric Memory,2.9版本):简化了NVLinks/RDMA的多GPU内核编写,通过内核内通信和低延迟远程访问;支持计算与通信的融合(Fusion),实现了分布式训练/推理效率2倍以上的提升。
JAX/Pallas:相关教程演示了如何通过Pallas:MGPU内核,在H100集群上实现all-gather matmul的NVLINK通信与计算的重叠(Overlap),从而为Hopper/Blackwell架构实现了约2.5倍的加速效果。
合作伙伴关系与影响
NVIDIA与OpenAI的合作协议:NVIDIA于2025年9月22日承诺提供10吉瓦(GW)的算力支持,包括1000亿美元投资,用于从2026年下半年(H2)开始的Vera Rubin系统;支持OpenAI基础设施的400万至500万块GPU。
安全担忧:美国联邦通信委员会(FCC)重申,根据1991年的TCPA法案(2024年2月更新),AI机器人电话呼叫属于非法行为;DGX Spark的语音能力加剧了此类风险,促使行业呼吁加强内容水印和伦理指南。
Together AI
增长与基础设施
凭借GPU基础设施的扩展,其年化收入(ARR)在2025年夏季达到了3亿美元;收购了新的GPU集群用于数据中心建设,以支持企业AI。
推理创新
ATLAS系统:运行时学习加速系统将推理性能提升高达4倍(约为Turbo版本的2倍);通过自适应推测解码器(Adaptive Speculator),在DeepSeek-V3.1模型上实现了500Token/秒(TPS)的速度,无需手动调优即可保持质量。
合作伙伴关系
CoreWeave:计划从2025年12月起,部署超过4万块NVIDIA GB300 GPU,用于前沿规模集群;通过NVL72平台在DeepSeek-R1上实现了6倍的吞吐量提升。
四. 开源平台、开发工具与初创企业
Cursor Community(IDE与Agent)
平台稳定性与问题
服务中断:Cursor在2025年10月12日至18日期间经历了间歇性的服务问题,包括10月12日报告的运行缓慢,10月15日的速率限制,以及10月16日起影响部分用户的“未知计划”错误。
未记录到大规模的严重中断,但为应对受影响的用户,Pro付费计划暂时退回至免费使用状态,同时面临Zed等竞争对手的威胁。
历史数据显示自2025年3月以来发生超过40次中断。
集成:OpenRouter连接故障导致了请求失败,而Linear集成引起了“停止响应”错误。v1.6.x更新(2025年9月中旬)后网络问题持续,api.cursor.sh连接反复失败。
模型与Agent功能
模型集成:支持每个提示运行多个模型,Grok Code和Cheetah每月处理数十亿Token,以确保其快速性能。
Cheetah(隐身模式)已暂时移除,用户可切换至Claude-4.5-Haiku,以1:1的积分消耗比获得类似的速度体验。
后台Agent:通过任务规划和结果审查机制,支持异步(Asynchronous)工作流程,自定义工作流程实现了专用自动化。
DSPy(MIT的DSPy实验室)
架构创新
递归语言模型(Recursive Language Models, RLMs):2025年10月由MIT CSAIL的Alex Zhang和Omar Khattab发布,RLMs通过在REPL环境中进行递归交互,处理无限上下文(Unbounded Context),并有效减少了上下文信息衰减现象。
在OOLONG基准测试中实现了114%的性能提升(在132K序列长度上超越GPT-5-mini 110%),同时BrowseComp-Plus适用于复合查询场景。
将上下文视为可变变量(例如,递归地进行SQLite数据转储),以实现高效的解析。
Agent与优化功能
Agent搜索争议:该功能被批评为营销炒作,实质上是有效复刻了在LLM上下文注入之前,使用ripgrep等工具对文档进行预筛选的能力。
优化器:Bootstrap few-shot提示方法优于GEPA,通过高质量的少量示例即可达到GEPA的性能水平。
DSPy v2.6.14(2025年3月)新增了自定义指令生成器(Instruction Generator),并支持多模态处理(如dspy.Image)。
Hugging Face(平台与数据)
数据集
ArXiv论文数据集:该4.6TB的数据集包含论文全文和元数据,可用于学术推理任务,并支持多模态知识访问。
GitHub Code 2025数据集:该数据集从排名前100万的仓库(≥2个星标)中精选而出,总计包含超过150万个仓库。它具有前所未有的数据纯净度,并以2025年的时间序列为侧重。
包含星标数高于2的分区(作为质量基准)和低于2的分区(以反映新兴趋势)。
衍生用途需要注意相关的许可问题。
通过datasets库提供,用于平衡训练。
事件与社区
Agent与MCP黑客马拉松:2025年冬季活动(11月14日至30日)规模扩大了3倍,此前已吸引4200人注册,将提供超过100万美元的API积分奖励。
nanochat-students:作为Karpathy全栈LLM课程的新兴社区组织,旨在促进学生项目的开展。
工具与库
Modular Diffusers:更新后支持自定义区块(Custom Blocks),用于构建灵活的扩散模型流程Pipeline。
HuggingChat Omni v2:该开源路由器可从15个服务提供商(如Groq、Cerebras、Together)的115个开源(OSS)模型中自动进行选择,从而优化推理性能。
平台问题
退款和访问Token的问题仍在持续。鉴于生态系统的快速增长(2025年8月的系统发生学研究显示模型数量超过200万),用户建议优化账户删除流程。
Modular(Mojo 🔥)
GPU与兼容性
运行时重编译:Mojo会针对每个GPU运行时环境重新编译内核,支持DGX Spark和Jetson Orin Nano上的ARM Linux,需要sm_121/CUDA 13才能实现完整的DGX兼容性。
Vulkan-mojo:发布了公共API绑定(Public Bindings),以实现更广泛的GPU可移植性。
Coral NPU Verilog:谷歌将其开源作为Mojo可移植性测试的一部分,以增强异构计算支持。
语言功能与问题
弃用与简化:mojo test命令被弃用,转而使用新的测试框架;type_of(x)简化了类型反射机制。
类型系统:LayoutTensors在复杂场景中会导致类型不匹配问题,CUDA因成熟度而优先用于高级GPU任务。
开源
MAX Python API:已完全开源,采用附带LLVM例外的Apache 2.0许可证,代码仓库拥有超过45万行代码,来自6000+贡献者,包括生产级CPU/GPU内核。
Mojo标准库已于2024年3月开源,完整的编译器计划在技术成熟后发布。
Perplexity AI
产品扩展
成为Firefox默认选项:于2025年10月15日集成,成为全球桌面搜索的新选项,支持提供带有引用来源的对话式AI回答,移动端支持即将推出。
用户通过统一搜索栏切换,与Mozilla隐私侧重一致(不进行数据销售/共享)。
附加功能:内置语言学习工具;iOS/网页版金融(Finance)功能附带内幕交易跟踪器;搜索API支持域名过滤以实现查询细化。
API与搜索问题
错误:Cloudflare的机器人/WAF阻断导致了“权限拒绝错误”(PermissionDeniedError),Pro搜索功能无法达到其广告宣传的“无限”限制,Sonar深度研究(Deep Research)功能在扩展会话中出现超时。
订阅问题
订阅计划突然终止(例如,Airtel订阅),以及免费试用期间出现的计费错误,引发了大量用户投诉。
tinygrad(George Hotz)
开发稳定性
破坏性变更:频繁的更新导致了代码错误,例如,针对Snapdragon 845的IMAGE hack,需要通过提交二分查找修复方案来解决。
TinyMesa分支新增了通过USB4连接的Mac NVIDIA显卡支持。
ChatGPT在重构测试中失败,需要手动干预才能实现稳定性。
模型实现
层冻结:通过使用虚拟张量进行部分矩阵训练,实现了高效的模型微调。
tinygrad代码量保持低于1000行,对较小模型比PyTorch快3倍。
vLLM
发布与里程碑
TPU后端:2025年10月16日发布,在TPU v4/v5e/v5p/Trillium v6e/v5e平台上统一支持PyTorch和JAX框架,比2025年2月原型性能提升2至5倍。
支持MPMD/SPMD协调、分页注意力机制以及INT8量化,初始编译时间约20-30分钟,减少至5分钟。
在GitHub上已达到6万星标。
预测输出:通过集成Cascade Tech公司的技术,以实现更快的生成速度。
Groq
性能
Kimi K2推理性能:Groq在其LPU基础设施上托管Kimi K2模型,在官方基准测试中实现了高达185 Token/秒(TPS)的速度,短测试中峰值接近220 TPS,这远超其他提供商平均16.2 TPS的速度,并使其与Sonnet 4等模型具有竞争力。
评估显示Groq提供了约170 TPS的最快响应速度,尽管模型输出较短(1300-1500 Token),但获得了较高的评分(8.5-9.5分)。
该模型为1T参数MoE,激活参数32B,支持128K上下文,并在创意性编码/工具调用中表现出色。
工具调用基准测试
Groq在工具调用方面存在不一致性问题,包括在Mixtral 8x7B和Llama系列模型上出现的解析错误(例如,JSON格式前的额外文本)和400错误(“Failed to parse tool call arguments as JSON”)。
问题包括LangChain集成中的不可靠函数调用以及多工具场景中的频繁错误,通常由于量化/硬件不匹配,导致基准测试性能下降49%。
社区报告强调了API调用的资源浪费现象,并且需要对提示(Prompt)进行精细化调整。
Karpathy的nanochat
功能与性能
发布日期:2025年10月13日
Nanochat是一个最小化的开源全栈式(Full-Stack)类ChatGPT风格的流程Pipeline(代码量约8K行),涵盖:分词器(基于Rust BPE);FineWeb-EDU预训练;中间训练(SmolTalk/MMLU/GSM8K带有工具标签);SFT监督式微调;以及可选在GSM8K上进行的GRPO训练;此外还有一个带有KV缓存和Python解释器的轻量级推理引擎(Thin Engine)。
它通过speedrun.sh脚本在单个8xH100节点上运行,并生成可追踪的report.md报告文件,包含基准测试(CORE/ARC/MMLU/GSM8K/HumanEval)和Web UI。
d32版本(耗时约33小时,成本约1000美元)在CORE/GSM8K基准测试中超越了GPT-2,560M参数模型训练耗时4小时(成本约100美元)。
扩展训练等级:约300美元(d=26,约12小时)的版本在CORE基准上略胜GPT-2,而约1000美元(约41.6小时)的版本则生成了更好的内容连贯性和推理能力。
强化学习(RL)支持仍处于初步阶段。
Manus.im
功能与批评
Manus.im通过API接口支持自治的多步任务,使用Claude 3.5 Sonnet和Qwen等模型进行规划/执行,对话会话支持往复式交互,但需要多次操作才能实现会话持久化。
问题:在原型(Prototype)阶段,其可靠性问题包括:循环错误、服务器过载(报错“tasks cannot be created”),以及访问受限(仅邀请制,候补访问率低于1%)。
批评意见主要集中在:交易型Agent(EA)的高昂成本、安全风险、对外部模型的过度依赖,以及在处理关键任务时的不稳定性。
OpenRouter
功能与问题
AI-SDK集成:OpenRouter作为Vercel AI SDK的提供商,支持超过300个模型,并兼容OpenAI的API端点。
ai-sdk在多工具调用场景中,无法完整报告资源使用和成本,仅记录最终消息。
响应头信息中提供了Token使用量和提供商详情,但路由选择和故障转移(Failover)的透明度问题仍然存在。
提供商状态:每周向Anthropic支付约150万美元以获取模型访问权限,其积分可能会在一年后过期(处于Beta测试阶段)。
LayerFort因其“无限访问”的声明不可信,已被社区标记为潜在的欺诈项目,社区对其Agent的可信度和速率限制机制表示不信任。
其他研究与项目
MegaFold项目
2025年6月开源了AF-3训练系统,通过Triton内核、预先缓存(Early Caching)以及算子融合(Operator Fusion)技术,对EvoAttention进行了优化。
支持比PyTorch基准长1.35倍序列(640/768),内存减少1.12倍/1.23倍,时间减少1.73倍在H100/H200上。
匹配基准损失,在GPU上性能可移植。
Modular Context Protocol(MCP)模块化上下文协议
提案:2025年6月18日规范添加结构化工具输出、OAuth授权、支持服务器端发起交互的“引出”(Elicitation)机制,以及安全最佳实践。
9月更新:正式治理/SEP流程、无状态运行时环境下的流式HTTP协议(Streamable HTTP)、服务器发现的MCP Registry预览。
与Semantic Kernel/Azure OpenAI集成,支持Gemini。
SEAL框架(Nous Research AI)
自适应LLM(Self-Adapting LLMs, SEAL)框架通过强化学习(RL)在“自生成编辑”任务上进行训练,显著提升了知识整合(Knowledge Integration)能力(准确率47.0%)和Few-shot泛化能力(72.5% ARC-AGI)。
2025年9月更新:随模型大小扩展,集成RL缓解遗忘,1.5倍 rollout加速,在单H100上训练32B。
Mamba 3架构
Mamba 3(2025年)采用选择性状态空间模型(SSM)实现了线性复杂度,在长上下文任务(例如128K+的上下文信息召回)上超越RWKV-7,但需更多计算。
RWKV-7模型中,tokenShift取代了conv1d操作以提升效率,RWKV-SAM在分割中实现Transformer 2倍加速,在分类上优于Vision Mamba。
低精度模型训练
QeRL:2025年10月发布的NVFP4量化强化学习(RL)技术,支持在单块H100上训练32B的LLM模型(实现1.5倍的Rollout加速),其中AQN机制提升了探索效率(在GSM8K/MATH上获得更快的奖励)。
超越16位LoRA/QLoRA(90.8%/77.4%)。
LOTION:低精度(FP4)量化损失平滑技术,用于稳定超低精度的训练梯度,与QeRL集成后实现了1.23倍的内存占用减少。
Unsloth AI平台
该微调/强化学习(RL)库支持Qwen3-VL(235B)模型,实现了1.7倍的速度提升和60%的显存(VRAM)占用减少。
支持GGUF格式中的动态2.0量化,新增GRPO/VLM支持;Qwen3-30B-A3B模型可实现全参数微调/8位量化,仅需17.5GB显存。
Windsurf(集成开发环境IDE)
功能优于Cursor(快速上下文子Agent:代码弹出速度快20倍,超过2800 TPS)、基于最新的VS Code版本、更优惠的定价(Claude Haiku 4.5采取1:1积分消耗比),并新增MCP面板。
AI Granny虚拟影响者
AI生成的影响者(@grannyspills)接近200万Instagram粉丝,原型Agent“Daisy”能通过礼貌或“烦人”的电话通话来浪费诈骗者的时间,该原型项目在伦理和安全方面仍存在潜在担忧。
ReductoAI公司
融资与增长:于2025年10月14日完成7500万美元的B轮融资,由a16z领投,累计融资总额达到1.08亿美元。
月度处理量实现了6倍增长,已为Airtable/Scale等企业处理超过10亿页文档,从而加速了文档智能模型的研究与产品落地。
LMArena平台
问题:模型卡顿/聊天记录丢失/网站错误、服务器无响应(401/400错误)、多轮对话中上下文信息丢失,以及浏览器验证失败(Firefox)。
排行榜新增了模型,但也面临着“数据作弊”(Gaming)的指控(例如,通过项目符号列表绕过限制)。
更多交流,可添加本人微信
(请附姓名/单位/关注领域)
 |
|