【7月7日AI资讯汇总|谷歌开源AI智能体Gemini CLI更新!支持音频和视频处理!Claude Neptune v3即将发布】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-7-7 19:31

7月7日AI资讯汇总|谷歌开源AI智能体Gemini CLI更新!支持音频和视频处理!Claude Neptune v3即将发布

作者：微信文章
🌟
07月07日 AI资讯

【AI 模型/应用】
谷歌：开源AI智能体Gemini CLI 更新，新增了对音频和视频内容处理的支持，并有多项功能改进。Claude：即将发布模型 Claude Neptune v3，据测试用户称“该模型数学能力极强，或优于o3 Pro”Opencode：Claude Code开源替代，可本地化部署和配置。OpenDia：Dia 的开源替代，浏览器AI 助手，可在Chrome等浏览器中使用。

【AI 视频/图像】
GenStash ：Midjourney的辅助工具，可以快速管理提示词及sref内容，综合多sref查看效果，目前处于排队中。FLUX Kontext Relight：基于 LoRA 训练的重新光照模型。LongAnimation：长动画视频智能上色。海螺AI：Hailuo Max Plan（尊享会员）已推出，生成速度更快、全高清且无限制使用。

【AI 3D】
LiteReality：将 RGB-D 扫描转换为3D场景，具有高质量的网格、PBR 材质和铰接式物体。
🤖️AI应用/模型

谷歌：开源AI智能体Gemini CLI 更新，新增了对音频和视频内容处理的支持，并有多项功能改进。

谷歌开源AI智能体Gemini CLI 更新，主要更新内容：
音频和视频支持：现在可以直接在Gemini CLI中处理音频和视频内容。底层框架升级：升级到Ink 6和React 19Markdown文件导入：支持导入其他 md文件，方便内容复用。HTTP MCP服务器headers支持：增强了与MCP服务器的集成能力。Markdown表格渲染可以使用 VSCodium或 Neovim修改内容重构历史记录压缩：优化了历史记录的存储和处理方式。新增/privacy命令：允许用户查看和更改隐私设置，提升隐私管理能力。增加无限循环保护：为客户端增加了防止无限循环的机制。

🌟地址：

https://github.com/google-gemini/gemini-cli

Claude：即将发布模型 Claude Neptune v3

部分内部测试用户表示，其数学能力较强，在一些数学测试中与 o3 Pro相当甚至优于o3 Pro。

🌟信息来源：

https://x.com/testingcatalog/status/1940879345226338697

Opencode：Claude Code开源替代，可本地化部署和配置

Opencode是一个AI编码代理，旨在作为Claude Code的开源替代方案，支持在终端中使用。

它不与任何特定提供商绑定，推荐使用Anthropic，但也可与OpenAI、Google甚至本地模型配合使用，并专注于TUI体验。

特点：
响应迅速、原生、可主题化的终端 UI。自动加载正确的 LSP，因此 LLM 犯的错误更少。让多个代理同时处理同一个项目。创建可共享的链接至任何会话以供参考或调试。

🌟地址：

https://github.com/sst/opencode

OpenDia：Dia的开源替代，浏览器AI助手

OpenDia是一个开源的浏览器AI助手，旨在作为Dia的替代品，允许AI模型自动控制用户的浏览器。它利用用户已有的登录账户、保存的密码、cookies和浏览历史等，无需切换浏览器即可无缝工作，支持包括Chrome和Arc在内的任何基于Chromium的浏览器。

针对Twitter/X、LinkedIn、Facebook等社交平台提供专门的绕过检测功能，所有操作都在本地运行，用户数据不会上传到云端。

官方推荐的使用场景：

🌟地址：

https://github.com/aaronjmars/opendia/

🤖️AI视频/图像

GenStash ：Midjourney使用者的辅助工具，快速整理管理提示词与sref值，可综合多sref看效果

GenStash是一款专为Midjourney用户设计的辅助工具，解决Midjourney用户在管理大量提示词和风格参考时遇到的混乱问题，提升工作效率。

GenStash可以快速整理提示词库，管理sref（风格参考），并支持综合多个sref以查看效果。

并且支持参数数据导入与导出，快速创建备份。

官方宣传视频（分类管理sref值）：

官方宣传视频（随机化sref值）：

🌟官方地址：

https://genstash.app/#beta

FLUX Kontext Relight：基于 LoRA 训练的重新光照模型

FLUX Kontext Relight是一个基于LoRA（Low-Rank Adaptation）训练的重新光照模型，使用 kontext LoRA- 针对优化照明进行微调编辑，旨在对场景进行重新光照处理。用户可以上传图片，并选择不同的光照风格和方向，以实现图像的重新光照效果。

官方宣传视频：

🌟项目地址：

https://huggingface.co/spaces/kontext-community/kontext-relight

LongAnimation：长动画视频智能上色

LongAnimation是一个利用动态全局-局部记忆（Dynamic Global-Local Memory, DGLM）生成长动画的框架，主要用于动画视频的智能上色，目前已发布论文及demo页面。

基于 CogVideoX-1.5 I2V，可在500 帧的范围内提供准确一致的色彩。
✨
可以通过自由改变参考图像的颜色，生成自由度高、长时间色彩一致的视频。

该方法旨在解决现有短时上色方法在长动画中颜色一致性差的问题，通过动态提取全局历史片段的颜色特征作为全局记忆，并结合最新生成片段的颜色特征作为局部记忆，实现高长时颜色一致性。

官方宣传视频：

🌟项目地址：

https://cn-makers.github.io/long_animation_web/

海螺AI：Hailuo Max Plan（尊享会员）已推出，提供全高清且无限制视频生成体验

海螺AI提出更高级的订阅套餐Hailuo Max Plan（尊享会员），该订阅旨在提供更快的处理速度、提供全高清分辨率以及无限制的使用体验。

🌟地址：

https://hailuoai.com/subscribe

🤖️AI 3D

LiteReality：将 RGB-D 扫描转换为3D 场景，具有高质量的网格、PBR 材质和铰接式物体

LiteReality是一款自动化流程，能够将室内环境的RGB-D扫描转换为3D场景。

LiteReality 不仅能够重建视觉上与现实相似的场景，还支持图形流程所必需的关键特性，例如对象个体性、清晰度、高质量基于物理的渲染材质以及基于物理的交互。

LiteReality 的核心首先是进行场景理解，并借助结构化场景图将结果解析为连贯的 3D 布局和对象。然后，它通过从精选的资源数据库中检索视觉上最相似的 3D 艺术家制作模型来重建场景。

之后，材质绘制模块通过恢复高质量、空间变化的材质来增强检索到的对象的真实感。

最后，将重建的场景集成到模拟引擎中，并应用基本物理属性来实现交互行为。

这些场景中的所有物体都以高质量的网格和PBR（基于物理渲染）材质呈现，与真实世界的外观相匹配，并且包含铰接式物体，可直接集成到图形渲染和物理交互管道中。适用于AR/VR、游戏、机器人模拟和数字孪生等场景。

🌟项目地址：

https://litereality.github.io/

⚠️部分内容由AI生成

💗有任何疑问，请提前联系邮箱：alolg@163.com

求一波关注！点赞！转发

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

7月7日AI资讯汇总|谷歌开源AI智能体Gemini CLI更新!支持音频和视频处理!Claude Neptune v3即将发布