7月7日AI资讯汇总|谷歌开源AI智能体Gemini CLI更新!支持音频和视频处理!Claude Neptune v3即将发布
作者:微信文章🌟
07月07日 AI资讯
【AI 模型/应用】
谷歌:开源AI智能体Gemini CLI 更新,新增了对音频和视频内容处理的支持,并有多项功能改进。Claude: 即将发布模型 Claude Neptune v3,据测试用户称“该模型数学能力极强,或优于o3 Pro”Opencode:Claude Code开源替代,可本地化部署和配置。OpenDia:Dia 的开源替代,浏览器AI 助手,可在Chrome等浏览器中使用。
【AI 视频/图像】
GenStash :Midjourney的辅助工具,可以快速管理提示词及sref内容,综合多sref查看效果,目前处于排队中。FLUX Kontext Relight: 基于 LoRA 训练的重新光照模型。LongAnimation:长动画视频智能上色。海螺AI:Hailuo Max Plan(尊享会员)已推出,生成速度更快、全高清且无限制使用。
【AI 3D】
LiteReality:将 RGB-D 扫描转换为3D场景,具有高质量的网格、PBR 材质和铰接式物体。
🤖️AI应用/模型
谷歌:开源AI智能体Gemini CLI 更新,新增了对音频和视频内容处理的支持,并有多项功能改进。
谷歌开源AI智能体Gemini CLI 更新,主要更新内容:
音频和视频支持:现在可以直接在Gemini CLI中处理音频和视频内容。底层框架升级:升级到Ink 6和React 19Markdown文件导入:支持导入其他 md文件,方便内容复用。HTTP MCP服务器headers支持:增强了与MCP服务器的集成能力。Markdown表格渲染可以使用 VSCodium或 Neovim修改内容重构历史记录压缩:优化了历史记录的存储和处理方式。新增/privacy命令:允许用户查看和更改隐私设置,提升隐私管理能力。增加无限循环保护:为客户端增加了防止无限循环的机制。
🌟地址:
https://github.com/google-gemini/gemini-cli
Claude:即将发布模型 Claude Neptune v3
部分内部测试用户表示,其数学能力较强,在一些数学测试中与 o3 Pro相当甚至优于o3 Pro。
🌟信息来源:
https://x.com/testingcatalog/status/1940879345226338697
Opencode:Claude Code开源替代,可本地化部署和配置
Opencode是一个AI编码代理,旨在作为Claude Code的开源替代方案,支持在终端中使用。
它不与任何特定提供商绑定,推荐使用Anthropic,但也可与OpenAI、Google甚至本地模型配合使用,并专注于TUI体验。
特点:
响应迅速、原生、可主题化的终端 UI。自动加载正确的 LSP,因此 LLM 犯的错误更少。让多个代理同时处理同一个项目。创建可共享的链接至任何会话以供参考或调试。
🌟地址:
https://github.com/sst/opencode
OpenDia:Dia的开源替代,浏览器AI助手
OpenDia是一个开源的浏览器AI助手,旨在作为Dia的替代品,允许AI模型自动控制用户的浏览器。它利用用户已有的登录账户、保存的密码、cookies和浏览历史等,无需切换浏览器即可无缝工作,支持包括Chrome和Arc在内的任何基于Chromium的浏览器。
针对Twitter/X、LinkedIn、Facebook等社交平台提供专门的绕过检测功能,所有操作都在本地运行,用户数据不会上传到云端。
官方推荐的使用场景:
🌟地址:
https://github.com/aaronjmars/opendia/
🤖️AI视频/图像
GenStash :Midjourney使用者的辅助工具,快速整理管理提示词与sref值,可综合多sref看效果
GenStash是一款专为Midjourney用户设计的辅助工具,解决Midjourney用户在管理大量提示词和风格参考时遇到的混乱问题,提升工作效率。
GenStash可以快速整理提示词库,管理sref(风格参考),并支持综合多个sref以查看效果。
并且支持参数数据导入与导出,快速创建备份。
官方宣传视频(分类管理sref值):
官方宣传视频(随机化sref值):
🌟官方地址:
https://genstash.app/#beta
FLUX Kontext Relight: 基于 LoRA 训练的重新光照模型
FLUX Kontext Relight是一个基于LoRA(Low-Rank Adaptation)训练的重新光照模型,使用 kontext LoRA- 针对优化照明进行微调编辑,旨在对场景进行重新光照处理。用户可以上传图片,并选择不同的光照风格和方向,以实现图像的重新光照效果。
官方宣传视频:
🌟项目地址:
https://huggingface.co/spaces/kontext-community/kontext-relight
LongAnimation:长动画视频智能上色
LongAnimation是一个利用动态全局-局部记忆(Dynamic Global-Local Memory, DGLM)生成长动画的框架,主要用于动画视频的智能上色,目前已发布论文及demo页面。
基于 CogVideoX-1.5 I2V,可在500 帧的范围内提供准确一致的色彩。
✨
可以通过自由改变参考图像的颜色,生成自由度高、长时间色彩一致的视频。
该方法旨在解决现有短时上色方法在长动画中颜色一致性差的问题,通过动态提取全局历史片段的颜色特征作为全局记忆,并结合最新生成片段的颜色特征作为局部记忆,实现高长时颜色一致性。
官方宣传视频:
🌟项目地址:
https://cn-makers.github.io/long_animation_web/
海螺AI:Hailuo Max Plan(尊享会员) 已推出,提供全高清且无限制视频生成体验
海螺AI提出更高级的订阅套餐Hailuo Max Plan(尊享会员),该订阅旨在提供更快的处理速度、提供全高清分辨率以及无限制的使用体验。
🌟地址:
https://hailuoai.com/subscribe
🤖️AI 3D
LiteReality:将 RGB-D 扫描转换为3D 场景,具有高质量的网格、PBR 材质和铰接式物体
LiteReality是一款自动化流程,能够将室内环境的RGB-D扫描转换为3D场景。
LiteReality 不仅能够重建视觉上与现实相似的场景,还支持图形流程所必需的关键特性,例如对象个体性、清晰度、高质量基于物理的渲染材质以及基于物理的交互。
LiteReality 的核心首先是进行场景理解,并借助结构化场景图将结果解析为连贯的 3D 布局和对象。然后,它通过从精选的资源数据库中检索视觉上最相似的 3D 艺术家制作模型来重建场景。
之后,材质绘制模块通过恢复高质量、空间变化的材质来增强检索到的对象的真实感。
最后,将重建的场景集成到模拟引擎中,并应用基本物理属性来实现交互行为。
这些场景中的所有物体都以高质量的网格和PBR(基于物理渲染)材质呈现,与真实世界的外观相匹配,并且包含铰接式物体,可直接集成到图形渲染和物理交互管道中。适用于AR/VR、游戏、机器人模拟和数字孪生等场景。
🌟项目地址:
https://litereality.github.io/
⚠️部分内容由AI生成
💗有任何疑问,请提前联系邮箱:alolg@163.com
求一波关注!点赞!转发
页:
[1]