找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 469|回复: 0

7月7日AI资讯汇总|谷歌开源AI智能体Gemini CLI更新!支持音频和视频处理!Claude Neptune v3即将发布

[复制链接]
发表于 2025-7-7 19:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
🌟
07月07日 AI资讯

【AI 模型/应用】
    谷歌:开源AI智能体Gemini CLI 更新,新增了对音频和视频内容处理的支持,并有多项功能改进。Claude: 即将发布模型 Claude Neptune v3,据测试用户称“该模型数学能力极强,或优于o3 Pro”Opencode:Claude Code开源替代,可本地化部署和配置。OpenDia:Dia 的开源替代,浏览器AI 助手,可在Chrome等浏览器中使用。

【AI 视频/图像】
    GenStash :Midjourney的辅助工具,可以快速管理提示词及sref内容,综合多sref查看效果,目前处于排队中。FLUX Kontext Relight: 基于 LoRA 训练的重新光照模型。LongAnimation:长动画视频智能上色。海螺AI:Hailuo Max Plan(尊享会员)已推出,生成速度更快、全高清且无限制使用。

【AI 3D】
    LiteReality:将 RGB-D 扫描转换为3D场景,具有高质量的网格、PBR 材质和铰接式物体。
🤖️AI应用/模型

谷歌:开源AI智能体Gemini CLI 更新,新增了对音频和视频内容处理的支持,并有多项功能改进。

谷歌开源AI智能体Gemini CLI 更新,主要更新内容:
    音频和视频支持:现在可以直接在Gemini CLI中处理音频和视频内容。底层框架升级:升级到Ink 6和React 19Markdown文件导入:支持导入其他 md文件,方便内容复用。HTTP MCP服务器headers支持:增强了与MCP服务器的集成能力。Markdown表格渲染可以使用 VSCodium或 Neovim修改内容重构历史记录压缩:优化了历史记录的存储和处理方式。新增/privacy命令:允许用户查看和更改隐私设置,提升隐私管理能力。增加无限循环保护:为客户端增加了防止无限循环的机制。

w1.jpg

🌟地址:

https://github.com/google-gemini/gemini-cli

Claude:即将发布模型 Claude Neptune v3

部分内部测试用户表示,其数学能力较强,在一些数学测试中与 o3 Pro相当甚至优于o3 Pro。

w2.jpg

🌟信息来源:

https://x.com/testingcatalog/status/1940879345226338697

Opencode:Claude Code开源替代,可本地化部署和配置

Opencode是一个AI编码代理,旨在作为Claude Code的开源替代方案,支持在终端中使用。

它不与任何特定提供商绑定,推荐使用Anthropic,但也可与OpenAI、Google甚至本地模型配合使用,并专注于TUI体验。

特点:
    响应迅速、原生、可主题化的终端 UI。自动加载正确的 LSP,因此 LLM 犯的错误更少。让多个代理同时处理同一个项目。创建可共享的链接至任何会话以供参考或调试。

w3.jpg

🌟地址:

https://github.com/sst/opencode

OpenDia:Dia的开源替代,浏览器AI助手

OpenDia是一个开源的浏览器AI助手,旨在作为Dia的替代品,允许AI模型自动控制用户的浏览器。它利用用户已有的登录账户、保存的密码、cookies和浏览历史等,无需切换浏览器即可无缝工作,支持包括Chrome和Arc在内的任何基于Chromium的浏览器。

w4.jpg

针对Twitter/X、LinkedIn、Facebook等社交平台提供专门的绕过检测功能,所有操作都在本地运行,用户数据不会上传到云端。

w5.jpg

官方推荐的使用场景:

w6.jpg

🌟地址:

https://github.com/aaronjmars/opendia/

🤖️AI视频/图像

GenStash :Midjourney使用者的辅助工具,快速整理管理提示词与sref值,可综合多sref看效果

GenStash是一款专为Midjourney用户设计的辅助工具,解决Midjourney用户在管理大量提示词和风格参考时遇到的混乱问题,提升工作效率。

GenStash可以快速整理提示词库,管理sref(风格参考),并支持综合多个sref以查看效果。

并且支持参数数据导入与导出,快速创建备份。

w7.jpg

官方宣传视频(分类管理sref值):

官方宣传视频(随机化sref值):

🌟官方地址:

https://genstash.app/#beta

FLUX Kontext Relight: 基于 LoRA 训练的重新光照模型

FLUX Kontext Relight是一个基于LoRA(Low-Rank Adaptation)训练的重新光照模型,使用 kontext[dev] LoRA- 针对优化照明进行微调编辑,旨在对场景进行重新光照处理。用户可以上传图片,并选择不同的光照风格和方向,以实现图像的重新光照效果。

官方宣传视频:

🌟项目地址:

https://huggingface.co/spaces/kontext-community/kontext-relight

LongAnimation:长动画视频智能上色

LongAnimation是一个利用动态全局-局部记忆(Dynamic Global-Local Memory, DGLM)生成长动画的框架,主要用于动画视频的智能上色,目前已发布论文及demo页面。

基于 CogVideoX-1.5 I2V,可在500 帧的范围内提供准确一致的色彩。

可以通过自由改变参考图像的颜色,生成自由度高、长时间色彩一致的视频。

w8.jpg

该方法旨在解决现有短时上色方法在长动画中颜色一致性差的问题,通过动态提取全局历史片段的颜色特征作为全局记忆,并结合最新生成片段的颜色特征作为局部记忆,实现高长时颜色一致性。

官方宣传视频:

🌟项目地址:

https://cn-makers.github.io/long_animation_web/

海螺AI:Hailuo Max Plan(尊享会员) 已推出,提供全高清且无限制视频生成体验

海螺AI提出更高级的订阅套餐Hailuo Max Plan(尊享会员),该订阅旨在提供更快的处理速度、提供全高清分辨率以及无限制的使用体验。

w9.jpg

🌟地址:

https://hailuoai.com/subscribe

🤖️AI 3D

LiteReality:将 RGB-D 扫描转换为3D 场景,具有高质量的网格、PBR 材质和铰接式物体

LiteReality是一款自动化流程,能够将室内环境的RGB-D扫描转换为3D场景。

LiteReality 不仅能够重建视觉上与现实相似的场景,还支持图形流程所必需的关键特性,例如对象个体性、清晰度、高质量基于物理的渲染材质以及基于物理的交互。

LiteReality 的核心首先是进行场景理解,并借助结构化场景图将结果解析为连贯的 3D 布局和对象。然后,它通过从精选的资源数据库中检索视觉上最相似的 3D 艺术家制作模型来重建场景。

w10.jpg

之后,材质绘制模块通过恢复高质量、空间变化的材质来增强检索到的对象的真实感。

w11.jpg

最后,将重建的场景集成到模拟引擎中,并应用基本物理属性来实现交互行为。

这些场景中的所有物体都以高质量的网格和PBR(基于物理渲染)材质呈现,与真实世界的外观相匹配,并且包含铰接式物体,可直接集成到图形渲染和物理交互管道中。适用于AR/VR、游戏、机器人模拟和数字孪生等场景。

🌟项目地址:

https://litereality.github.io/

⚠️部分内容由AI生成

💗有任何疑问,请提前联系邮箱:alolg@163.com

求一波关注!点赞!转发
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-21 21:19 , Processed in 0.138071 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表