我爱免费 发表于 2025-6-5 15:41

6月5日AI资讯汇总|超强视频修改能力!日常视频变电影大片!Luma推出Modify Video!OpenAI助力企业环境实用性

作者:微信文章
🌟
06月05日 AI资讯

【AI 视频】
Luma AI :推出“修改视频”(Modify Video)功能,基于视频转绘或局部编辑

【AI 绘画】
Runway :推出基于用户自拍场景的移动端服务,可选择预设进行个性自拍

【AI 音频】
Bland TTS:只需 1 个音频片段即可克隆任何声音,还能复制狗叫、汽车鸣笛等各种音效

【AI 应用/模型】
OpenAI:两大更新“深度使用MCP连接企业内部数据”和“会议记录功能”,助力企业环境中的实用性Cursor :正式发布 1.0 版本,带来了用于代码审查的 BugBot、一键式 MCP 设置等内容Firecrawl :推出新功能 search API,实现后台搜索 + 抓取网页内容并返回


🤖️AI 视频

Luma AI :推出“修改视频”(Modify Video)功能,基于视频转绘或局部编辑

Luma AI推出了"修改视频"(Modify Video)功能,突破性的视频编辑技术,支持基于视频转绘或局部编辑。

Modify Video现已在Dream Machine: Ray 2上提供,最大支持10秒视频时长。原始分辨率支持 16:9 (720p) 格式。

官方效果视频:

主要功能包括:
动作和表演捕捉操控:

从任何视频片段中提取全身、面部或唇同步动作,并驱动新角色、道具或摄像机路径
重新设计、重新纹理和世界交换:

在保持动作和构图的同时改变场景外观
隔离运动VFX和场景元素编辑:

编辑单个元素如服装、面部、道具或天空,无需更改整个镜头

该功能提供三种预设模式:



Adhere(遵循):

紧密遵循原始视频的外观和结构,主要优先考虑重新纹理

Flex(灵活):

平衡模型创造力与输入保真度,适合受控转换

Reimagine(重新构想):

优先考虑创作自由,实现全场景重新解释

🌟地址:

https://lumalabs.ai/blog/news/introducing-modify-video

Heygen:推出AI Studio,AI视频编辑工具

Heygen推出AI Studio(AI视频编辑器),允许用户使用任何演员、声音、脚本等制作商业、企业和社交媒体视频。用户能够精确控制虚拟角色的说话方式、动作和表情。

AI Studio的核心特点是其文本编辑器,用户驱动虚拟角色说话,用户可以控制语调、表达方式、手势和情感,所有这些都在一个无缝平台中完成。

特点:
Voice Director /语音克隆与控制

虚拟形象复制用户专属声音,利用文本驱动和角色图像对话,捕捉独特的旋律、语调和情感细腻
手势控制

对于使用自己视频素材的用户,手势控制可让用户将脚本中的特定单词或短语与预先录制的手势关联起来,从而实现精准且富有冲击力的视觉提示。
在平台上可以添加字幕、音乐、转场


即将推出的编辑功能的预览:
摄像机控制高级动态元素:通过无缝集成和可定制的专业设计的动态图形和动画提升视频。魔法应用 B-roll:轻松找到并集成与脚本和视频整体基调智能匹配的相关 B-roll 镜头。生成元素:探索人工智能的力量,按需生成独特的视觉元素,以满足特定需求和创意愿景。基于提示的编辑:描述希望看到的视觉变化,让 AI 智能地编辑 B-roll,使后期制作比以往更快、更直观。

🌟地址:

app.heygen.com/home

https://www.heygen.com/blog/introducing-ai-studio#the-way-you-create-videos-has-transformed--welcome-to-ai-studio

🤖️AI音频

Bland TTS:只需 1 个音频片段即可克隆任何声音

Bland AI推出了由大型语言模型驱动的变革性文本转语音系统,只需一个样本就能高度复制某个人的说话风格。这项基于大型语言模型的技术不仅能模仿人类说话,还能复制狗叫、汽车鸣笛等各种音效,并支持精确控制情感表达。

这项技术的核心创新在于其架构方法,不再将TTS视为一系列转换步骤,而是采用生成式方法,其中意义和表达深度交织。Bland的工程团队利用大型语言模型的预测能力,训练模型直接从文本输入预测音频表示。

Bland TTS的技术实现包括:
使用专门的SNAC(频谱归一化音频编解码器)标记器,保留基本声学特性扩展标准解码器的transformer架构,整合特殊注意力机制通过上下文学习、明确风格标记和文本对齐实现风格控制自然整合非语音声音,如动物声音、机械噪音等

这一突破使得语音合成技术迈入新时代,为内容创作、辅助技术和娱乐产业提供了强大工具。

官方视频:

🌟地址:

https://www.bland.ai/blogs/new-tts-announcement

🤖️AI 视频

Runway :推出基于用户自拍场景的移动端服务,可选择预设进行个性自拍

Runway推出了一项基于用户自拍场景的移动端服务,允许用户选择预设进行个性化自拍,允许用户选择预设进行个性化自拍,现在可在 Runway iOS 应用程序上使用

官方视频:

🌟信息地址:

https://apps.apple.com/us/app/runwayml/id1665024375

🤖️AI应用

Firecrawl推出search API,实现一站式网页搜索与抓取

Firecrawl 近期推出了一项名为 search API 的重要新功能,旨在革新AI应用获取和处理网络数据的方式。该API能在服务器后端高效执行网络搜索任务,并自动抓取目标搜索结果页面的详细内容。其独特之处在于,能够将原始的网络数据即时转换为对大型语言模型(LLM)更为友好的结构化格式,从而极大地方便AI模型直接读取、理解和利用最新的在线信息。

Firecrawl 的搜索 API 允许用户执行网络搜索并可选择在一次操作中抓取搜索结果。
选择特定的输出格式(markdown、HTML、链接、截图)使用可自定义的参数(语言、国家等)搜索网络可选择以各种格式从搜索结果中检索内容控制结果数量并设置超时

🌟信息地址:

https://docs.firecrawl.dev/features/search

https://docs.firecrawl.dev/api-reference/endpoint/search

OpenAI直播两大更新:深度使用MCP连接企业内部数据和会议记录功能,助力企业环境中的实用性

凌晨OpenAI直播更新两大功能:深度整合MCP协议和新增会议记录功能,为企业和团队提供更高效的智能协作体验。

ChatGPTConnectors(连接器):ChatGPT现在可以连接到更多内部数据源并提取实时上下文,针对Plus和Pro用户支持链接Outlook、Teams、Google Drive等多种服务。通过MCP(Model Control Protocol)协议的深度整合,ChatGPT能够更有效地处理和分析来自各种内部系统的数据,提供更加个性化和精准的回应。



同时,OpenAI向macOS用户推出了会议记录模式,该功能允许用户记录会议、头脑风暴或语音备忘录,ChatGPT会自动转录内容,提取关键要点,并将其转化为行动项目、计划或摘要。这一功能目前面向ChatGPT Team用户开放,未来将向Plus、Pro、Enterprise和Edu用户推广。

这两项更新显著增强了ChatGPT在企业环境中的实用性,使其成为更强大的工作助手。

🌟完整直播视频:

https://www.youtube.com/watch?v=9lSRViLugE0&t=10s

Cursor:发布1.0版本

专注于AI辅助编程的代码编辑器 Cursor 正式发布了其里程碑式的 1.0 版本,标志着这款工具在功能和稳定性上迈入了一个全新的成熟阶段。此版本带来了用于代码审查的 BugBot、一键式 MCP 设置、Jupyter 支持以及 Background Agent 的普遍可用性。


BugBot 功能:它能够智能地辅助开发者进行代码审查,从而更有效地发现潜在错误并提升代码质量;“记忆”(Memories):使得AI能够从过往的交互与修正中学习,提供更具个性化和上下文感知能力的辅助;简化的一键式MCP(可能指Model Control Plane)设置流程,降低了高级功能的配置门槛;新增对 Jupyter Notebook 的原生支持,Agent 现在可以直接在 Jupyter 内部创建和编辑多个单元格,满足数据科学家和研究人员的需求;Background Agent 功能的全面开放,允许AI在后台异步处理多项编码任务。

Cursor 1.0 的发布,旨在通过这些更深度、更智能的AI辅助功能,全方位提升开发者的编程效率与体验。

🌟地址:

https://www.cursor.com/ja/changelog/1-0

⚠️部分内容由AI生成

💗有任何疑问,请提前联系邮箱:alolg@163.com

求一波关注!点赞!转发!
页: [1]
查看完整版本: 6月5日AI资讯汇总|超强视频修改能力!日常视频变电影大片!Luma推出Modify Video!OpenAI助力企业环境实用性