我爱免费 发表于 2025-5-28 22:04

腾讯AI实验室重磅发布!Crab模型:让AI像人类一样理解视听场景

作者:微信文章
         



      
            龙哥寄语:
想要一个能同时理解音频和视觉信息的AI模型吗?Crab带你进入多模态场景理解的新时代!这个来自腾讯AI实验室的神奇"螃蟹"模型,不仅能听懂声音、看懂画面,还能像人类一样把视听信息完美融合!🐙      
      



论文标题:
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation发表日期:
2025年3月作者:
Henghui Du, Guangyao Li, Chang Zhou, Chunjie Zhang, Alan Zhao, Di Hu发表单位:
中国人民大学高瓴人工智能学院、清华大学、腾讯PCG原文链接:
https://arxiv.org/pdf/2503.13068开源代码链接:
https://github.com/GeWu-Lab/Crab
页: [1]
查看完整版本: 腾讯AI实验室重磅发布!Crab模型:让AI像人类一样理解视听场景