阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理

1个月前更新 jovi
219 0 0
阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理
VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件,能够对用户定义的区域进行细粒度的感知、推理和检索,支持单帧和多帧输入。简单来说,就是利用 LLM 来理解视频内容。目前,该模型的代码和模型均已开源。

来源:三花快讯

© 版权声明
广告也精彩

相关文章