11:51 VITA-1.5:开源多模态视频语音大模型 VITA-1.5 是一个开源的多模态视频语音大模型,类似于 GPT-4o,支持实时视频语音交互。它基于 Qwen2.5 模型,具备随时打断的功能。演示视频效果不错,值得一看。佬们可以在VITA-1.5 GitHub 仓库了解更多。 来源:三花快讯
11:51 阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理 VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件,能够对用户定义的区域进行细粒度的感知、推理和检索,支持单帧和多帧输入。简单来说,就是利用 LLM 来理解视频内容。目前,该模型的代码和模型均已开源。 来源:三花快讯
00:00 生成式人工智能投资在2024年达到新高 2024 年生成式 AI 投资创历史新高,全球融资达 560 亿美元,同比增长 192%。OpenAI、Anthropic、xAI 等头部企业持续获得大额融资并推出创新产品。美国公司占据主导地位,但中国、欧洲等地也有 Moonshot AI、Mistral 等企业获得显著投资。生成式 AI 在编程助手、媒体创作等垂直领域竞争加剧,但技术挑战和高计算成本可能限制中小企业的持续创新。基础设施层企业(如数据中心)受益显著,预计全球 AI 数据中心年支出将达 2500 亿美元。未来,行业可能面临估值泡沫和技术瓶颈的双重挑战。 来源:TechCrunch AI