AI新闻 | 第 2 页

已选标签:

生成模型

AI视频

1月 7日

2 条新闻

11:51

VITA-1.5：开源多模态视频语音大模型

VITA-1.5 是一个开源的多模态视频语音大模型，类似于 GPT-4o，支持实时视频语音交互。它基于 Qwen2.5 模型，具备随时打断的功能。演示视频效果不错，值得一看。佬们可以在VITA-1.5 GitHub 仓库了解更多。

来源：三花快讯

11:51

阿里开源 VideoRefer：利用 LLM 实现视频对象感知与推理

VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件，能够对用户定义的区域进行细粒度的感知、推理和检索，支持单帧和多帧输入。简单来说，就是利用 LLM 来理解视频内容。目前，该模型的代码和模型均已开源。

来源：三花快讯

1月 4日

1 条新闻

00:00

2024 年生成式 AI 投资创历史新高，全球融资达 560 亿美元，同比增长 192%。OpenAI、Anthropic、xAI 等头部企业持续获得大额融资并推出创新产品。美国公司占据主导地位，但中国、欧洲等地也有 Moonshot AI、Mistral 等企业获得显著投资。生成式 AI 在编程助手、媒体创作等垂直领域竞争加剧，但技术挑战和高计算成本可能限制中小企业的持续创新。基础设施层企业（如数据中心）受益显著，预计全球 AI 数据中心年支出将达 2500 亿美元。未来，行业可能面临估值泡沫和技术瓶颈的双重挑战。

来源：TechCrunch AI

VITA-1.5：开源多模态视频语音大模型

阿里开源 VideoRefer：利用 LLM 实现视频对象感知与推理

生成式人工智能投资在2024年达到新高