AI新闻 | AI 地带

标签筛选

已选标签:

AI视频

1月 20日

4 条新闻

16:33

X 正在美国为用户推出专属的垂直视频信息流

社交平台 X 推出垂直视频专区，利用 AI 驱动的推荐算法优化用户体验。此举旨在填补 TikTok 等应用在美国市场的空缺，通过深度学习技术提升视频内容的分发效率和用户粘性。X 此前已推出独立电视应用，显示其在视频领域的持续布局。随着 Meta 等竞争对手推出类似功能，AI 驱动的视频推荐和编辑工具正成为社交平台竞争的关键技术。未来，多模态模型和个性化推荐算法的进一步融合将推动视频内容生态的智能化发展。

来源：TechCrunch AI

13:02

Bluesky推出垂直视频定制信息流

Bluesky 推出垂直视频定制 feed，利用其去中心化协议 AT Protocol 支持开发者构建 TikTok 替代应用，如 Tik.Blue 和 Skylight.Social。此举展示了 AI 驱动的个性化推荐技术在社交媒体中的应用，同时反映了去中心化社交平台的崛起。随着 TikTok 相关争议，Bluesky 用户增长至 2800 万，凸显了 AI 在内容分发和用户体验优化中的关键作用。Meta 和 X 也推出类似功能，表明 AI 驱动的视频内容竞争加剧。

来源：TechCrunch AI

11:23

RAIN：RTX 4090 上的低延迟动画生成系统

RAIN 是由中国科学技术大学推出的一个开源系统，能够在单个 RTX 4090 显卡上实现低延迟（1.5 秒）实时生成动画。目前代码尚未完全发布，在消费级设备的延迟和分辨率仍有提升空间。

来源：三花快讯

01:53

TikTok 恢复在美国的服务

TikTok 在美国的服务中断事件凸显了 AI 技术在跨境数据安全和政策合规中的关键作用。作为依赖 AI 推荐算法的短视频平台，TikTok 的恢复运营依赖于政策明确性和技术基础设施的稳定性。事件反映了 AI 应用在全球化部署中面临的法律风险和算力保障挑战，同时也揭示了 AI 技术在中小企业赋能和用户行为分析中的商业价值。未来，AI 平台的可持续运营将更加依赖于技术创新与政策环境的协同发展。

来源：TechCrunch AI

1月 19日

1 条新闻

05:20

Perplexity AI 提交与 TikTok 合并的投标

Perplexity AI 提出与 TikTok 美国业务合并的提案，旨在通过整合 TikTok 的视频内容增强其 AI 搜索引擎的多模态能力。此举反映了 AI 技术在视频内容理解和搜索领域的应用扩展，同时凸显了 AI 企业在数据获取和商业落地中的战略布局。尽管面临监管挑战，Perplexity 的创新合并模式可能为 AI 与社交媒体融合开辟新路径，推动多模态 AI 技术的进一步发展。

来源：TechCrunch AI

1月 15日

1 条新闻

15:00

Synthesia以21亿美元估值为其B2B人工智能视频平台筹集1.8亿美元

Synthesia 凭借其高度逼真的 AI 虚拟人技术，在企业级视频生成领域取得显著进展，已服务 60,000 家企业，用户达 100 万。最新完成 1.8 亿美元 D 轮融资，估值达 21 亿美元。公司计划扩展亚太市场，并持续优化虚拟人技术，包括提升动作真实性、环境适应性和交互能力。Synthesia 依赖第三方大语言模型和语音技术，专注于产品自研，避免并购。AI 视频功能日益普及，Synthesia 致力于成为企业视频交互的首选平台，同时面临 AI 能耗、版权和伦理等挑战。

来源：TechCrunch AI

1月 13日

2 条新闻

09:47

快手 Kling APP 登陆美区 App Store，安卓版即将推出

快手 Kling APP 登陆美区 App Store，安卓版即将推出

Kling APP 现已正式上架美区 App Store，安卓版本也即将上线。

简单体验了一下，和 Web 版本差不多，支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。

来源：三花快讯

09:47

Adobe FaceLift：单张照片生成高保真 3D 头部模型

Adobe FaceLift：单张照片生成高保真 3D 头部模型

FaceLift 是 Adobe 最新发布的一项技术，仅需一张人脸照片，就能快速生成高保真的 3D 头部模型。

该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图，然后通过 GS-LRM 重建器生成 3D 高斯样条表示，实现全头新视角的合成。

此外，FaceLift 还能处理视频输入，进行 4D 合成，并与 2D 动画技术结合，实现 3D 面部动画。

从官网的一些交互式案例来看，效果还不错，不过不能放大看，恐怖谷效应拉满了。目前这项技术还没有开源，关注我为你持续跟进。

来源：三花快讯

1月 8日

1 条新闻

09:43

英伟达开源 Cosmos 世界模型：助力机器人与自动驾驶数据生成

英伟达开源了 Cosmos 世界模型，这模型支持文生视频和文+视频生视频，主要应用于机器人和自动驾驶领域的大规模合成数据生成。

目前，英伟达已经开放了多个不同的预训练模型，这些模型均支持商业用途。佬友们也可以在线体验下，看看这个模型的实际效果如何。

来源：三花快讯

1月 7日

3 条新闻

12:19

英伟达发布自有品牌的全球模型

英伟达发布自有品牌的全球模型

Nvidia 在 CES 2025 上发布了 Cosmos World Foundation Models (Cosmos WFMs)，这是一系列基于物理感知的视频预测与生成的世界模型。这些模型分为 Nano、Super 和 Ultra 三类，参数规模从 40 亿到 140 亿不等，适用于低延迟、高性能和高保真输出场景。Cosmos WFMs 可用于生成合成数据，支持自动驾驶、机器人等领域的模型训练。Nvidia 还提供了上采样模型、增强现实视频解码器和安全护栏模型，确保负责任的使用。模型训练基于 9000 万亿 token 的多样化数据，涵盖人类交互、环境和工业场景。尽管存在版权争议，Nvidia 强调其数据使用符合法律精神。Cosmos WFMs 的开放性和可定制性为物理 AI 研究和开发提供了强大工具。

来源：TechCrunch AI

11:51

阿里开源 VideoRefer：利用 LLM 实现视频对象感知与推理

阿里开源 VideoRefer：利用 LLM 实现视频对象感知与推理

VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件，能够对用户定义的区域进行细粒度的感知、推理和检索，支持单帧和多帧输入。简单来说，就是利用 LLM 来理解视频内容。目前，该模型的代码和模型均已开源。

来源：三花快讯

11:51

VITA-1.5：开源多模态视频语音大模型

VITA-1.5 是一个开源的多模态视频语音大模型，类似于 GPT-4o，支持实时视频语音交互。它基于 Qwen2.5 模型，具备随时打断的功能。演示视频效果不错，值得一看。佬们可以在VITA-1.5 GitHub 仓库了解更多。

来源：三花快讯

AI 地带(aididai.cn)导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

Copyright © 2023 AI 地带