AI新闻 | AI 地带

1月 20日

5 条新闻

16:33

X 正在美国为用户推出专属的垂直视频信息流

社交平台 X 推出垂直视频专区，利用 AI 驱动的推荐算法优化用户体验。此举旨在填补 TikTok 等应用在美国市场的空缺，通过深度学习技术提升视频内容的分发效率和用户粘性。X 此前已推出独立电视应用，显示其在视频领域的持续布局。随着 Meta 等竞争对手推出类似功能，AI 驱动的视频推荐和编辑工具正成为社交平台竞争的关键技术。未来，多模态模型和个性化推荐算法的进一步融合将推动视频内容生态的智能化发展。

来源：TechCrunch AI

13:49

通义：一分钟生成互动2D卡通角色，Textoon引领新潮流

您的浏览器不支持视频播放。

2D卡通风格在数字角色创作中备受青睐，尤其受年轻观众欢迎。尽管3D技术发展迅速，但Live2D格式的2D卡通角色因其高效、轻量的特点，提供了模拟3D运动的动画效果，无需构建完整的3D模型。最新推出的Textoon方法，基于文本描述生成多样化的2D卡通角色，利用先进的语言和视觉模型，快速生成生动互动的角色，显著提升了创作效率与多样性。

来源：github

13:02

Bluesky推出垂直视频定制信息流

Bluesky 推出垂直视频定制 feed，利用其去中心化协议 AT Protocol 支持开发者构建 TikTok 替代应用，如 Tik.Blue 和 Skylight.Social。此举展示了 AI 驱动的个性化推荐技术在社交媒体中的应用，同时反映了去中心化社交平台的崛起。随着 TikTok 相关争议，Bluesky 用户增长至 2800 万，凸显了 AI 在内容分发和用户体验优化中的关键作用。Meta 和 X 也推出类似功能，表明 AI 驱动的视频内容竞争加剧。

来源：TechCrunch AI

11:23

RAIN：RTX 4090 上的低延迟动画生成系统

RAIN 是由中国科学技术大学推出的一个开源系统，能够在单个 RTX 4090 显卡上实现低延迟（1.5 秒）实时生成动画。目前代码尚未完全发布，在消费级设备的延迟和分辨率仍有提升空间。

来源：三花快讯

01:53

TikTok 恢复在美国的服务

TikTok 在美国的服务中断事件凸显了 AI 技术在跨境数据安全和政策合规中的关键作用。作为依赖 AI 推荐算法的短视频平台，TikTok 的恢复运营依赖于政策明确性和技术基础设施的稳定性。事件反映了 AI 应用在全球化部署中面临的法律风险和算力保障挑战，同时也揭示了 AI 技术在中小企业赋能和用户行为分析中的商业价值。未来，AI 平台的可持续运营将更加依赖于技术创新与政策环境的协同发展。

来源：TechCrunch AI

1月 19日

2 条新闻

23:01

新论文发现人工智能在历史方面表现不佳

最新研究表明，尽管大语言模型（LLMs）在编程等任务中表现出色，但在高级历史考试中表现欠佳。研究团队使用 Hist-LLM 基准测试了 GPT-4、Llama 和 Gemini 等模型，发现 GPT-4 Turbo 的准确率仅为 46%。模型在处理复杂历史问题时，倾向于从显性数据中推断，难以检索到更隐晦的历史知识。此外，模型在特定地区（如撒哈拉以南非洲）的表现较差，暗示训练数据可能存在偏差。研究指出，LLMs 在历史研究领域仍需改进，但未来有望辅助历史学家，特别是在扩展数据覆盖和增加问题复杂性方面。

来源：TechCrunch AI

05:20

Perplexity AI 提交与 TikTok 合并的投标

Perplexity AI 提出与 TikTok 美国业务合并的提案，旨在通过整合 TikTok 的视频内容增强其 AI 搜索引擎的多模态能力。此举反映了 AI 技术在视频内容理解和搜索领域的应用扩展，同时凸显了 AI 企业在数据获取和商业落地中的战略布局。尽管面临监管挑战，Perplexity 的创新合并模式可能为 AI 与社交媒体融合开辟新路径，推动多模态 AI 技术的进一步发展。

来源：TechCrunch AI

1月 15日

4 条新闻

22:33

岩鱼正在帮助企业利用合成数据

Rockfish 是一家利用生成式 AI 创建合成数据的初创公司，旨在解决企业数据孤岛问题。其产品集成 AWS、Azure 等数据库，专注于金融交易、网络安全和供应链等操作数据的实时生成与优化。合成数据市场正快速增长，Rockfish 通过技术差异化（如持续数据摄入）和高质量团队（多位数据科学博士）脱颖而出。该公司已获 600 万美元融资，客户包括 Conviva 和美国军方。随着 AI 训练数据需求增长，合成数据领域竞争加剧，Tonic AI、Mostly AI 等公司也在积极布局。

来源：TechCrunch AI

15:00

Synthesia以21亿美元估值为其B2B人工智能视频平台筹集1.8亿美元

Synthesia 凭借其高度逼真的 AI 虚拟人技术，在企业级视频生成领域取得显著进展，已服务 60,000 家企业，用户达 100 万。最新完成 1.8 亿美元 D 轮融资，估值达 21 亿美元。公司计划扩展亚太市场，并持续优化虚拟人技术，包括提升动作真实性、环境适应性和交互能力。Synthesia 依赖第三方大语言模型和语音技术，专注于产品自研，避免并购。AI 视频功能日益普及，Synthesia 致力于成为企业视频交互的首选平台，同时面临 AI 能耗、版权和伦理等挑战。

来源：TechCrunch AI

09:00

Nvidia支持台湾初创公司MetAI，该公司专注于创建AI驱动的数字孪生

Nvidia 投资台湾初创公司 MetAI，推动 AI 驱动的数字孪生技术发展。MetAI 利用 AI 和 3D 技术，快速生成“SimReady”数字孪生，将 CAD 文件转化为功能化 3D 环境，加速物理 AI 训练和验证。其技术专注于半导体制造、智能仓储和自动化领域，通过生成合成数据优化 AI 模型训练。MetAI 的独特之处在于结合生成模型和 AI 驱动布局，创建适用于机器人等高级自动化系统的数字孪生，弥合仿真与现实的差距。Nvidia 的支持进一步推动了生成物理 AI 的发展，为工业 AI 应用提供更高效的解决方案。

来源：TechCrunch AI

05:47

任天堂Switch 2或于本周公布：截至目前的传闻与事实

Nintendo Switch 2 即将发布，预计将延续前代产品的成功，并可能引入 AI 技术提升游戏体验。尽管具体细节尚未公布，但业界猜测新主机可能在图形处理、多模态交互（如磁吸 Joy-Con）和屏幕尺寸上有所升级。AI 技术的潜在应用包括增强游戏中的智能 NPC 行为、优化图形渲染效率以及通过强化学习提升玩家体验。此外，向后兼容性确保了现有用户的平滑过渡，进一步巩固 Nintendo 在游戏市场的地位。

来源：TechCrunch AI

1月 14日

2 条新闻

10:46

micro_diffusion：2.5 天低成本训练 11.6 亿参数扩散模型

micro_diffusion 是一个开源方法，旨在通过充分利用每一刀从零开始训练大规模扩散模型。

任何人只需使用 8 个 H100 GPU，在短短 2.5 天内，就能以 1890 美元的超低成本，用 3700 万张公开可用的真实和合成图像，训练出一个 11.6 亿参数的稀疏 Transformer。

这比 Stable Diffusion 的训练成本低 118 倍！不过，从论文的基准测试来看，模型生成的图片质量仅略优于 SD1.5，放到现在可能有点不够看。

来源：三花快讯

01:00

Raspberry AI 获得 a16z 2400万美元投资，加速时尚设计进程

Raspberry AI 利用生成式 AI 技术革新时尚设计流程，通过其文本到图像平台，设计师能够快速可视化和迭代设计理念。该平台基于 OpenAI 的 DALL-E 和 Stability AI 的 Stable Diffusion 等图像模型，显著缩短了传统设计周期，从数周缩短至即时生成。Raspberry AI 的独特之处在于其能够准确理解行业特定术语，并支持从草图生成逼真图像，帮助品牌快速决策。公司已获得 2400 万美元 A 轮融资，计划扩展至家居、家具和化妆品设计领域。

来源：TechCrunch AI

1月 13日

3 条新闻

09:47

Adobe FaceLift：单张照片生成高保真 3D 头部模型

FaceLift 是 Adobe 最新发布的一项技术，仅需一张人脸照片，就能快速生成高保真的 3D 头部模型。

该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图，然后通过 GS-LRM 重建器生成 3D 高斯样条表示，实现全头新视角的合成。

此外，FaceLift 还能处理视频输入，进行 4D 合成，并与 2D 动画技术结合，实现 3D 面部动画。

从官网的一些交互式案例来看，效果还不错，不过不能放大看，恐怖谷效应拉满了。目前这项技术还没有开源，关注我为你持续跟进。

来源：三花快讯

09:47

阿里通义团队推出 Qwen Chat：支持全系列 Qwen 模型

Qwen Chat 是阿里通义团队近日上线的一款基于开源的 Open WebUI 的 WebUI，支持 Qwen 全系列模型。

模型包括 Qwen2.5-Plus 对话模型、QwQ 和 QVQ 等推理模型，以及 Qwen2.5-Coder-32B-Instruct 编程模型。

Qwen Chat 支持同时对比多个模型，还即将推出网络搜索、图像生成和语音模式，值得期待。

来源：三花快讯

09:47

快手 Kling APP 登陆美区 App Store，安卓版即将推出

Kling APP 现已正式上架美区 App Store，安卓版本也即将上线。

简单体验了一下，和 Web 版本差不多，支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。

来源：三花快讯

1月 11日

1 条新闻

23:00

英伟达的AI帝国：聚焦其顶级初创投资

Nvidia 在生成式 AI 浪潮中迅速崛起，成为 AI 生态系统的关键推动者。自 ChatGPT 发布以来，其营收和股价大幅增长，并显著加大了对 AI 初创企业的投资。2024 年，Nvidia 参与了 49 轮 AI 公司融资，远超过去四年总和。其投资重点包括 OpenAI、xAI、Inflection 等生成式 AI 领军企业，以及自动驾驶、数据标注等领域的创新公司。Nvidia 通过战略投资扩展 AI 生态系统，推动大模型、自动驾驶、AI 基础设施等技术的商业化落地，展现了其在 AI 产业链中的核心地位。

来源：TechCrunch AI

1月 8日

2 条新闻

09:43

英伟达开源 Cosmos 世界模型：助力机器人与自动驾驶数据生成

英伟达开源了 Cosmos 世界模型，这模型支持文生视频和文+视频生视频，主要应用于机器人和自动驾驶领域的大规模合成数据生成。

目前，英伟达已经开放了多个不同的预训练模型，这些模型均支持商业用途。佬友们也可以在线体验下，看看这个模型的实际效果如何。

来源：三花快讯

06:46

2025 CES 第一天：本田、宝马、X 的胜利时刻，以及首批展厅小工具揭晓

CES 2025 展示了 AI 技术在多个领域的创新应用。Nvidia 的生成式世界模型仿真工具 Cosmos 和云端 AI 超算平台被 Uber 用于自动驾驶技术开发，突显了生成式 AI 在复杂场景模拟中的潜力。BMW 推出基于 AI 的车载界面定制系统，通过屏幕反射实现挡风玻璃显示，展示了 AI 在智能座舱中的创新应用。此外，Acer 和 Razer 推出的游戏设备也体现了 AI 在增强用户体验方面的作用。这些进展表明，AI 正加速渗透到汽车、游戏和消费电子等领域，推动技术融合与产业升级。

来源：TechCrunch AI

1月 7日

1 条新闻

12:19

英伟达发布自有品牌的全球模型

Nvidia 在 CES 2025 上发布了 Cosmos World Foundation Models (Cosmos WFMs)，这是一系列基于物理感知的视频预测与生成的世界模型。这些模型分为 Nano、Super 和 Ultra 三类，参数规模从 40 亿到 140 亿不等，适用于低延迟、高性能和高保真输出场景。Cosmos WFMs 可用于生成合成数据，支持自动驾驶、机器人等领域的模型训练。Nvidia 还提供了上采样模型、增强现实视频解码器和安全护栏模型，确保负责任的使用。模型训练基于 9000 万亿 token 的多样化数据，涵盖人类交互、环境和工业场景。尽管存在版权争议，Nvidia 强调其数据使用符合法律精神。Cosmos WFMs 的开放性和可定制性为物理 AI 研究和开发提供了强大工具。

来源：TechCrunch AI