已选标签:
多模态AI
AI视频
1月 13日
4 条新闻
09:47

Adobe FaceLift:单张照片生成高保真 3D 头部模型

Adobe FaceLift:单张照片生成高保真 3D 头部模型

FaceLift 是 Adobe 最新发布的一项技术,仅需一张人脸照片,就能快速生成高保真的 3D 头部模型。

该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。

此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。

从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。

来源:三花快讯

1月 11日
2 条新闻
02:26

实时更新 CES 2025:活动临近尾声,最终发布与分析

CES 2025 展示了 AI 技术在自动驾驶和智能硬件领域的显著进展。Waymo 和 Cruise 前 CEO Kyle Vogt 的新机器人公司亮相,凸显了自动驾驶技术的持续创新。NVIDIA 展示了 RTX Blackwell GPU 系列,推动 AI 模型训练和推理效率提升。此外,AI 可穿戴设备如 Halliday 智能眼镜和 Based Hardware 的 Omi 成为焦点,预示着 AI 在日常生活中的广泛应用。尽管美国车企缺席,中国电动车品牌 Zeekr 等展示了 AI 在汽车行业的深度整合,进一步推动了多模态 AI 和边缘计算的发展。

来源:TechCrunch AI

01:24

50亿美元直播购物应用、英伟达的发布以及 CES 上最奇特的技术

CES 2025 展示了 AI 技术的多样化应用与创新趋势,包括智能家居设备(如机器人吸尘器)和智能眼镜等消费级产品。Nvidia 的 Project Digits 项目预示了 AI 在边缘计算和实时交互领域的潜力,可能推动未来初创企业的技术突破。尽管部分企业仍处于实验阶段,但 AI 在提升用户体验和优化硬件性能方面的进展显著。此外,Meta 的‘更多言论,更少错误’策略反映了 AI 在内容审核和自然语言处理中的持续优化需求。

来源:TechCrunch AI

1月 8日
5 条新闻
16:17

微软通过公共和私营部门的交易支持其在印度的30亿美元人工智能计划

微软宣布在印度核心领域展开广泛AI合作,计划投资30亿美元,与政府及企业合作推动AI技术应用。重点包括:支持印度AI数据集平台的数据收集与合成生成,培训50万名AI技术人才,建立AI卓越中心及20个AI实验室。合作涵盖铁路、医疗、金融、制造和教育领域,如与RailTel合作推进铁路数字化和AI转型,与Apollo Hospitals开发医疗AI助手,与Bajaj Finance合作实现年成本节约1800万美元。此举旨在与谷歌、亚马逊等竞争,加速AI在印度的商业落地和人才培养,推动多模态AI和边缘计算等技术的应用。

来源:TechCrunch AI

09:48

达美航空SkyMiles会员现在可以通过乘坐Uber赚取里程,结束与其和Lyft的合作

Uber 与 Delta 航空达成独家合作,整合 AI 技术优化出行体验。通过 Joby Aviation 的 eVTOL 技术,三方探索地面与空中交通的无缝连接,推动智能出行生态发展。Uber 的 AI 平台 ElevateOS 支持按需空中出租车服务,结合 Delta 的客户资源,加速城市空中交通的商业化落地。这一合作标志着 AI 在智能交通领域的深度应用,未来可能重塑城市出行模式。

来源:TechCrunch AI

09:43

英伟达开源 Cosmos 世界模型:助力机器人与自动驾驶数据生成

英伟达开源了 Cosmos 世界模型,这模型支持文生视频和文+视频生视频,主要应用于机器人和自动驾驶领域的大规模合成数据生成。

目前,英伟达已经开放了多个不同的预训练模型,这些模型均支持商业用途。佬友们也可以在线体验下,看看这个模型的实际效果如何。

来源:三花快讯

09:12

山姆·阿尔特曼的家人回应他涉嫌性侵其妹妹的诉讼

OpenAI CEO Sam Altman 近期因家庭纠纷引发关注,但其对 AI 技术的贡献及 OpenAI 的发展方向仍是焦点。Altman 领导下的 OpenAI 持续推动大语言模型(如 GPT 系列)和多模态模型的创新,致力于 AGI 发展及技术伦理规范。尽管个人争议,OpenAI 在 AI 编程、智能助手、医疗诊断等领域的应用仍具重要影响力。未来,AI 技术的多模态融合、算力优化及可解释性将是关键发展方向。

来源:TechCrunch AI

06:46

2025 CES 第一天:本田、宝马、X 的胜利时刻,以及首批展厅小工具揭晓

CES 2025 展示了 AI 技术在多个领域的创新应用。Nvidia 的生成式世界模型仿真工具 Cosmos 和云端 AI 超算平台被 Uber 用于自动驾驶技术开发,突显了生成式 AI 在复杂场景模拟中的潜力。BMW 推出基于 AI 的车载界面定制系统,通过屏幕反射实现挡风玻璃显示,展示了 AI 在智能座舱中的创新应用。此外,Acer 和 Razer 推出的游戏设备也体现了 AI 在增强用户体验方面的作用。这些进展表明,AI 正加速渗透到汽车、游戏和消费电子等领域,推动技术融合与产业升级。

来源:TechCrunch AI

1月 7日
5 条新闻
12:20

AMD在2025年CES上发布新款笔记本、台式机和游戏掌机芯片

AMD在2025年CES上发布新款笔记本、台式机和游戏掌机芯片

AMD 在 CES 2025 上发布了多款 AI 加速芯片,包括 Ryzen AI 300 系列和 Ryzen AI Max 系列,均配备专用 NPU,用于加速 AI 工作负载,如文本摘要和图像编辑。这些芯片面向 Copilot+ PC,支持 Windows 11 的 AI 功能,提供高效能 AI 应用性能。此外,AMD 还推出了基于 RDNA 4 架构的 GPU,提升了 AI 加速和光线追踪性能。这些创新标志着 AI 技术在消费级硬件中的进一步普及,推动了边缘计算和多模态 AI 应用的发展。

来源:TechCrunch AI

12:20

谷歌在2025年国际消费电子展上推出AI驱动的电视,为您总结新闻

谷歌在2025年国际消费电子展上推出AI驱动的电视,为您总结新闻

Google 在 CES 2025 推出基于 Gemini AI 助手的 TV 操作系统,新增新闻摘要功能。该功能通过整合互联网新闻和 YouTube 视频标题,生成每日新闻简报,提升用户获取信息的效率。此举标志着 Google 正式进入 AI 新闻摘要领域,尽管面临内容授权和 AI 幻觉等挑战。Google 计划通过自然语言交互和传感器技术,将 TV 转变为更智能的交互平台,推动多模态 AI 在家庭场景的落地。

来源:TechCrunch AI

12:19

英伟达发布自有品牌的全球模型

英伟达发布自有品牌的全球模型

Nvidia 在 CES 2025 上发布了 Cosmos World Foundation Models (Cosmos WFMs),这是一系列基于物理感知的视频预测与生成的世界模型。这些模型分为 Nano、Super 和 Ultra 三类,参数规模从 40 亿到 140 亿不等,适用于低延迟、高性能和高保真输出场景。Cosmos WFMs 可用于生成合成数据,支持自动驾驶、机器人等领域的模型训练。Nvidia 还提供了上采样模型、增强现实视频解码器和安全护栏模型,确保负责任的使用。模型训练基于 9000 万亿 token 的多样化数据,涵盖人类交互、环境和工业场景。尽管存在版权争议,Nvidia 强调其数据使用符合法律精神。Cosmos WFMs 的开放性和可定制性为物理 AI 研究和开发提供了强大工具。

来源:TechCrunch AI

11:51

阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理

阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理

VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件,能够对用户定义的区域进行细粒度的感知、推理和检索,支持单帧和多帧输入。简单来说,就是利用 LLM 来理解视频内容。目前,该模型的代码和模型均已开源。

来源:三花快讯