通义:一分钟生成互动2D卡通角色,Textoon引领新潮流
您的浏览器不支持视频播放。
您的浏览器不支持视频播放。
任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。
这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。
该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。
此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。
从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。
模型包括 Qwen2.5-Plus 对话模型、QwQ 和 QVQ 等推理模型,以及 Qwen2.5-Coder-32B-Instruct 编程模型。
Qwen Chat 支持同时对比多个模型,还即将推出网络搜索、图像生成和语音模式,值得期待。
系统版本要求较高,需更新至 iOS 17 才能安装,如果你在用巨魔啥的就无缘了。安卓版本即将推出。
简单体验了一下,和 Web 版本差不多,支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。