我刚刚看到英特尔在Hugging Face上提供了Alibaba的Wan 2.2视频模型的INT4量化版本。这在模型优化方面非常有趣。



基本上,英特尔成功显著减小了每个模型的权重大小。每个在BF16中占用2字节的权重,在INT4量化后只占用0.5字节。这意味着总大小大约是原来的四分之一。所用的工具是AutoRound。

发布的三个模型是T2V-A14B (文本转视频)、I2V-A14B (图像转视频)和TI2V-5B (文本与图像混合输入)。原始的A14B模型采用MoE架构,总参数达270亿,激活参数为140亿。没有INT4量化时,单GPU处理720p分辨率至少需要80GB显存。

最实用的是TI2V-5B,这是一个密集模型,即使在原始状态下,也能在一块4090显卡上以24fps运行720p。想象一下应用INT4优化后的效果。

一个重要细节是,英特尔尚未公布关于INT4量化后显存消耗或视觉质量的完整基准测试。还需要第三方验证。对于想要测试的用户,英特尔推荐使用vllm-omni分支作为部署选项,因为这些模型不能在vLLM的主流程中运行。

这类优化使得这些视频模型对没有高端硬件的用户来说更加容易获取。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论