AI Video Maker

上传图片*

拖放您的图片到这里

或点击浏览 · 聚焦后可粘贴

支持格式：PNG、JPG、JPEG、WEBP（最大 10MB）

提示词*

分辨率

视频时长

种子值（可选）

使用 -1 表示随机种子

公开可见

此功能仅对订阅用户可用

Please login to generate videos

示例视频

The same woman from the reference image looks directly into the camera, takes a breath, then smiles brightly and speaks with enthusiasm: “Have you heard? Alibaba Wan 2.5 API is now available on Ai Generator Hub !” Ambient audio: quiet indoor atmosphere, soft natural room tone. Camera: medium close-up, steady framing, natural daylight mood, accurate lip-sync with dialogue.

Wan 2.5支持音画同步的 AI 视频生成解决方案

无论是文本转视频还是图像转视频，Wan 2.5 都能生成电影级画面、实现音画同步并提供多样化输出 —— 成本只是传统方案的一小部分。

开始免费使用

阿里巴巴 Wan 2.5 全新上线，助力 AI 视频创作

阿里巴巴 Wan 2.5 是前沿的 AI 视频生成模型，能将文字提示和参考图像转化为电影级视频。最初在阿里云 DashScope 平台发布，在视觉真实感、动作表现和音画同步方面展现出强大能力。为便于集成，阿里巴巴推出了 Wan 2.5，提供文本转视频（T2V）和图像转视频（I2V）两种预览接口。开发者可借助其生成支持口型对齐与音频同步的短视频。除了 DashScope，Wan 2.5 API 现在提供了更灵活、更高性价比的方式，将前沿视频技术整合到创意项目中——成为 Google Veo 3 的强劲替代选择。

Wan 2.5 支持的生成方式概览

文本转视频 (T2V)

让开发者通过文字提示直接生成视频。通过描述场景、动作与环境，即可输出电影级短片，画面流畅、音画同步——非常适合分镜脚本、营销活动与社交媒体内容。

图像转视频 (I2V)

可将静态图像转化为动态短视频。在保留原有风格和人物特征的同时，加入逼真的动画和视角变化，非常适合人像、产品展示和创意叙事。

Wan 2.5 的核心优势

原生音频与音画同步无缝衔接

可在一次请求中同时生成视频与音频。对白、环境音和背景音乐将自动与画面同步，无需额外编辑即可生成沉浸式体验。

精准执行指令

即使是复杂提示词也能精准解析。镜头角度、光线布置和场景动态都能精准呈现，确保每次调用都能将创意指令稳定转化为视频。

灵活适应多种风格

支持多种视觉风格——从电影写实到动漫插画。它既能保持人物特征和场景一致性，又能将多样化的美学风格融入应用。

多模式选项

支持多种分辨率（720p、1080p）和画幅比例（16:9、9:16、1:1），为创作者提供灵活的视频生成选项。

Wan 2.5 vs. Veo 3：如何选择？

阿里巴巴的 Wan 2.5 与谷歌的 Veo 3 都代表了最新的 AI 视频生成技术，但两者侧重点不同：Veo 3 更偏向电影级写实，而 Wan 2.5 则侧重原生音画同步以及更灵活的输出选项。

功能	Wan 2.5 (阿里巴巴)	Veo 3 (谷歌)
生成模式	文本转视频 & 图像转视频	文本转视频 & 图像转视频
音频与音画同步	原生音视频生成，支持对话、环境音同步	提供音频但集成度较低
指令遵循度	对复杂摄像机、光影和运动指令的还原度高	写实度极佳，但处理抽象指令可能稍逊
风格适应性	支持电影、动漫、插画等多种风格化输出	侧重电影写实，风格化灵活性较低
多语言支持	中英文支持均非常出色	主要针对英文优化
视频时长	长达 10 秒	约 8 秒
画幅比例	16:9, 9:16, 1:1	侧重电影画幅

Wan 2.5 最佳实践

要充分发挥 Wan 2.5 的效果，编写清晰、详细且结构化的提示词至关重要。以下是一些实用建议：

精准编写对话

不仅是请求“对话”，应提供确切的对白并指定说话者。例如：角色 A：“我们要继续前进。” 角色 B：“直到找到遮蔽处。”

精确控制静音

如果不想要人声，请在提示词中明确说明“无对话”或“无演员说话”，以防止出现意外声音。

设置背景音效与氛围

描述环境音如“轻雨拍窗伴随远雷”或“快节奏动作音乐”，更有利于模型同步音画。

细化场景描述

包含环境、光影、镜头视角和情绪。例如：“日落时分山路的远景，金光洒满天空。”