GPT-Image-2、Nano Banana Pro、VEO 3.1 与电商套图文档

本网站适合谁

设计师 / 美术团队：快速验证海报、电商图、品牌视觉和 UI 方案。
电商 / 运营团队：复用商品详情页、主图、活动海报、广告图和电商套图模板。
内容创作者：制作信息图、漫画分镜、封面图、公众号、小红书和短视频素材。
短视频 / 投放团队：用 VEO 3.1 生成商品展示、广告镜头和竖版短视频素材。
Prompt 玩家：系统对比不同场景下的结构化提示词写法。
开发者 / 产品经理：生成软件UI界面。

GPT-Image-2 是什么

2026 年 4 月 22 日，OpenAI 正式发布 ChatGPT Images 2.0，奥特曼称之为「从 GPT-3 到 GPT-5 的飞跃」。

它是 OpenAI 首个具备思考能力的图像模型，在 Arena 盲测榜单中以断层优势登顶全球第一，领先第二名 Nano Banana 2 超过 240 分。

Nano Banana Pro 是什么

Nano Banana Pro 是 Google 基于 Gemini 3 Pro 的图像生成与编辑模型，官方也称它为 gemini-3-pro-image。它更偏向专业创作工作流：既能从文本生成图片，也能结合参考图做编辑、融合和局部改写。

这个模型的优势集中在三类场景：

世界知识更强：适合需要品牌、地点、产品、历史人物、真实界面等背景知识的画面。
文字和信息图更稳：更适合海报、图表、教学图、菜单、商品卖点页等需要可读文字的图片。
可控性更高：支持更细的构图、比例、局部编辑和多图参考，适合把初稿推进到更接近可交付的成片。

如果你要快速试稿、生成普通创意图，GPT-Image-2 已经很够用；如果你更在意文字清晰度、真实世界知识、复杂海报或商业成片，Nano Banana Pro 通常更值得优先尝试。

VEO 3.1 是什么

VEO 3.1 是 Google 顶级视频生成模型，适合把商品、人物、场景和品牌视觉转成短视频镜头。本站当前支持参考图模式和首尾帧模式，可用于生成横屏或竖屏视频，适合电商展示、广告投放、内容种草和品牌宣传。

VEO 3.1 的优势集中在三类场景：

真实镜头运动：适合产品旋转、镜头推进、人物动作、场景氛围和广告镜头。
参考图延展：可上传商品图、场景图或视觉参考，让视频保持主体和风格一致。
短视频交付：适合 9:16 竖版内容、16:9 横版广告、商品展示和动态海报。

本站视频价格低至 ¥0.1 / 秒，生成失败会自动退回费用。视频生成结果仅保存在当前浏览器，请生成成功后及时下载。

电商套图是什么

电商套图 是面向商品运营的一次性批量出图工作流。你可以上传商品参考图，让系统先反推整套图片提示词，再批量生成商品主图、详情页、广告图、卖点图、场景图等素材，减少一张张手动写提示词的时间。

它更适合这些场景：

新品上架：从商品图快速扩展主图、白底图、场景图和详情页视觉。
活动投放：围绕同一商品生成多版广告图、促销图和信息流素材。
店铺统一风格：让一组图片共享品牌色、拍摄风格、光影和排版方向。

如果只是生成单张创意图，可以使用图片创作台；如果要一次准备一整套商品素材，优先使用电商套图。

核心能力

1. 文字渲染（质的飞跃）

文字渲染一直是 AI 图像模型最大的痛点。GPT-Image-2 在中文渲染上实现了质的突破：

可以默写出师表，绝大多数文字保持稳定
能生成完整的中文报纸、数学试卷
支持红楼梦关系图等复杂信息图表
从一张照片直接生成完整的电商产品详情页

> 关键提示： 中文文字不再是「贴图感」，而是真正融入了视觉设计的骨架。

2. 世界知识（最强护城河）

这是 GPT-Image-2 与其他模型拉开差距最大的能力。它对真实世界长什么样有着极其精准的理解：

生成 YouTube 首页截图 — 正确的布局、按钮样式、图标位置
生成小红书/B 站个人主页 — 甚至会自动编造完整的人设
游戏代肝海报 — 自动补充「1000 万哈夫币比 56 人民币」等专业文案
汽车官网 — 仅凭一张车辆照片就生成完整的品牌官网

3. 修改精准度

对你意图的理解达到了一个离谱的程度：

一张手机随手拍的产品照 → 两句话 → 完整的电商详情页
上传电影截图 + 参考图 → 替换人物并保持场景一致
上传产品图 → 精修白底电商主图（白色背景、柔光、阴影自然）

4. 审美进化

最大的审美进化是学会了保留「不完美」：

胶片颗粒感、闪光灯硬阴影、手持拍摄轻微失焦
风格覆盖极广：电影静帧、复古胶片、时尚摄影、像素画、漫画
最有效的关键词就是 photorealistic — 模型会主动规避塑料感

5. 界面与布局生成

全新的能力维度，能精准复刻各种数字界面：

社交媒体截图（抖音、小红书、B 站、TikTok、YouTube）
App UI 界面（电商首页、音乐播放器）
游戏画面（黑悟空等）
桌面环境（macOS 浏览器截图、Terminal）

提示词框架

经过大量实测，以下提示词框架效果最佳：

[任务类型] + [主体描述] + [风格定义] + [技术参数] + [输出规格]

五要素详解

要素	说明	示例
任务类型	告诉模型做什么	海报设计 / 信息图 / 界面截图 / 摄影照片
主体描述	画面核心内容	产品、人物、场景、信息结构
风格定义	视觉风格和调性	新中式轻奢 / 胶片纪实 / 极简科技 / 手绘水彩
技术参数	光影、材质、构图	柔光打光 / 浅景深 / 电影级打光 / octane 渲染
输出规格	比例和分辨率	3:4 / 9:16 / 4K / 8K

核心原则

具体 > 模糊：描述越具体，输出越精准
中文直接说：不需要翻译成英文，中文提示词效果一样好
给出文字内容：直接把需要出现在图中的文字写在提示词里
指定风格参考：用「参考 XX 风格」来锚定审美方向
标注比例和分辨率：如 3:4, 4K 可以控制输出尺寸

高级技巧

技巧 1：photorealistic 是万能钥匙

想让输出最自然，最有效的关键词就是 photorealistic。
模型会主动规避塑料感，复刻真实照片的特征。

技巧 2：善用 Thinking 模式

需要联网信息（如品牌知识、人物背景）时，开启 Thinking 模式
需要多张连贯图片（如穿搭系列、社交媒体素材）时，开启 Thinking 模式
简单出图用 Instant 模式即可，速度快

技巧 3：给文字，不要描述文字

# 错误示范
生成一张有促销信息的奶茶海报

# 正确示范
生成一张奶茶海报，品牌名为"山川茶事"，新品名为"山柚观音冷泡系列"，价格"中杯 16 元 大杯 19 元"，活动"第二杯半价"

技巧 4：指定审美方向

# 通过风格参考锚定审美
"参考 1960 年代法国新浪潮电影海报风格"
"采用钢笔淡彩（Pen and wash）技法"
"新中式、轻奢、克制"
"像素画风格 / 复古胶片 / 极简科技"

技巧 5：垫图 + 编辑，效果翻倍

先上传参考图（垫图）
让 GPT-Image-2 生成初稿
点击图片左下角的「编辑」功能进行精细修改
修改可以针对特定区域（如替换品牌、改文字、换人物）

技巧 6：利用世界知识

# 模型已经知道这些，不需要你详细描述：
- 各大 App 的界面布局
- 品牌的视觉识别系统
- 历史事件和人物关系
- 产品类型和行业惯例

# 所以你可以直接说：
"生成一张特斯拉官网的截图"
"生成一张微信聊天记录"
"帮我做一张这个产品的电商详情页"

技巧 7：信息图三要素

制作高质量信息图的公式：

模块化分区 + 圆角信息框 + 层级分明的标题
+ 浅色干净背景 + 精致小图标 + 适当留白

技巧 8：比例选择指南

比例	适用场景
1:1	社交媒体头像、产品主图
3:4	海报、信息图、插画
9:16	手机壁纸、故事/短视频封面
21:9	公众号封面、电影感横幅
3:1	全景图、长卷

视频提示词框架

VEO 3.1 视频提示词建议把「画面主体、镜头运动、动作变化、光影质感、时长比例」写清楚：

[主体] + [场景] + [镜头运动] + [动作变化] + [光影风格] + [比例和清晰度]

视频提示词示例

一瓶蓝色香氛放在浅水面上，镜头缓慢推近，水面有细微波纹和反光，玻璃瓶身通透，高级电商广告质感，柔和自然光，9:16 竖版短视频

VEO 3.1 使用建议

商品展示：写清楚商品材质、镜头方向、背景和需要突出的卖点。
广告镜头：说明开场、镜头运动、主体动作和结尾画面。
参考图模式：上传商品或视觉参考图，适合保留主体和风格。
首尾帧模式：首帧必选，尾帧可选，适合控制视频起止状态。

电商套图提示词建议

电商套图的关键是先确定整套图片的用途，再让每张图承担不同任务：

图片类型	目标	提示词重点
商品主图	吸引点击	主体清晰、背景干净、卖点明确
详情页	解释价值	功能结构、材质细节、使用场景
广告图	促进转化	人群、利益点、活动机制、行动引导
场景图	建立想象	环境、光影、生活方式、品牌调性

建议上传清晰商品参考图，并写清楚平台、目标人群、商品卖点、品牌色和需要生成的图片数量。商品主图、详情页、广告图可以使用同一套视觉规则，但每张图的构图和文案重点要区分。

局限性

GPT-Image-2 虽然强大，但仍有以下局限：

三维物理逻辑：折纸步骤图、魔方复原过程等需要极度严密三维物理逻辑的任务，容易翻车
密集纹理：倾斜表面上的微小细节、极度密集的重复纹理仍会触碰计算边界
精确箭头图表：涉及精确箭头的图表，建议人工核查
亚洲人一致性：对亚洲人面部的一致性保持不如欧美面孔
高风险内容：证件、试卷等高风险内容的生成应谨慎传播

模型定价

本站按生成模型和清晰度计费，当前价格如下：

类型	模型 / 功能	价格
图片	GPT-Image-2 1K / 2K / 4K	¥0.1 / 张、¥0.3 / 张、¥0.5 / 张
图片	Nano Banana Pro 1K / 2K / 4K	¥0.4 / 张、¥0.6 / 张、¥0.8 / 张
视频	VEO 3.1 标准 720p	¥0.1 / 秒
视频	VEO 3.1 高质量 720p / 1080p	¥0.2 / 秒
电商套图	商品主图、详情页、广告图等批量生成	按实际生成的图片模型和清晰度计费

> 第三方 API 成本、汇率和服务策略变化时，本站价格可能会调整。

免责声明

GPT-Image-2 确实能生成以假乱真的内容，但这也意味着边界更重要
证件、试卷等高风险内容，请勿传播
很多人并不能分辨 AI 生成的内容，即便带有水印
请负责任地使用 AI 图像生成工具