AI 工具效率提升工作流

为什么技术博主
都在用 HTML 做视频分镜？

以前每次做完视频脚本，剩下全花在 PPT 上——调排版、找配图、对齐，反反复复。直到最近发现，大家已经开始用 HTML 做视频分镜了。

foxdies.com · 2026 年 4 月

01 WHY HTML

为什么 HTML 比 PPT
更适合做视频？

我一开始以为是什么高级 PPT 模板，后来研究了一下，发现大家已经开始用 HTML 做视频分镜了。

视频里面的分镜演示特别精致，而且还能交互。本质上，它靠的是代码和文本来生成页面，而不是用 AI 生成图片来拼 PPT。

⚡

更省 Token

PPT 靠图片生成，分镜用代码渲染。同样一期视频，Token 消耗降一个量级。

🎯

更规范

代码控制尺寸、颜色、位置，生成一次就是成品，不存在排版跑偏、元素错位。

⚡

更快

说白了 PPT 是"画"出来的，HTML 是"写"出来的。写比画快太多了。

02 TOKEN

原因一：
更省 Token

PPT 生成的原理是调用模型生成图片，每一页都是一张图，Token 消耗极高。而 HTML 是基于代码和文本生成的，渲染成本极低。

同样一期视频的分镜，用 PPT 做可能烧掉大量 Token；用 HTML 几乎不费什么。

图片有多烧 Token，做过的人都懂。每一页 PPT 都是独立的图片生成请求，一期 10 分钟的视频，30 页分镜是常态——这还不算反复修改的版本。

03 STANDARD

原因二：
内容更规范

PPT 的排版经常跑偏——字体对不齐，元素错位，渐变分层。不同页面之间风格不一致是常态。

HTML 排版是精确的：width: 800px 就是 800px，color: #7c6af0 就是这个色值。

PPT 是"画"出来的，HTML 是"写"出来的。写比画快太多，而且写出来的内容，第一次就是成品。

04 DEMO

两个实战演示

HTML 方式

📝 写脚本

→

🤖 AI 生成 HTML

→

🖼️ 截图 / 录屏

Token 消耗极低

生成时间~2 分钟

排版精准度100%

可编辑性代码级

PPT 方式

📝 写脚本

→

🤖 AI 生成图片

→

⚙️ 手动排版调整

Token 消耗极高

生成时间1-2 小时

排版精准度容易错位

可编辑性图片不可改

mimo-agent.ai / demo

↗

// 小米 Mimo 大模型

小米 Mimo

新一代多模态大模型 · 全面开放

立即体验 →

⚡

极速响应

端到端延迟降低 40%

🧠

多模态

文本 · 图像 · 语音 · 视频

🔒

隐私优先

本地化处理，数据不上传

// 一行代码调用 Mimo
const mimo = await Mimo.create({ model: 'mimo-pro' });

↑ AI 生成的 HTML 页面 · 苹果风格深色主题 · 小米橙色渐变

TOKEN 消耗对比（同一期 10 分钟视频 / 30 页分镜）

PPT 方式

~300K tokens

HTML 方式

~25K tokens

降低约 12 倍 · 产出质量反而更高

演示一：让 AI 自由发挥

Prompt

帮我做一个 PPT 风格的 HTML，介绍小米最新发布的 Mimo 大模型。要求风格是苹果风，黑色背景，加上小米的 logo，字体采用免费字体，不要侵权。

AI 做了什么

自动搜索资料，内容分成八段：封面、核心参数、技术亮点……感谢观看
自动识别小米品牌色（橙色），主色调设计成小米橙色渐变
生成苹果风格深色背景，配色统一，工整规范
支持导出 PPT：一句指令即可转为可编辑 PPT 文档

演示二：用已有脚本生成

Prompt

根据上述内容脚本生成一个 PPT 风格的 HTML，主背景纯黑，主文字纯白，标题用紫色，强调文字用黄色，风格为苹果风或 Notion 风的黑白风格。

效果

AI 自动分页，排版工整，配色统一
代码块、卡片、对比栏一应俱全，比手动做 PPT 效果更好
从脚本到成品全程不到 2 分钟

05 WORKFLOW

现在的工作流

STEP 1 写脚本

→

STEP 2 丢给 AI
生成 HTML

→

STEP 3 截图/录屏
作素材

→

STEP 4 转 PPT
存档

整个过程 Token 消耗降了一个量级，产出质量反而更高。以前做一期视频，光 PPT 就要磨一两个小时，现在写完脚本 2 分钟出分镜。

写在最后

AI 终于让 HTML 的门槛降到了零。

你不需要会写代码，你只需要会说人话。这不只是工具的升级，这是表达方式的进化。

以前我们用工具来做内容，现在我们用语言来说出内容。工具退到幕后，表达回到台前。

这可能才是 AI 真正该干的事。

以前我们用工具来做内容，
现在我们用语言来说出内容。

— foxdies.com

为什么技术博主都在用 HTML 做视频分镜？

为什么 HTML 比 PPT更适合做视频 ？

更省 Token

更规范

更快

原因一：更省 Token

原因二：内容更规范

两个实战演示

Prompt

AI 做了什么

Prompt

效果

现在的工作流

写在最后

为什么技术博主
都在用 HTML 做视频分镜？

为什么 HTML 比 PPT
更适合做视频？

原因一：
更省 Token

原因二：
内容更规范