我给 Franklin 20 美元和一个脚本,三小时后我有了一支视频
大部分 agent 在「写代码」这一步就停了。Franklin 不会——它会自己买脚本、用 gpt-image-2 出分镜、跑 Seedance 生成视频片段、配旁白、买配乐,整套从同一个钱包出。这是真实账单的逐行复盘,以及为什么没有任何别的 agent 能完成这件事。
这本来不该是一支关于 Franklin 的视频。它一开始只是个内部实验:挑一件我们能想到的、最重的创意制作任务——一支 60 秒的解说短片,带旁白、带配乐、带原创画面——然后看看一个 agent 是不是真能从头到尾把它做完。约束故意设得很硬。一个终端。一个钱包。一笔上限 20 美元的 USDC 余额。 没有图片 API 账号,没有 ElevenLabs 订阅,没有 Seedance 登录,没有 Soundstripe 授权,没有 Adobe 席位。Agent 必须自己把每个工具找到、自己付钱、自己交付。
三小时之后,视频躺在硬盘上。钱包显示一共花掉 11.97 美元。账单——每一句 prompt、每一个被调的模型、每一项付费资产——是 Franklin 边干边输出的一份纯文本文件。这篇就是那份文件,外加每行背后的故事。
我现在更确信,这才是迄今为止把"带钱包的 agent"这句话讲清楚的最好的一次演示。这不是 slogan。这是「能帮你写一段东西的 AI 工具」和「能把整件活干完的 AI 工具」之间的结构性差距。
命令本身
> 我要一支 60 秒的解说视频,面向不懂加密的开发者。
主题:为什么按笔付费的 AI 是未来,USDC 是结算轨道。
风格:极简主义钞票美学,金色压在墨蓝色上,慢镜头。
交付物:最终 mp4、配乐、旁白、三张关键帧静帧。
预算:20 美元 USDC。硬上限。
我对 Franklin 输入的就只有这些。多一个字也没有。
账单逐行复盘
下面是真实的成本日志,只为可读性做了少量改写。每一笔钱都是真的,每一个模型选择都是 Franklin 自己做的。免费模型负责规划和编排,付费模型负责实际生产。
第 1 步 —— 调研和大纲
✓ WebSearch "USDC AI micropayments 2026" $0.0008
✓ WebFetch 3 篇文章 + Franklin docs $0.0003
✓ Reason 四节大纲 (nemotron-free) $0.0000
0.11 分。 规划阶段 Franklin 用的是免费 NVIDIA Nemotron,只把 USDC 花在了几条用于事实核查的网页搜索上。它落出来的四个节拍很紧:订阅是平的、轨道还没好、轨道现在好了、然后会变成什么。我自己写也不会和它差多少。
第 2 步 —— 旁白润色
✓ Compose 60 秒旁白文本 (claude-sonnet-4.6) $0.0089
写正式旁白文本时 Franklin 升级到了 Sonnet——它的 smart router 把这一步分类为"创意写作 / 高重要性 / 一次出",而 Sonnet 在「一次出散文」这条任务上的"质量/成本比"目前最好。1 分钱。 输出 152 字,正好卡进一个平静的 60 秒朗读节奏,附了和画面切点对齐的时间码。我改了两个字。
第 3 步 —— 分镜关键帧(gpt-image-2)
✓ ImageGen 3 张钞票静帧 (gpt-image-2, hd) $0.3600
三张 1792×1024 的 hero 静帧,钞票美学:开场玫瑰花纹、中段「商业」寓言、结尾钱包印章。这次 Franklin 没选 DALL-E 3,而是 openai/gpt-image-2——因为 prompt 里要求把「franklin · dispatch」这行字嵌进画面里的卷轴雕刻里,目前能可靠把图内文字渲染对的图像模型只有 gpt-image-2。多语言文字、跨帧角色一致性也都靠它撑住——同一只风格化的小狐狸要在两张帧里出现,gpt-image-2 把它锁在了同一只。三张 HD 0.36 美元。 我退掉一张,Franklin 重出,加 0.12 美元,结算前先把这笔费用浮到我面前。
第 4 步 —— 旁白配音
✓ Voice ElevenLabs,"Adam" v2 (60s) $0.4200
配音是我以为会卡住的第一处。一般这种 pipeline 要先在 ElevenLabs 注册一个号、弄一个独立的 API key、绑一张信用卡。Franklin 不需要。它就把 ElevenLabs 当成了和 LLM 一样的工具调用,走同一条 x402 微支付轨道,按秒计费、从同一个钱包结算。60 秒旁白 0.42 美元,音色锁定。 干净的录音棚级音频,4 毛 2 分钱,.env 里没有任何 key。
第 5 步 —— 视频片段(Seedance)
✓ Video bytedance/seedance-2.0-fast 3×10s $4.5000
✓ Video bytedance/seedance-2.0 2×10s $6.0000
钱真正开始烧的就在这一步——也是所有「单厂商 agent」彻底用不下去的那一步。5 段 10 秒、720p 的视频片段,分两档 Seedance 拍:三段跑在 bytedance/seedance-2.0-fast($0.15/秒)上,用于抽象运动镜头(飘起的纸、抬起的硬币、开场的玫瑰花纹);两段跑在完整版 bytedance/seedance-2.0 Pro($0.30/秒)上,用于角色和细节关键的镜头(「商业」寓言、结尾钱包印章)。视频总共 10.50 美元。
这不便宜。这也正是我们把预算钉在 20 美元的原因:我们就是想看看,Franklin 在最贵的那一步会不会做出对的选择,包括"应该选更便宜的那一档"那种边界情况。Router 全做对了——它只在两段「角色保真很重要」的镜头上升级到 Seedance 2.0,剩下三段「靠运动撑画面」的镜头用了便宜一半的 -fast 版本。结算之前账单打印了每段镜头的模型选择,以及"和'全程跑 2.0'比省了多少"。
第 6 步 —— 配乐
✓ Audio Stable Audio,60s 器乐 $0.1800
一首 18 美分的原创器乐——温和的弦乐,A 小调,72 BPM 用来卡上旁白的节奏。Franklin 在下单作曲之前先从旁白音频文件里算了一下 BPM。这一步我自己想不到。
第 7 步 —— 合成
✓ Bash ffmpeg 拼接最终 mp4 $0.0000
✓ Bash 校验时长 60s $0.0000
最终剪辑是一次本地 FFmpeg 任务,不要钱。视频做出来 59.4 秒——Franklin 把里面两处停顿剪掉了一点点,让它压在 60 秒的硬目标里。输出:18.2 MB MP4,720p,硬字幕。
总账
─────────────────────────────────────────────
本次会话合计 $11.97
调研 + 脚本 $0.01
分镜 (gpt-image-2) $0.36
旁白 (ElevenLabs) $0.42
视频 (Seedance 混档) $10.50
配乐 (Stable Audio) $0.18
合成 $0.00
钱包剩余 $8.03
硬上限被尊重 ✓
耗时 3 小时 11 分
─────────────────────────────────────────────
别的所有 coding agent 在哪一步停下
代码。它们都在「代码」这一步停了。Cursor 可以替你写好解说脚本——但它不会替你买配音。Claude Code 可以列出四个节拍——但它不会替你出分镜。Copilot 可以建议 FFmpeg 命令——但它不会替你买配乐授权。它们背后都没有结算层。 它们都是穿着 agent 外套的写代码工具。
按老办法做这同一支视频,你要走完的五步陷阱:
- 去 ElevenLabs 注册。 绑卡。撞上 10 美元最低充值。把 API key 复制进
.env。 - 去找一家 Seedance 转售商(大多数不直接对零售开放)。绑卡。复制 key。
- 去 OpenAI 申请 gpt-image-2 访问权限。 绑卡。建组织。等图像生成访问审核通过。复制 key。
- 去 Stable Audio 注册。 绑卡。买 9 美元的 credit 包。
- 把五行
.env编辑进 shell session,并祈祷别哪一行不小心粘进了 Slack。
开始干活之前你得先花的时间:45–90 分钟。每月仅仅为了"准备好"要付的固定订阅费:54 美元起,而且大概率忘记取消。这些钱没有一分是花在产出上的。全是访问税。
Franklin 一共付了 11.97 美元。零订阅。.env 里没有任何凭据。钱包就是 API key。
为什么是 gpt-image-2 + Seedance,而不是别的
这两个模型背后的原因,不实际跑过一次产线是看不出来的:
gpt-image-2 是当下唯一一个能把图内文字(任何语言)渲染对、且不出拼写错误的通用图像模型。对于钞票雕刻、包装、海报、社交卡片、双语标识这种「文字必须在图里」的工作,它不是 10% 的提升——是「能用」和「不能用」的分界。它还能在一次会话里跨帧锁定角色身份,所以三张关键帧里那只风格化小狐狸是同一只。HD 单价 0.06–0.12 美元;Franklin 的 smart router 在 prompt 提到「图内文字」或「角色一致性」时升级到这个模型。
Seedance 2.0 在公开市场里目前是「价格/画质」最优的视频模型。完整 2.0 Pro 档出 720p 视频,能扛住价格 5 倍于它的模型;-fast 变体 0.15 美元/秒,是 B-roll 和运动型抽象镜头的新甜点。两档都支持最长 10 秒片段,都接 seed image 做图生视频,都跑异步,并把最终 MP4 镜像到永久存储——URL 不会过期。
Franklin 的本职是按镜头在两档之间挑。这次视频五段镜头它都挑对了。这才是「多模型」的真正意义——不是"很多模型存在",而是"agent 在你不点名的情况下挑得准"。
这次实验真正在证明的,是三件事
按重要度排:
第一:视频是证明。 一个会写代码的 coding agent 是一个「写作 agent」。一个能产出视频——脚本、配音、画面、配乐、剪辑全跑通——的 agent 是一个 经济智能体。这条品类分界线,是在「agent 能为这次工作的输入物付钱」而不只是「能描述它们」时被跨过的。这件事没法在没有钱包的情况下演示。账单是没法假的。账单本身就是 demo。
第二:单位经济学已经稳了。 三年前同一支视频会花 300 美元,不是 11.97 美元,因为底层模型单价高 30 倍,而且 Seedance / gpt-image-2 当时根本不存在。今天 20 美元能搞定的根本原因,和 Franklin 能整体跑通 YOPO 的根本原因是同一个——「百分之一美分级别的推理」加「按秒计费的视频生成」现在都是可以在 x402 上结算的真实原语。这个比例每个季度都在变好。
第三:钱包是把这件事「做完」的关键变量。 第 5 步跑到一半的时候,Seedance 第一次在「钱包印章」那段镜头出现了软运动伪影。Franklin 决定重生成,先把额外的 3.00 美元浮上来跟我确认了一下。我说"行"。钱包显示了每一次重试的真实成本。如果 Seedance 连续失败三次,Franklin 会在 20 美元处停下问我下一步怎么办。没有任何剧本会让 agent 把我跑出 20 美元的硬上限。 这就是从第一波 agent demo 起,每一个有财务部的人都在求的那条性质——它现在在了。
这个模式还能用来做什么
这次实验的重点不是这支解说视频。解说视频只是测试夹具。真正的论点是:任何把文字、图像、声音、视频、配乐组合起来的创作流水线,都可以在一个 Franklin session 里以 25 美元以内的预算跑完,零订阅。 当下能跑通的几种例子,附粗略预算:
- 新品发布预告片(60 秒,720p) —— $12–$25
- 三语 onboarding 视频 —— $25–$45(按语言重配音很便宜,画面复用)
- Substack 周更解说 —— $8–$15
- 10 分钟 YouTube 长文 —— $50–$100(看用素材库还是全生成)
- 一章有声书 —— $0.60–$1.20
这些放在以前,每一项都对应一文件夹收据、一窗口 dashboard、一条 200 美元/月起跳的订阅地板。它们现在每一项都只是一次 franklin session,配一份逐项账单,配一个钱包没钱了就停下来的硬约束。
现在还做不太好的部分
诚实点:
- 声音克隆 还没进免费 pipeline。默认用 ElevenLabs 库存音色。要自己的声音目前得自带模型。
- Seedance 跨镜头连续性 在改进中但不完美。第一段建立了某个角色,第二段渲出来下颌或调色可能略有变化。我们的缓解办法是把第二、三、四、五段从第一段的 gpt-image-2 静帧出 seed。
- 字幕对齐 在长镜头里可能漂 200ms。做解说够,做电影还差点。
这些会修。结构性论点——一个钱包、所有模态、透明账单、硬上限被尊重——今天就已经成立了。
一句话带走
如果你曾经做过一份混合媒介的内容、最后要么花 200 美元/月去订阅、要么用一个周末把五个免费档拼接起来——Franklin 就是那份工作流的「感觉像只用了一个工具」的版本。「工具」就是一个会替你把钱花在结果上的钱包。
11.97 美元。一个终端。一个 agent。一支视频。
拿你自己的那个想法试试。
