日本語
Field Notes2026年4月19日 · 8 min

Franklin に 20 ドルと脚本を渡した。3 時間後、動画ができていた。

ほとんどのエージェントはコードで止まる。Franklin は止まらない — 脚本を買い、gpt-image-2 で絵コンテを描き、Seedance でクリップを生成し、ナレーションを録り、音楽をライセンスする。すべて一つのウォレットから。これが正確な明細と、なぜ他のエージェントには作れなかったかの理由。

Franklin に 20 ドルと脚本を渡した。3 時間後、動画ができていた。

これは Franklin の動画になる予定ではなかった。社内実験として始まった: 思いつく中で最も制作が重い創作タスク — 60 秒のナレーション付き、音楽付き、オリジナル映像の解説動画 — を、単一のエージェントが本当に最後までやり切れるかを確かめる。制約は意図的に厳しく設定した。ターミナル一つ。ウォレット一つ。$20 で打ち止めの USDC 残高。 画像 API アカウントなし、ElevenLabs サブスクなし、Seedance ログインなし、Soundstripe ライセンスなし、Adobe シートなし。エージェントは必要な全ツールを自分で見つけ、自分で支払い、自分で出荷しなければならない。

3 時間後、動画はディスクに保存されていた。ウォレットには $11.97 と書かれていた。レシート — すべてのプロンプト、すべてのモデル、すべての有償アセット — は Franklin が作業中に出力した一つのテキストファイルだった。これがそのファイルだ、各行の物語付きで。

これは「ウォレットを持つエージェント」がスローガンではない理由を最も明確に示すデモだ。「あなたを助けてくれる AI ツール」と「仕事を終わらせる AI ツール」の構造的な差。

ブリーフ

> 暗号に詳しくない開発者向け、60 秒の解説動画。
  テーマ: なぜ pay-per-call AI が未来か、USDC が決済レール。
  スタイル: ミニマルな紙幣美学、金 on 墨、ゆっくりカメラ。
  納品物: 最終 mp4、音楽、ナレーション、キーフレーム静止画 3 枚。
  予算: $20 USDC。ハードキャップ。

Franklin に入力したのはこれだけ。

レシート、順番に

Step 1 — リサーチとアウトライン

✓ WebSearch  "USDC AI micropayments 2026"      $0.0008
✓ WebFetch   3 articles + Franklin docs         $0.0003
✓ Reason     outline 4 beats (nemotron, free)   $0.0000

$0.0011。 計画は無料の NVIDIA Nemotron。ファクトチェック用の検索だけ USDC を払った。

Step 2 — 脚本研磨

✓ Compose   60s narration (claude-sonnet-4.6)   $0.0089

ナレーション本文は Sonnet にエスカレーション。1 セント。 152 ワード、60 秒の落ち着いた音声にぴったり。

Step 3 — キーフレーム(gpt-image-2)

✓ ImageGen  3 banknote stills (gpt-image-2, hd) $0.3600

Franklin が DALL-E 3 ではなく openai/gpt-image-2 を選んだ — プロンプトが画像内に「franklin · dispatch」のテキストを刻むことを要求し、画像内テキストを確実にレンダリングできる画像モデルは現状 gpt-image-2 だけだから。多言語対応とフレーム間のキャラ一貫性も鍵。HD 3 枚で $0.36。 1 枚却下、再生成 +$0.12、課金前に提示。

Step 4 — 音声生成

✓ Voice     ElevenLabs, voice "Adam" v2 (60s)   $0.4200

ElevenLabs アカウントも別 API キーも別カードもなし。Franklin はモデルと同じ x402 マイクロペイメントレールで呼ぶ。60 秒で $0.42.env に API キーなし。

Step 5 — 動画クリップ(Seedance)

✓ Video     bytedance/seedance-2.0-fast  3×10s  $4.5000
✓ Video     bytedance/seedance-2.0       2×10s  $6.0000

5 つの 10 秒 720p 動画、Seedance の 2 ティアにわたって混合 — 抽象的な動きのショット 3 つは bytedance/seedance-2.0-fast ($0.15/秒)、キャラ重視の 2 つは bytedance/seedance-2.0 Pro ($0.30/秒)。動画合計 $10.50

ルーターはキャラ忠実度が重要な 2 ショットだけ Pro にアップグレードし、動きで持つ 3 ショットは半額の -fast を使った。各ショットのモデル選択と「常に Pro」比の節約額を清算前に印字。

Step 6 — 音楽

✓ Audio     Stable Audio, 60s instrumental      $0.1800

18 セントの弦楽。Franklin がナレーションオーディオから BPM を計算してから発注。

Step 7 — 組み立て

✓ Bash      ffmpeg compose final mp4            $0.0000
✓ Bash      verify duration 60s                 $0.0000

ローカル FFmpeg、無料。59.4 秒、18.2MB MP4、720p、字幕埋め込み。

合計

─────────────────────────────────────────────
セッション合計                          $11.97
  リサーチ + 脚本              $0.01
  キーフレーム (gpt-image-2)   $0.36
  ナレーション (ElevenLabs)    $0.42
  動画 (Seedance ミックス)    $10.50
  音楽 (Stable Audio)          $0.18
  組み立て                     $0.00
ウォレット残高                          $8.03
ハードキャップ尊重 ✓
所要時間                            3h 11m
─────────────────────────────────────────────

他のすべてのコーディングエージェントが止まる場所

コード。彼らはすべてコードで止まる。Cursor は脚本を書ける — 音声に支払うことはできない。Claude Code は 4 ビートを概説できる — 絵コンテを生成できない。Copilot は FFmpeg コマンドを提案できる — 音楽をライセンスできない。彼らの背後には決済層がない。

旧式で同じ動画を作るための 5 ステップの罠:

  1. ElevenLabs に登録、カード追加、$10 最低トップアップ、API キーを .env にコピー。
  2. Seedance リセラーを探す(直接小売販売はほぼない)、カード追加、キーをコピー。
  3. OpenAI で gpt-image-2 にアクセス申請、カード追加、組織作成、画像生成アクセス審査待ち、キーをコピー。
  4. Stable Audio に登録、カード追加、$9 のクレジットパック購入。
  5. 5 行の .env をシェルセッションに編集、Slack に貼り付けないように祈る。

開始までの時間: 45–90 分。固定月額: $54+、解約を忘れる。全部アクセス税。

Franklin: 合計 $11.97。サブスクなし。.env に資格情報なし。ウォレットが API キー。

なぜ gpt-image-2 + Seedance、具体的に

これらのモデルが重要な理由は、実際に出荷するまで明白ではない:

gpt-image-2 は、画像内の判読可能なテキストをスペル誤りなく、任意の言語でレンダリングする最初の一般利用可能な画像モデル。紙幣彫刻、パッケージ、ポスター、ソーシャルカード、二言語サイネージなど — 10% の改善ではなく「使える」と「使えない」の差。同じセッション内でフレーム間のキャラ ID も安定。HD あたり $0.06–$0.12。

Seedance 2.0 は、現時点でオープン市場最高の価格/品質動画モデル。完全 2.0 Pro ティアは 720p 動画を出荷し、5 倍価格のモデルに対抗。-fast バリアント $0.15/秒は B ロールと動き重視ショットの新スイートスポット。両方最大 10 秒クリップ、両方シード画像受け、両方非同期実行で MP4 を永続ストレージにミラー。

Franklin の仕事はショットごとにこの 2 つから選ぶこと。今回 5 ショットすべて正解。それがマルチモデルの本質 — 「多くのモデルが存在する」ではなく「あなたが指名しなくてもエージェントが正しく選ぶ」

このパターンで何ができるか

  • 製品ローンチトレーラー (60s, 720p) — $12–$25
  • 3 言語オンボーディング動画 — $25–$45
  • Substack の週刊解説 — $8–$15
  • 10 分 YouTube エッセイ — $50–$100
  • オーディオブックの 1 章 — $0.60–$1.20

いずれも以前は領収書フォルダ、ダッシュボードのタブ、月 $200 のサブスクリプションフロアを必要とした。今はそれぞれ単一の franklin セッション、項目別請求書、お金が尽きた瞬間に止まるウォレット。

一文で

混合メディアコンテンツを作る必要があり、$200/月のサブスクリプションを払うか、週末をかけて 5 つの無料ティアを接合するかしてきたなら — Franklin はそのワークフローが「一つのツールに感じる」バージョン。「ツール」は結果に向けて自分でお金を使う方法を知っているウォレット。

11.97 ドル。ターミナル一つ。エージェント一つ。動画一つ。

自分の何かで試してみてほしい。

今すぐ試す

Franklin をインストール

コマンド二つ。無料枠が即時動く。ウォレットは自動生成。

$ npm install -g @blockrun/franklin
$ franklin

#franklin#video-production#field-notes#case-study#gpt-image-2#seedance#yopo