コンテンツにスキップ

kudo-gemini-image-bridge — browser automation経由でGeminiを操作する実装子

0. このスキルが生まれた背景(2026-04-25)

工藤さんとの対話(2026年4月)で、Nano Banana Proを動詞群4のワークフローに組み込む過程で以下の判断が確定した:

パターン選択の決定: - パターンA:browser automation経由でGeminiを操作 → 採用 - パターンB:Gemini API を直接叩く(バッチ処理)→ 月間生成200枚超時に検討 - パターンC:Cowork 経由でGemini呼出 → 2026-04時点で実装可能なMCP不在

コスト判断(2026-04-25時点の公式価格): - Nano Banana Pro API:1K/2K = $0.139/枚、4K = $0.24/枚 - 月500枚(2K)≒ 約10,500円の変動費 - Gemini Pro契約のWeb UI枠内なら追加課金なし(パターンAの決定要因)

本スキルはパターンAの実装子として、browser automationツールを使ってgemini.google.comを操作する手順を型化する。パターンB移行時は本スキルを継承・拡張する形で kudo-gemini-api-executor(仮)を別途作成する想定。

原則:本スキルは「言葉→画像」の鎖の後段。前段の翻訳は kudo-verbal-to-visual-bridge に完全委任する。本スキルはプロンプトが完成している前提で、実行操作とファイル管理だけを担当する。


0.5. 自己停止プロトコル適用(親と整合・必読)

本スキル起動時は、kudo-designer-lens-library §2.5「自己停止プロトコル」の起動前セルフチェック4項目を必ず自己回答してから本題に入る:

  • Q1. ペア指名:レンズを2名以上指名/選定したか?
  • Q2. 具体引用:各デザイナーの代表作(作品名+年)を引用できる状態か?
  • Q3. C層含有:議論の設計内にC層(カラー/書体/余白/仕上げ)を含めているか?
  • Q4. ウェーブ整合:選定した2名のWORKS.mdが /designer-works-2026-04/ 配下に整備済みか?

1つでも「いいえ」があれば本題に入らず停止

本スキル固有の追加チェック:

  • Q5. ブリッジ前段実行済みkudo-verbal-to-visual-bridge のNano Banana Proルート(§4.2)でプロンプトが生成済みか?未実行なら前段スキルに戻る
  • Q6. IP Safety確認:親プロトコル §0.6 IP Safety Matrix の "Nano Banana Pro" 行("Low-Medium")を確認済みか?本案件がクライアント納品物で国際展開予定の場合、人間創作性の担保工程を工藤さんに確認
  • Q7. browser automation接続:browser automationツールが利用可能な環境か?(Chat UIでdeferred tools として呼び出される)

1. トリガー条件

以下のいずれかで必ず起動:

  • 親スキルの明示呼出kudo-design-generation-loop GEN段階でツール選定が「Nano Banana Pro」になった瞬間
  • 前段ブリッジからのPushkudo-verbal-to-visual-bridge が Nano Banana Pro ルートのプロンプトを吐いた直後
  • 孫スキルの第一選択として
  • kudo-ad-kv-composition(広告KV写実)
  • kudo-motion-kv-composition(動画キーフレーム静止画)
  • kudo-package-design-protocol(パッケージイメージ/テクスチャ)
  • kudo-spatial-experience-design(空間イメージ)
  • 直接指名
  • 「Nano Banana Proで生成して」
  • 「Geminiで写実系の画像を」
  • 「ブラウザ経由でGemini操作」
  • 「参照画像14枚で identity lock」
  • 「2K/4Kで出力」
  • 「広告KVを写実的に」

2. 事前確認(起動前)

2.1 必須インプット

# インプット 由来 空白時の対処
1 Nano Banana Pro プロンプト(完成形) kudo-verbal-to-visual-bridge §4.2 前段ブリッジに戻る
2 参照画像(任意・最大14枚) kudo-brand-architecture DESIGN.md Mood Board References/kudo-designer-lens-library の /designer-works-2026-04/ 画像 なければ0枚でも可。ただし identity lock が効かない
3 出力解像度 親プロトコルのPRE段階Interview Q1(スケールレンジ) デフォルト 2K。新聞広告/OOHは 4K
4 アスペクト比 媒体仕様(孫スキルのC6) サイトTV=16:9、OOH=横長、SNS縦=9:16
5 生成枚数 親プロトコル「3案/レンズ、ペア2名で計6案」原則 上限6案

2.2 環境確認

  • browser automationツールが利用可能(deferred tool として tool_search で呼び出し可)
  • 工藤さんのGemini Proアカウントが gemini.google.com でログイン済み(事前確認)
  • 出力保存先を環境別に決定(集中原則ガバナンス・kudo-shared-storage-protocol v1.2 §5.5 / CLAUDE.md §3.1 準拠):
  • Chat 環境(present_files 経由・即時 DL のみ・永続化不要)/mnt/user-data/outputs/{案件名}/(特例2扱い)
  • Code/Mac 環境・案件横断生成(ムードボード・ベンチマーク収集等)~/working/_claude_workspace_global/outputs/{案件名}/
  • Code/Mac 環境・クライアント案件の制作物~/working/顧客ビジネス/{client}/_claude_workspace/03_output/(案件直下・特例1扱い・kudo-context-routing §1.3 二層ワークスペース規範)

2.3 月間枚数確認

本スキル起動ごとに、WorkFlowy [1日1新およびToDo] 傘下に生成枚数を記録する(kudo-workflowy-double-save と連携)。ログ形式:

📸 YYYY-MM-DD kudo-gemini-image-bridge
├─ 案件:{client name}
├─ 用途:{KV / Package / Motion / Spatial}
├─ 生成枚数:{n}
├─ 参照画像数:{m}
└─ 累積月間枚数:{total_this_month}

昇格トリガー:月間累積が200枚を超えた時点で、以下を工藤さんに提案する:

「月間Nano Banana Pro生成枚数が{n}枚を超えました。パターンB(Gemini API直叩きバッチ処理)への移行を検討しますか?API化すれば並列処理で時間が1/5程度に短縮できますが、月間コストが約{n × 21}円の従量課金になります。」


3. 操作プロトコル(4ステップ)

Step 1. gemini.google.comを開く

browser automationの navigate ツールで移動:

navigate: https://gemini.google.com/

find で「Gemini 3 Pro」または「Nano Banana Pro」モデル選択UIを特定、モデル切替を実行。ログイン状態が切れていたら工藤さんに確認を取って停止。

Step 2. プロンプト投入

form_input でテキストエリアに kudo-verbal-to-visual-bridge §4.2 で生成済みのプロンプトを投入。

記述規律: - 英語プロンプトが基本(Nano Banana Pro は多言語対応だが英語が最も安定) - 日本語テキストレンダリングが必要な場合は "Text content: \"{exact Japanese text}\"" を英語プロンプト中に明示 - カメラ制御(angle/DOF/lighting)を省略しない - "Keep the {subject} visually consistent with Image 1" のようなidentity lock指示を参照画像がある場合必ず含める

Step 3. 参照画像アップロード(任意・最大14枚)

file_upload で参照画像をアップロード。アップロード順は重要度順(Image 1が最優先のidentity source)。

参照画像の源: - DESIGN.md §1 Mood Board References の URL → web_fetch で取得してアップロード - kudo-designer-lens-library /designer-works-2026-04/{designer}/works/ の代表作画像 - クライアント既存ロゴ/既存広告(ブランド一貫性保持用) - 前案件で生成した代表ビジュアル(シリーズ一貫性用)

Step 4. 生成・ダウンロード

生成完了を待ち(通常30秒〜90秒)、computer ツールで画像を右クリック→保存、または navigate で画像URL直接取得し、§2.2 で決定した出力保存先(Chat=/mnt/user-data/outputs/{案件名}//Code・案件横断=~/working/_claude_workspace_global/outputs/{案件名}//Code・クライアント案件=~/working/顧客ビジネス/{client}/_claude_workspace/03_output/)配下に保存。

命名規則

{案件名}_{用途}_{レンズA}-{レンズB}_{案番号}_{YYYYMMDD}.png

例:SNKRDUNK_KV_kasai-satou_01_20260425.png


4. Nano Banana Pro 運用Tips(実務ノート)

4.1 14枚参照画像の使い方

Google公式発表(2025年11月)の仕様:最大14枚の参照画像、最大5名の人物の一貫性保持。工藤CD案件での応用:

  • シリーズ広告:前シリーズの代表KV 5枚+ブランドロゴ3枚+素材/質感リファレンス3枚+NGリファレンス3枚=14枚フル活用
  • リブランディング検証:旧ブランド資産5枚+新ブランド方向性5枚+競合避け参照4枚
  • 空間イメージ:旗艦店の空間写真6枚+VI適用物4枚+光源リファレンス4枚

4.2 日本語テキストレンダリング

2026年Q1時点で実用レベル。ただし: - 手書き風の日本語カリグラフィはまだ崩れやすい(Google公式が "may struggle with cultural nuances" と明記)→ テキストは最終工程で別途ベクター配置を推奨 - タグライン・商品名レベルの短文は概ね正確 - 推奨:プロンプト内で "Render Japanese text in Noto Sans JP, bold weight, positioned in the lower-right quadrant" のように書体・ウェイト・位置を明示

4.3 カメラ制御

プロンプトで制御可能: - camera angle: 3/4 front / overhead / eye-level - depth of field: shallow (f/1.4) / deep (f/16) - lighting: golden hour / studio soft / overcast / directional hard - color grading: cool blue cast / warm tungsten / neutral daylight

これらを省略すると凡庸なストックフォト調に収束する。

4.4 SynthID 電子透かし

Google公式:Nano Banana Pro 生成画像はSynthID電子透かしを含む。商用納品時はクライアントに事前開示。IP Safety Matrix で Low-Medium に位置付ける根拠。


5. 運用プロトコル(他スキルとの接続)

5.1 上流から受け取る(Pull)

kudo-design-generation-loop(GEN段階・ツール選定=Nano Banana Pro)
  → kudo-verbal-to-visual-bridge(§4.2 Nano Banana Pro プロンプト生成)
    → 🔶 本スキル(ブラウザ操作・画像取得)

5.2 下流へ渡す(Push)

本スキル(生成画像を §2.2 で決定した出力保存先に保存:Chat=/mnt/user-data/outputs//Code・案件横断=_claude_workspace_global/outputs//Code・クライアント案件=案件直下 _claude_workspace/03_output/)
  → kudo-design-generation-loop(CRIT段階:8軸×ペア採点)
    → kudo-design-mockup(Three.js PBRモックアップへテクスチャ供給)
      → kudo-proposal-deck(最終提案デッキ)

5.3 連携マトリクス

連携先 役割 本スキルとの関係
🆕 kudo-verbal-to-visual-bridge 前段翻訳 §4.2でプロンプトを受け取る
kudo-design-generation-loop 親プロトコル GEN段階の実装子として起動
kudo-ad-kv-composition 広告KV孫 第一選択ツール
kudo-motion-kv-composition 映像孫 静止Kフレーム生成用
kudo-package-design-protocol パッケージ孫 パッケージイメージ・棚陳列シーン生成用
kudo-spatial-experience-design 空間孫 店舗・空間イメージ生成用
kudo-logo-craft-protocol ロゴ孫 第二トラック(ラスター→Recraftベクター化)
kudo-design-mockup タッチポイント検証 Three.jsテクスチャ供給元
kudo-brand-architecture DESIGN.md Mood Board 参照画像の源
kudo-designer-lens-library レンズWORKS画像 参照画像の源
kudo-workflowy-double-save ログ記録 月間枚数記録連携

6. 禁則事項

  • 前段 kudo-verbal-to-visual-bridge を経由せず直接プロンプトを作文:禁止(7層仕様に接地しない生成は浅くなる)
  • 参照画像をランダムに14枚投入:禁止(識別性が希釈される。案件との関連を言語で説明できるものだけ)
  • 生成画像をそのままクライアント納品物として提出:禁止(IP Safety Matrix "Low-Medium"・SynthID含む。人間創作性の証跡が必要)
  • 月間生成枚数を記録しない運用:禁止(Phase γ昇格判断の根拠が失われる)
  • Gemini Pro契約の無料枠超過を黙って継続:禁止(工藤さんに都度確認)
  • 日本語テキストを画像生成のみで最終納品:禁止(カリグラフィ崩れリスクあり、テキストは別途ベクター配置推奨)
  • クライアントへのAI使用開示なしで納品:禁止(SynthID透かし含有を事前告知)
  • ロゴ/VI案件で本スキルを第一選択:禁止(原則 kudo-logo-craft-protocol → SVGルート。本スキルは第二トラック)

7. ファイル構成

kudo-gemini-image-bridge/
├── SKILL.md                  ← 本ファイル
└── PROMPT_ARCHIVE/           ← 成功プロンプトのアーカイブ(任意、案件別)

8. 昇格ロードマップ(将来の拡張計画)

Phase α(現在):browser automation経由・手動ライクな自動化

  • Web UI操作で月200枚まで
  • Gemini Pro契約の無料枠内
  • 本スキルでカバー

Phase β:ハイブリッド(Phase α継続 × 工藤さん手動併用)

  • 反復的な細部調整は工藤さんが直接Geminiアプリで操作
  • 新規案件の初期moodboardは本スキルで自動化

Phase γ:Gemini API直叩き(月200枚超え時)

  • 別スキル kudo-gemini-api-executor(仮)を新規作成
  • Google AI Studio APIキー管理
  • 並列バッチ生成(6案を30秒で)
  • 月間コスト目安:500枚/月で約10,500円
  • 本スキルは残して小規模案件用に継続

昇格判断基準

指標 Phase α→β Phase β→γ
月間生成枚数 50枚超え 200枚超え
案件並列数 3案件超え 5案件超え
急ぎ案件率 月3件以上「24時間以内」要求

9. バージョン履歴

  • v0.2(2026-05-15・集中原則ガバナンス Phase 3 Part B-4):出力保存先を「/mnt/user-data/outputs/ 固定」から環境別 3 分岐に変更。§2.2 環境確認チェックリストに分岐ルール明記、§Step 4 ダウンロード手順を §2.2 参照型に変更、§5.2 下流フロー記述を 3 分岐版に更新。kudo-shared-storage-protocol v1.2 §5.5 / CLAUDE.md §3.1 / kudo-context-routing §1.3 二層ワークスペース規範 に準拠。Phase 2 grep 監査の Pattern 4 実質違反 1 件の解消。

  • v0.1(2026-04-25):初版。工藤さんとの2026-04-25対話で「パターンA(browser automation経由)」採用決定を受けて新設。前段 kudo-verbal-to-visual-bridge との鎖構造を規定、4ステップ操作プロトコル(navigate → プロンプト投入 → 参照画像アップロード → 生成ダウンロード)、14枚参照画像活用Tips、月間枚数記録機能(200枚超でPhase γ昇格提案)を内蔵。kudo-ad-kv-composition/kudo-motion-kv-composition/kudo-package-design-protocol/kudo-spatial-experience-designの4孫スキルから第一選択として呼ばれる設計。SynthID電子透かしの存在をクライアント開示事項として明記。IP Safety Matrix "Low-Medium"を親スキルに追加提案。ロゴ/VI案件では第二トラック(SVGが第一)。スキル名は当初 "kudo-claude-gemini-bridge" で作成したが、SKILL.md 予約語ルール("claude" は name に含められない)により "kudo-gemini-image-bridge" に改名(工藤さん承認済み)。