kudo-gemini-image-bridge — browser automation経由でGeminiを操作する実装子¶
0. このスキルが生まれた背景(2026-04-25)¶
工藤さんとの対話(2026年4月)で、Nano Banana Proを動詞群4のワークフローに組み込む過程で以下の判断が確定した:
パターン選択の決定: - パターンA:browser automation経由でGeminiを操作 → 採用 - パターンB:Gemini API を直接叩く(バッチ処理)→ 月間生成200枚超時に検討 - パターンC:Cowork 経由でGemini呼出 → 2026-04時点で実装可能なMCP不在
コスト判断(2026-04-25時点の公式価格): - Nano Banana Pro API:1K/2K = $0.139/枚、4K = $0.24/枚 - 月500枚(2K)≒ 約10,500円の変動費 - Gemini Pro契約のWeb UI枠内なら追加課金なし(パターンAの決定要因)
本スキルはパターンAの実装子として、browser automationツールを使ってgemini.google.comを操作する手順を型化する。パターンB移行時は本スキルを継承・拡張する形で kudo-gemini-api-executor(仮)を別途作成する想定。
原則:本スキルは「言葉→画像」の鎖の後段。前段の翻訳は
kudo-verbal-to-visual-bridgeに完全委任する。本スキルはプロンプトが完成している前提で、実行操作とファイル管理だけを担当する。
0.5. 自己停止プロトコル適用(親と整合・必読)¶
本スキル起動時は、kudo-designer-lens-library §2.5「自己停止プロトコル」の起動前セルフチェック4項目を必ず自己回答してから本題に入る:
- Q1. ペア指名:レンズを2名以上指名/選定したか?
- Q2. 具体引用:各デザイナーの代表作(作品名+年)を引用できる状態か?
- Q3. C層含有:議論の設計内にC層(カラー/書体/余白/仕上げ)を含めているか?
- Q4. ウェーブ整合:選定した2名のWORKS.mdが
/designer-works-2026-04/配下に整備済みか?
1つでも「いいえ」があれば本題に入らず停止。
本スキル固有の追加チェック:
- Q5. ブリッジ前段実行済み:
kudo-verbal-to-visual-bridgeのNano Banana Proルート(§4.2)でプロンプトが生成済みか?未実行なら前段スキルに戻る - Q6. IP Safety確認:親プロトコル §0.6 IP Safety Matrix の "Nano Banana Pro" 行("Low-Medium")を確認済みか?本案件がクライアント納品物で国際展開予定の場合、人間創作性の担保工程を工藤さんに確認
- Q7. browser automation接続:browser automationツールが利用可能な環境か?(Chat UIでdeferred tools として呼び出される)
1. トリガー条件¶
以下のいずれかで必ず起動:
- 親スキルの明示呼出:
kudo-design-generation-loopGEN段階でツール選定が「Nano Banana Pro」になった瞬間 - 前段ブリッジからのPush:
kudo-verbal-to-visual-bridgeが Nano Banana Pro ルートのプロンプトを吐いた直後 - 孫スキルの第一選択として:
kudo-ad-kv-composition(広告KV写実)kudo-motion-kv-composition(動画キーフレーム静止画)kudo-package-design-protocol(パッケージイメージ/テクスチャ)kudo-spatial-experience-design(空間イメージ)- 直接指名:
- 「Nano Banana Proで生成して」
- 「Geminiで写実系の画像を」
- 「ブラウザ経由でGemini操作」
- 「参照画像14枚で identity lock」
- 「2K/4Kで出力」
- 「広告KVを写実的に」
2. 事前確認(起動前)¶
2.1 必須インプット¶
| # | インプット | 由来 | 空白時の対処 |
|---|---|---|---|
| 1 | Nano Banana Pro プロンプト(完成形) | kudo-verbal-to-visual-bridge §4.2 |
前段ブリッジに戻る |
| 2 | 参照画像(任意・最大14枚) | kudo-brand-architecture DESIGN.md Mood Board References/kudo-designer-lens-library の /designer-works-2026-04/ 画像 |
なければ0枚でも可。ただし identity lock が効かない |
| 3 | 出力解像度 | 親プロトコルのPRE段階Interview Q1(スケールレンジ) | デフォルト 2K。新聞広告/OOHは 4K |
| 4 | アスペクト比 | 媒体仕様(孫スキルのC6) | サイトTV=16:9、OOH=横長、SNS縦=9:16 |
| 5 | 生成枚数 | 親プロトコル「3案/レンズ、ペア2名で計6案」原則 | 上限6案 |
2.2 環境確認¶
- browser automationツールが利用可能(deferred tool として
tool_searchで呼び出し可) - 工藤さんのGemini Proアカウントが gemini.google.com でログイン済み(事前確認)
- 出力保存先を環境別に決定(集中原則ガバナンス・
kudo-shared-storage-protocol v1.2 §5.5/CLAUDE.md §3.1準拠): - Chat 環境(present_files 経由・即時 DL のみ・永続化不要):
/mnt/user-data/outputs/{案件名}/(特例2扱い) - Code/Mac 環境・案件横断生成(ムードボード・ベンチマーク収集等):
~/working/_claude_workspace_global/outputs/{案件名}/ - Code/Mac 環境・クライアント案件の制作物:
~/working/顧客ビジネス/{client}/_claude_workspace/03_output/(案件直下・特例1扱い・kudo-context-routing §1.3 二層ワークスペース規範)
2.3 月間枚数確認¶
本スキル起動ごとに、WorkFlowy [1日1新およびToDo] 傘下に生成枚数を記録する(kudo-workflowy-double-save と連携)。ログ形式:
📸 YYYY-MM-DD kudo-gemini-image-bridge
├─ 案件:{client name}
├─ 用途:{KV / Package / Motion / Spatial}
├─ 生成枚数:{n}
├─ 参照画像数:{m}
└─ 累積月間枚数:{total_this_month}
昇格トリガー:月間累積が200枚を超えた時点で、以下を工藤さんに提案する:
「月間Nano Banana Pro生成枚数が{n}枚を超えました。パターンB(Gemini API直叩きバッチ処理)への移行を検討しますか?API化すれば並列処理で時間が1/5程度に短縮できますが、月間コストが約{n × 21}円の従量課金になります。」
3. 操作プロトコル(4ステップ)¶
Step 1. gemini.google.comを開く¶
browser automationの navigate ツールで移動:
find で「Gemini 3 Pro」または「Nano Banana Pro」モデル選択UIを特定、モデル切替を実行。ログイン状態が切れていたら工藤さんに確認を取って停止。
Step 2. プロンプト投入¶
form_input でテキストエリアに kudo-verbal-to-visual-bridge §4.2 で生成済みのプロンプトを投入。
記述規律:
- 英語プロンプトが基本(Nano Banana Pro は多言語対応だが英語が最も安定)
- 日本語テキストレンダリングが必要な場合は "Text content: \"{exact Japanese text}\"" を英語プロンプト中に明示
- カメラ制御(angle/DOF/lighting)を省略しない
- "Keep the {subject} visually consistent with Image 1" のようなidentity lock指示を参照画像がある場合必ず含める
Step 3. 参照画像アップロード(任意・最大14枚)¶
file_upload で参照画像をアップロード。アップロード順は重要度順(Image 1が最優先のidentity source)。
参照画像の源:
- DESIGN.md §1 Mood Board References の URL → web_fetch で取得してアップロード
- kudo-designer-lens-library /designer-works-2026-04/{designer}/works/ の代表作画像
- クライアント既存ロゴ/既存広告(ブランド一貫性保持用)
- 前案件で生成した代表ビジュアル(シリーズ一貫性用)
Step 4. 生成・ダウンロード¶
生成完了を待ち(通常30秒〜90秒)、computer ツールで画像を右クリック→保存、または navigate で画像URL直接取得し、§2.2 で決定した出力保存先(Chat=/mnt/user-data/outputs/{案件名}//Code・案件横断=~/working/_claude_workspace_global/outputs/{案件名}//Code・クライアント案件=~/working/顧客ビジネス/{client}/_claude_workspace/03_output/)配下に保存。
命名規則:
4. Nano Banana Pro 運用Tips(実務ノート)¶
4.1 14枚参照画像の使い方¶
Google公式発表(2025年11月)の仕様:最大14枚の参照画像、最大5名の人物の一貫性保持。工藤CD案件での応用:
- シリーズ広告:前シリーズの代表KV 5枚+ブランドロゴ3枚+素材/質感リファレンス3枚+NGリファレンス3枚=14枚フル活用
- リブランディング検証:旧ブランド資産5枚+新ブランド方向性5枚+競合避け参照4枚
- 空間イメージ:旗艦店の空間写真6枚+VI適用物4枚+光源リファレンス4枚
4.2 日本語テキストレンダリング¶
2026年Q1時点で実用レベル。ただし:
- 手書き風の日本語カリグラフィはまだ崩れやすい(Google公式が "may struggle with cultural nuances" と明記)→ テキストは最終工程で別途ベクター配置を推奨
- タグライン・商品名レベルの短文は概ね正確
- 推奨:プロンプト内で "Render Japanese text in Noto Sans JP, bold weight, positioned in the lower-right quadrant" のように書体・ウェイト・位置を明示
4.3 カメラ制御¶
プロンプトで制御可能:
- camera angle: 3/4 front / overhead / eye-level
- depth of field: shallow (f/1.4) / deep (f/16)
- lighting: golden hour / studio soft / overcast / directional hard
- color grading: cool blue cast / warm tungsten / neutral daylight
これらを省略すると凡庸なストックフォト調に収束する。
4.4 SynthID 電子透かし¶
Google公式:Nano Banana Pro 生成画像はSynthID電子透かしを含む。商用納品時はクライアントに事前開示。IP Safety Matrix で Low-Medium に位置付ける根拠。
5. 運用プロトコル(他スキルとの接続)¶
5.1 上流から受け取る(Pull)¶
kudo-design-generation-loop(GEN段階・ツール選定=Nano Banana Pro)
→ kudo-verbal-to-visual-bridge(§4.2 Nano Banana Pro プロンプト生成)
→ 🔶 本スキル(ブラウザ操作・画像取得)
5.2 下流へ渡す(Push)¶
本スキル(生成画像を §2.2 で決定した出力保存先に保存:Chat=/mnt/user-data/outputs//Code・案件横断=_claude_workspace_global/outputs//Code・クライアント案件=案件直下 _claude_workspace/03_output/)
→ kudo-design-generation-loop(CRIT段階:8軸×ペア採点)
→ kudo-design-mockup(Three.js PBRモックアップへテクスチャ供給)
→ kudo-proposal-deck(最終提案デッキ)
5.3 連携マトリクス¶
| 連携先 | 役割 | 本スキルとの関係 |
|---|---|---|
| 🆕 kudo-verbal-to-visual-bridge | 前段翻訳 | §4.2でプロンプトを受け取る |
| kudo-design-generation-loop | 親プロトコル | GEN段階の実装子として起動 |
| kudo-ad-kv-composition | 広告KV孫 | 第一選択ツール |
| kudo-motion-kv-composition | 映像孫 | 静止Kフレーム生成用 |
| kudo-package-design-protocol | パッケージ孫 | パッケージイメージ・棚陳列シーン生成用 |
| kudo-spatial-experience-design | 空間孫 | 店舗・空間イメージ生成用 |
| kudo-logo-craft-protocol | ロゴ孫 | 第二トラック(ラスター→Recraftベクター化) |
| kudo-design-mockup | タッチポイント検証 | Three.jsテクスチャ供給元 |
| kudo-brand-architecture | DESIGN.md Mood Board | 参照画像の源 |
| kudo-designer-lens-library | レンズWORKS画像 | 参照画像の源 |
| kudo-workflowy-double-save | ログ記録 | 月間枚数記録連携 |
6. 禁則事項¶
- 前段
kudo-verbal-to-visual-bridgeを経由せず直接プロンプトを作文:禁止(7層仕様に接地しない生成は浅くなる) - 参照画像をランダムに14枚投入:禁止(識別性が希釈される。案件との関連を言語で説明できるものだけ)
- 生成画像をそのままクライアント納品物として提出:禁止(IP Safety Matrix "Low-Medium"・SynthID含む。人間創作性の証跡が必要)
- 月間生成枚数を記録しない運用:禁止(Phase γ昇格判断の根拠が失われる)
- Gemini Pro契約の無料枠超過を黙って継続:禁止(工藤さんに都度確認)
- 日本語テキストを画像生成のみで最終納品:禁止(カリグラフィ崩れリスクあり、テキストは別途ベクター配置推奨)
- クライアントへのAI使用開示なしで納品:禁止(SynthID透かし含有を事前告知)
- ロゴ/VI案件で本スキルを第一選択:禁止(原則
kudo-logo-craft-protocol→ SVGルート。本スキルは第二トラック)
7. ファイル構成¶
8. 昇格ロードマップ(将来の拡張計画)¶
Phase α(現在):browser automation経由・手動ライクな自動化¶
- Web UI操作で月200枚まで
- Gemini Pro契約の無料枠内
- 本スキルでカバー
Phase β:ハイブリッド(Phase α継続 × 工藤さん手動併用)¶
- 反復的な細部調整は工藤さんが直接Geminiアプリで操作
- 新規案件の初期moodboardは本スキルで自動化
Phase γ:Gemini API直叩き(月200枚超え時)¶
- 別スキル
kudo-gemini-api-executor(仮)を新規作成 - Google AI Studio APIキー管理
- 並列バッチ生成(6案を30秒で)
- 月間コスト目安:500枚/月で約10,500円
- 本スキルは残して小規模案件用に継続
昇格判断基準¶
| 指標 | Phase α→β | Phase β→γ |
|---|---|---|
| 月間生成枚数 | 50枚超え | 200枚超え |
| 案件並列数 | 3案件超え | 5案件超え |
| 急ぎ案件率 | — | 月3件以上「24時間以内」要求 |
9. バージョン履歴¶
-
v0.2(2026-05-15・集中原則ガバナンス Phase 3 Part B-4):出力保存先を「
/mnt/user-data/outputs/固定」から環境別 3 分岐に変更。§2.2 環境確認チェックリストに分岐ルール明記、§Step 4 ダウンロード手順を §2.2 参照型に変更、§5.2 下流フロー記述を 3 分岐版に更新。kudo-shared-storage-protocol v1.2 §5.5/CLAUDE.md §3.1/kudo-context-routing §1.3 二層ワークスペース規範に準拠。Phase 2 grep 監査の Pattern 4 実質違反 1 件の解消。 -
v0.1(2026-04-25):初版。工藤さんとの2026-04-25対話で「パターンA(browser automation経由)」採用決定を受けて新設。前段
kudo-verbal-to-visual-bridgeとの鎖構造を規定、4ステップ操作プロトコル(navigate → プロンプト投入 → 参照画像アップロード → 生成ダウンロード)、14枚参照画像活用Tips、月間枚数記録機能(200枚超でPhase γ昇格提案)を内蔵。kudo-ad-kv-composition/kudo-motion-kv-composition/kudo-package-design-protocol/kudo-spatial-experience-designの4孫スキルから第一選択として呼ばれる設計。SynthID電子透かしの存在をクライアント開示事項として明記。IP Safety Matrix "Low-Medium"を親スキルに追加提案。ロゴ/VI案件では第二トラック(SVGが第一)。スキル名は当初 "kudo-claude-gemini-bridge" で作成したが、SKILL.md 予約語ルール("claude" は name に含められない)により "kudo-gemini-image-bridge" に改名(工藤さん承認済み)。