もふもふAI動物工房

親猫のしっぽは、なぜ“ちぎれる”のか?――画像生成AIを飼いならすための奮闘記

2025年8月7日時点の情報です。今後仕様や精度等は変わる可能性がある点、あらかじめご了承ください。

はじめに:微笑ましい光景が悪夢に変わった日

「親猫のしっぽで無邪気に遊ぶ子猫」

猫好きならば、その言葉だけで心が温かくなるような、愛と平和に満ちた情景を思い浮かべるでしょう。

ふわりと揺れるしっぽに、小さなハンターがじゃれつく姿。そこには親子の絆、安心感、そして生命の輝きが詰まっています。

しかし!

その“当たり前”の光景を画像生成AIに託した瞬間、私は悪夢のような光景を目の当たりにしました。

生成される画像の多くが、

親猫の体から切断されたしっぽを子猫がおもちゃにしている

という、不気味な構図だったのです。例えば

2〜3匹の子猫が、母猫のしっぽをおもちゃにして遊んでいる。しっぽは母猫の体にしっかりつながっていて、後ろから自然に生えている。母猫は落ち着いて座り、優しい目で子猫たちを見ている。柔らかい室内照明。横長構図。リアルで高品質な写真。

これで、プロンプト通りの画像が出来上がるかと思ってワクワクした結果、生成された画像がこちら

2〜3匹の子猫が、母猫のしっぽをおもちゃにして遊んでいる。しっぽは母猫の体にしっかりつながっていて、後ろから自然に生えている。母猫は落ち着いて座り、優しい目で子猫たちを見ている。柔らかい室内照明。横長構図。リアルで高品質な写真
Copilotで生成

ちょっと待って。

これ誰のしっぽ!?

母親のしっぽでもなさそうだし、どの子のしっぽをちぎったの!?

しかも、生成に失敗しておきながら

「母猫のしっぽで遊ぶ子猫たちの、あたたかくて愛らしい瞬間をリアルに描いた」

と、Copilotが自画自賛のコメントをしている様が実に哀れにゃ...

というわけで、

この記事は、微笑ましい一枚の絵を求めてAIと格闘したドキュメントです。

なぜAIは“しっぽをちぎって”しまうのか?

そして、どうすればAIに「生命のつながり」を理解させられるのか?

その試行錯誤の過程を共有します。

AIの残酷な純粋さ:なぜ“可愛い”が“不気味”に変わるのか?

CopilotやDALL-Eといった多くの画像生成AIは、人間のように世界の物理法則や文脈を理解しているわけではありません。

彼らは膨大な画像データから「単語と画像のパターン」を学習しています。

今回のケースで言えば、AIは「子猫」「しっぽ」「遊ぶ」という単語の組み合わせから、

「子猫の近くにしっぽがあれば“正解”らしい」

と判断します。

構図の論理性よりも、学習データ上で最も頻出する「視覚的な可愛さ」のパターンを優先してしまうのです。

つまり、「視覚的な魅力」や「感情的なインパクト」を優先し「可愛く見える配置」=「正しい構図」と判断する傾向があります。

例えば、「子猫が親猫のしっぽで遊んでいる」という指示を与えると、AIは次のような短絡的な判断を下します。

  • 判断1:「子猫がしっぽで遊ぶ絵」を描こう
  • 判断2:子猫の手前にしっぽを置くと、可愛く見える構図が多いな。
  • 結論:よし、子猫の手前にしっぽを配置しよう!(親猫の体?それは知らない。データ上、必須ではなかったから) 

このように、AIは「子猫の手前にしっぽがある方が可愛い」と判断し、その結果、親猫の位置や存在が無視され、しっぽだけが画面中央に描かれる。親猫が画面外にいる場合は、しっぽだけが“浮遊”するような構図になり、物理的なつながりが失われてしまいます。

この「情緒的な魅力への過剰最適化」「物理的整合性の欠如」こそが、しっぽが“ちぎれる”原因です。

AIは「しっぽは親猫の体の一部である」という、私たちにとっては自明の理を知らないのです。

そのため、AIは“しっぽで遊ぶ子猫”という情緒的な要素を強調するあまり、しっぽの持ち主である親猫の存在を省略が起こってしまうのです。

🤖AIは「見た目の可愛さ優先」、しっぽの物理的な接続といった論理は後回し

主題を魅力的に見せようとするバイアス

一般的に、動物の画像、特に子猫のような愛らしい対象を生成する際、AIの画像生成モデルは「顔を見せる」「表情を捉える」構図を優先する傾向があります。

これは、多くの学習データにおいて、顔が写っている写真の方が「良い写真」として評価されるためです。

例えば、子猫が空き箱やベッドの下に潜り込んで「頭と肩まで中に入り、後ろ足とお尻、しっぽだけが外に見えている」状態の画像を作りたい場合、「顔を隠す」という明確な指示よりも、「子猫の顔を見せたい」というバイアスが強く働いてしまい、無意識に顔が見える構図を生成してしまう可能性があるのです。

このバイアスをより確実に回避するためには、より詳細かつ強制力の強いプロンプトを作る必要があります。

例:元のプロンプト: A curious kitten trying to squeeze into a tiny cardboard box, head and shoulders inside, only rear legs visible outside, photorealistic.

問題点: 画像生成モデルによっては「head and shoulders inside」を軽視する可能性がある。

改善案(より強力なプロンプト): Photorealistic close-up from a side-rear angle, focusing on the rear end of a tiny tabby kitten. The kitten's entire head, shoulders, and front paws are completely hidden inside a ridiculously small cardboard box. Only its fluffy hind legs, hips, and tail are visible sticking out. The composition emphasizes the comical struggle and the kitten's determination. The lighting is soft and natural, highlighting the texture of the fur and the corrugated cardboard.

このように、「アングル(side-rear angle)」「完全に隠れている(completely hidden)」「何が見えているか(Only its fluffy hind legs, hips, and tail are visible)」をより具体的に、かつ否定形ではなく肯定形で記述することで、AIの誤解を大幅に減らすことができます。

こと細かい設定でも破綻した例

ここで、詳細な設定を盛り込んだにも関わらず、しっぽがちぎれる事故が発生したプロンプトを紹介します。以下の英文は画像生成のプロンプトで実際に使ったものです。

めっちゃ長いです。ご注意ください。

Photorealistic indoor scene. An adult tabby cat lies lengthwise on a wooden dining table, body parallel to the wood grain, head slightly turned outward, gaze off-frame, calm. A tabby kitten plays only with the tip of the adult’s tail.

Distance locks:

  • Minimum gap between the adult’s hip/torso side and the kitten’s chest/belly = 18–28 cm, with a clear air-gap and a visible cast shadow between them
  • Distance between the tail tip and the kitten’s forepaws = 0–0.5 cm (contact allowed at the tip only; no other body contact)
  • Tail arc extends from the adult toward the kitten with no overlap on the adult’s torso/hip/legs

Framing:

  • Camera at eye height (~90 cm), 5° downward tilt, 40–50 mm equivalent focal length
  • Adult bounding box = left 10–60% of frame
  • Kitten bounding box = right 70–92% of frame
  • Maintain a horizontal “empty band” of 10–15% frame width between them (no overlap)
  • Include both near and far table edges for depth cues

Environment:

  • Warm side window daylight, soft contact shadows
  • Background furniture softly defocused (shallow depth of field)
  • Accurate feline anatomy, natural tabby coats, realistic whiskers, high resolution
  • No text or carvings on the table, no extra animals

Hard negatives:

  • Kitten touching or overlapping the adult’s torso/hip/legs
  • Grabbing/biting any part of the tail except the very tip
  • Biting, yanking, or mid-jump poses

ここまで細かく設定を盛り込み、できた画像がこちら

ちぎれた母猫のしっぽに触ってる子猫

うおぉぉいっっっ!!

子猫がちぎれたしっぽを持ってるし!!!

ここまで細かい設定を盛り込んでリクエストしたにもかかわらず、作られる画像が毎回のように「失敗作」って、がっくり。

どんだけプロンプトを改良しても、しっぽがちぎれたり、母猫の前足近くから生えてくる。

冒頭ご紹介したシンプルなプロンプトから、様々こと細かいプロンプトで指示を出したにも関わらず、頑なに「子猫を画像の手前でしっぽとじゃれる」という構図を譲りません。

「ふざけんなゴルァ💢」

と思いつつ、悪戦苦闘すること数時間。

これまでの失敗作の傾向から、

「子猫をどうしても前方で遊ばせたいバイアスがかかってるのではないか」

とふと思ったのです。

であれば、思い切って、アングルとか構図そのものを見直すことで、そのバイアスを強制的に解除できるのではないか、と。

そこで、そのバイアスを取り除くために、プロンプトの設計を見直すことにしました。

発想の転換で破綻が出にくい構図を発見

まずは、しっぽがちぎれたり、変なところから生えさせないように、親子猫の位置を

この構図は日本語よりも英語のプロンプトのほうが生成結果がいいので、英語プロンプトを紹介しております。

プロンプト1

「前に置くと描けない」構造を強制する形に思い切って変更。バイアスをかなり外せます。

プロンプトと日本語訳

Photorealistic indoor scene. Camera positioned directly behind the kitten, aimed toward the adult tabby cat’s far side. The adult lies lengthwise on a wooden dining table, tail extending toward the kitten at the far end of the table. The kitten is positioned behind the adult’s hip on the far side, near the tail tip, playing with only the tip. In the foreground (nearest camera) is only empty tabletop; no cat is in front of the adult. A small potted plant is placed in front of the adult’s face side, blocking any space for the kitten to be there. Minimum gap between kitten torso and adult hip = 20–28 cm. Warm indoor daylight, shallow depth of field, accurate feline anatomy.

日本語訳:
フォトリアルな屋内シーン。カメラは子猫の真後ろに配置され、成猫の胴体の反対側に向けて構えられている。成猫は木製のダイニングテーブルの上に体を伸ばして横たわり、尻尾はテーブルの端にいる子猫の方へ伸びている。子猫は成猫の腰の後方、尻尾の先端付近に位置し、尻尾の先だけで遊んでいる。手前(カメラに最も近い部分)は空のテーブルトップだけで、成猫の前方には猫はいない。成猫の顔側の前方には小さな鉢植えが置かれており、その場所には子猫が入る余地はない。子猫の胴体と成猫の腰の間の最小間隔は20〜28cm。暖かな室内の自然光、浅い被写界深度、正確な猫の解剖学的表現。

画像生成結果がこちら

Photorealistic indoor scene. Camera positioned directly behind the kitten, aimed toward the adult tabby cat’s far side パターン1
Photorealistic indoor scene. Camera positioned directly behind the kitten, aimed toward the adult tabby cat’s far side パターン2

すごい!子猫がしっぽをちぎってでも無理やり前で遊ばせることをやめてくれた!

イメージはその時々によって変わるものの、しっぽがちぎれる破綻の確率がグッと下がりました。

🔑 カギになるセンテンス


“The kitten is positioned behind the adult’s hip on the far side, near the tail tip, playing with only the tip.”
(子猫は成猫の腰の後方、反対側の尻尾の先端付近に位置し、尻尾の先だけで遊んでいる。)

理由としては

  • 成猫の「腰の後方」+「尻尾の先端付近」 という位置関係を明示することで、尻尾が体から自然に続いている必要がある
  • 「playing with only the tip」と限定することで、触れているのが「尻尾の先端」であると強調できる
  • これがないと、AIが「子猫の位置が不明確 → 尻尾を無理やり近づける → 浮遊・変な場所から生える」と解釈してしまう

さらに補強しているセンテンスは:


“Minimum gap between kitten torso and adult hip = 20–28 cm.”
(子猫の胴体と成猫の腰の間の最小間隔は20〜28cm。)

これにより「腰と尾の付け根から自然に尻尾が伸びている」という構造を強制的に成り立たせています。

まとめると、 「The kitten is positioned behind the adult’s hip…」の一文が最も重要 で、
それを 距離指定(20–28cm) が補強して、尻尾の異常な生え方や浮遊を防いでいる、という構図になっています。

次に詰められる点

ただ、この構図では子猫の表情が見えなくなる画像が出来上がるケースも少なくないため、“顔を見せつつも前に出られない”構造に改良していきます。

次に詰められるポイント案:

  • 目線の演出:ほんの一瞬こちらを見る「アイコンタクト」を入れると、感情の距離がぐっと縮まります
  • しっぽとの動きの連動:成猫の尾が少し揺れていて、それに反応して子猫の前足も動く描写
  • 空気感の強化:ほんのわずかな毛並みの逆立ちや光の反射で「今この瞬間の遊び感」を強調

この章のポイント

顔見せ+後方配置の両立テク

  • 対角後方や斜め横からの低めアングル
    • カメラを成猫の尻尾側の斜め後ろ&やや低めに置く
    • 子猫は成猫の腰の後ろ側にいるけど、こちらを振り返って遊んでいる状態に
    • こうすると、顔が視界に入りつつ、物理的には「前」に来られない構図になります
  • 尾のカーブを“額縁”にする
    • 尾を手前から奥にアーチ状に伸ばし、その向こう側に子猫の顔
    • これで尾が自然に前後関係を示しつつ、視線を顔へ導けます
  • 視線誘導用の小物
    • 子猫の後方テーブル端に小さなおもちゃや毛糸玉を置き、それを見ながらこっちをチラ見
    • 「遊びつつ顔を見せる」自然な理由ができます

プロンプト2

Photorealistic indoor scene. Camera positioned at the adult cat’s tail side, slightly behind and lower than the hip, angled toward the far end of the table. The kitten is behind the adult’s hip on the far side, turning its head toward the camera with bright eyes while gently pawing at the tip of the adult’s tail. The adult’s curved tail arcs between the camera and the kitten’s face, framing it. Foreground is only empty tabletop; no cat is in front of the adult. A small yarn ball sits near the kitten’s back paws at the table’s far edge. Accurate feline anatomy, warm indoor daylight, shallow depth of field.
Photorealistic indoor scene. Camera positioned at the adult cat’s tail side

子猫の表情が見えてきました。

表情としっぽ、どちらを優先するかは本当にトレードオフになりやすいところで、今回は尾の自然さ>表情に振り切った分、軸がガッチリ固まった感じです。

でも、このしっぽの生え方が掴めたのは大きな財産。ここを絶対条件として固定しつつ、母猫の表情だけを後から乗せる方向に持っていけます。

もう少し変えてみましょう。次のステップ案は

  • 尾の構造を“ロック”したままカメラ位置を微回転 → 顔が少しこちらを向く位置を探す
  • 視線誘導の小物を尾の奥に配置 → 自然に首をひねらせ、表情がカメラに入るように
  • 表情の光演出 → 顔側だけに柔らかい反射光を当て、毛並みと目のきらめきを強調

プロンプト3

「カメラ目線→しっぽへ視線誘導」に自然に移す微調整をします。前回の構図の強み(尾の生え方と距離感)は絶対に崩さず、視線と前足の動きで“じゃれ感”を強化します。

しっぽ遊び感を出すための調整ポイント

  • 顔の向き指定を柔らかく
    • facing the tail tip や gazing down at the tail tip などに変更
    • 直接「not looking at camera」よりも、何を見ているかを指定すると自然
  • 前足アクションの具体化
    • batting at the tail tip with one paw mid-air や both paws gently holding the tail while in motion
    • 動きの瞬間を切り取ると“遊んでる感”が格段にアップ
  • 尾の動きとリンク
    • tail slightly swaying toward the kitten’s paws
    • 親猫の尾が“誘ってる”ように見える設定を加えると自然な視線移動に
Photorealistic indoor scene. Camera positioned at the adult cat’s tail side, slightly behind and lower than the hip, angled toward the far end of the table. The kitten is behind the adult’s hip on the far side, gazing down at the curved tip of the adult’s tail, front right paw mid-air as if to bat it. The adult’s tail arcs between the camera and the kitten, tip slightly swaying toward the kitten’s paw. Foreground is only empty tabletop; no cat is in front of the adult. A small yarn ball sits near the kitten’s back paws at the table’s far edge. Accurate feline anatomy, warm indoor daylight, shallow depth of field.
Photorealistic indoor scene. Camera positioned at the adult cat’s tail side

尾の自然さを維持しつつ「今まさに遊んでる瞬間」が入りました。

やはり、前足がしっぽに触れている様子は残したいですね。

破綻の少ない構図が成功できた要因

どれだけ長文で、詳細な設定や指示をプロンプトに盛り込んだとしても、破綻が何一つ解消しなかったケースがあった中で、その半分以下の文字数で構図を変えただけで破綻が劇的に解消できたのでしょうか。

ポイントは、実は「文章量」そのものよりも情報の質と構造の重み付けだということがわかりました。

長文で事細かく設定した場合、AIが“優先度の低い装飾情報”まで全部拾おうとするあまり、肝心の空間関係や制約が埋もれてしまうことがあります。

今回のように、文字数の削減によって結果的に構図を決定づける条件だけが前面に残ったことで、モデルの選択肢が狭まり「それっぽい」配置に収束したようです。

なぜ短くしたほうが効いたか

  • 指示の衝突が減った
    • 「感情表現・背景・光」などの柔らかい要素と、「位置・距離・角度」などの硬い要素が混在すると、モデルは“可愛い配置”を優先してしまいがち。短くしたことで、硬い条件が勝てる環境になった
  • 必須条件が先頭に集まった
    • モデルは上から読む癖があるので、カメラ位置や物理的バリアを最初に置くと、空間的制約が揺らぎにくい
  • 構造がシンプルになり、内部で組み立てやすくなった
    • 長文だと「これは飾りの描写か?構図の条件か?」と迷って、結果的に安全な(=バイアスの)配置を選びやすい

📌 つまり
長さを削ったのは副作用で、本質は「構図を固定する論理パーツを抽出して、最優先として提示した」こと。だから今後は、最初に空間ロック条件を置き、そのあとに質感や雰囲気を足す“二層構造”にすると安定します。

ついに成功!しっぽが親子の“架け橋”に

ついに、尾の生え方や構図はそのままに“今まさに触っている瞬間”が再現できました。

Photorealistic indoor scene. Camera positioned at the adult cat’s tail side, slightly behind and lower than the hip, angled toward the far end of the table. The kitten is behind the adult’s hip on the far side, gazing at the curved tip of the adult’s tail while its front right paw gently rests on and slightly presses the tail tip. The adult’s tail arcs between the camera and the kitten, subtly bent under the kitten’s paw. Foreground is only empty tabletop; no cat is in front of the adult. A small yarn ball sits near the kitten’s back paws at the table’s far edge. Accurate feline anatomy, warm indoor daylight, shallow depth of field.

日本語訳(参考)室内のフォトリアリスティックな情景。カメラは成猫のしっぽ側、腰よりやや後方かつ低い位置に置き、テーブルの奥方向へ向けて構える。子猫は成猫の腰の後ろ側(カメラから見て遠い側)にいて、成猫のしなやかに曲がった尾の先を見つめながら、前右足をそっと尾の上に置き、軽く押している。成猫の尾はカメラと子猫の間を弧を描いて通り、子猫の足の下でわずかにしなっている。前景(カメラに最も近い部分)は空のテーブルトップだけで、成猫の前に他の猫はいない。テーブル奥の端には、子猫の後ろ足近くに小さな毛糸玉が置かれている。正確な猫の解剖表現、暖かな室内光、浅い被写界深度。

「ちょんっとタッチ、しっぽの魔法」Copilotで作成
「ちょんっとタッチ、しっぽの魔法」Soraで生成

これだ!!!

ということで、破綻の少ない構図で子猫が親猫のしっぽに触れているシーンの描写ができました。

親猫が画面奥に座り、しっぽが手前に伸びて子猫の前に届いているもの。

しっぽが視覚的な“橋”となり、親子のつながりを象徴するような構図になりました。

 感情的な魅力と物理的な論理性が、ここでようやく両立したのです。

触れている感を自然に出すコツ

  • 前足と尾の位置関係を固定
    • kitten’s front right paw gently resting on the curved tip of the adult’s tail
    • 手の下に尾が入る構造を入れると、物理的に接触していると認識しやすい
  • 前足の形状と動き
    • paw pads softly pressing the tail や claws slightly extended in playful grip
    • → 爪や肉球の細部を入れると“捕まえてる感”が上がる
  • 尾の反応を描く
    • tail slightly bent under the kitten’s paw
    • → 圧がかかっているように見え、接触が説得力を持つ
  • 視線の一貫性
    • kitten looking at the tail where its paw touches
    • → 視線と動作をリンクさせると自然

AIに“世界の理”を教えるプロンプト設計術

ここまで実例で、バイアス解除の奮闘の模様をお伝えしましたが、改めて、この問題を解決するためのポイントをまとめたいと思います。

AIが自由な発想で画像生成をする働きが、今回のように、非現実的なシーンを生成してしまうケースもあります。

そうさせないためには、我々ユーザーがAIに

「物理的・論理的な制約」という名の“しつけ”

をする必要があります。

プロンプト(指示文)に以下の4つの要素を組み込むことで、AIに「しっぽは親猫に繋がっている」という前提を強制し、構図を安定させることができます。

1. カメラアングル:神の視点で位置関係を固定する

「子猫の目線からのローアングル」など、カメラの位置を具体的に指定することで、AIが迷う余地をなくします。

  • 指示例:「親猫の背後からの視点(View from behind the mother cat)」
  • 効果:親猫が手前、子猫が奥という位置関係が確定し、しっぽが自然に子猫の方向へ伸びる構図が生まれやすくなります。

2. 被写体の向きと配置:舞台監督のように配置を決める

「子猫が右前方にいる」など、キャラクターの向きや位置を明確に指示し、しっぽの始点と終点を論理的に繋げます。

  • 指示例:「左を向いて座る親猫。その親猫のしっぽの先で、子猫が遊んでいる」
  • 効果:しっぽがどの方向へ、どのくらいの長さで伸びるかをAIが計算しやすくなります。

3. 遮蔽(オクルージョン):あえて隠すことで繋がりを魅せる

体の一部をしっぽの根元に重ねることで、「繋がっている感」を視覚的に補強します。

  • 指示例:「親猫は香箱座りをしており、その体でしっぽの付け根は隠れている」
  • 効果:しっぽが体から直接生えているように見え、切断された印象を完全に払拭できます。

4. フレーミング:画面内に物語を収める

構図の枠組みを指定し、必要な要素が画面から欠落するのを防ぎます。

  • 指示例:「親猫と子猫の全身が画面内に収まっている(Full body shot of the mother cat and the kitten)」
  • 効果:親猫の存在が保証されるため、しっぽの“出どころ”が明確になります。

今回の事例に当てはめると...

「子猫を前で遊ばせようとする」AIのバイアスをブロックするために取り入れた対策を、今回の事例に当てはめるとこんな感じです。

1. アングル制御で「前」を不自然にする

  • カメラを子猫側の真後ろ子猫の対角後方から構える指定
    • 「手前」に置くと猫の背中がカメラにドンと被るので、顔や尻尾の接点が見えなくなる → モデルが避けやすい
  • 具体例:camera positioned behind the kitten, looking toward the adult cat’s far side, tail tip between them adult cat’s body blocks the kitten if placed in front, so kitten is clearly at the far side near tail tip

2. 障害物で前方配置を物理的に禁止

  • 成猫の前方向に低い花瓶や本など小物を置き「ここには子猫がいない」状態を指定する
  • 「子猫はその小物の向こう側(成猫の尾側)にいる」と明記 → モデルは物理的衝突を避けざるを得なくなる

3. フレーム外ルール

  • 「カメラ手前には何もない」「前景は空のテーブル面のみ」と条件付け → 手前スペースを空けることで、前方に置く選択肢を潰す

4. 距離と高さの同時ロック

  • 胴体間距離を20cm以上にする指定と同時に「子猫は成猫の尾の後ろ側のテーブル端近く」と配置
  • 「尾の弧がカメラと子猫の間を横切る」など、前方配置と矛盾する空間表現を入れる

失敗例:生命感のない“しっぽのおもちゃ”

  一方、これらの制約を与えずに「親猫のしっぽで遊ぶ子猫」とだけ指示してしまうと、部位が破綻した画像が量産される可能性が高くなります。

  • ちぎれた親猫のしっぽ
  • 子猫が楽しそうにしているが、相手は“誰のものでもない”しっぽ
  • しっぽが生えている場所がおかしい
  • しっぽの断面が見えてしまっている
  • 親猫の存在が完全に消え、ただの「猫としっぽ状の物体」の絵になる

  これでは情緒どころか、生命への冒涜すら感じさせる不気味さを漂わせてしまいます。

相手は“誰のものでもない”しっぽ(Copilot)
誰のしっぽ!?

おわりに:AIは“鏡”、使い手の“解像度”を映し出す

今回の出来事は、画像生成AIとの共創における重要な教訓を教えてくれました。

AIは魔法の杖ではなく、私たちの指示を驚くほど純粋に、しかし、時として驚くほど短絡的に解釈する“鏡”のような存在です。

私たちが「可愛い」という曖昧な言葉に頼るだけでは、現在のAIは学習データの最大公約数的な「可愛いっぽいパターン」を返すことしかできません。

構図の物理性、光の方向、キャラクターの感情まで丁寧に設計し、“世界の理”を言語化して伝えることで、初めてAIはその真価を発揮します。

AIに生命を描かせるには、まず使い手である人間が、生命の構造と物語を深く理解し、言語化する必要がある。

そのことを痛感させられました。

反面、AIの特徴を逆手に取ったプロンプトを組み立てることで、魅力的なシーンの生成ができることもわかりました。

さて、次はどんな親子の物語を描きましょうか。

しっぽの先にある物語を、また一緒に紡いでいけることを楽しみにしています。

ここまで、長文にお付き合いいただいた皆さま、ありがとうございました。

親猫のしっぽで遊ぶ子猫(Copilot)

(参考)親猫のしっぽで遊ぶ子猫のプロンプト例

2025年8月時点で生成した画像です。また、生成に成功したプロンプトでも失敗する可能性はゼロではありません。あらかじめご了承ください

上手くいった例、上手くいかなかった例を残しておきます。

長いプロンプトもございますので、パソコンやタブレットからの閲覧をおすすめします。

英文プロンプトのほうが、日本語プロンプトより破綻の確率が下がる印象です。

特に注釈のないものはCopilotで生成したものですが、ご覧の通り、Copilotの画像生成にことごとく失敗しているのがよくわかります...

プロンプト例1

「柔らかな光が差し込む部屋の中、画面奥で香箱座りをする三毛猫の親猫。その長いしっぽが“橋”のように手前に伸び、画面手前の子猫がじゃれついている。子猫はしっぽを両手で抱え、親猫は穏やかな表情で振り返っている。カメラはローアングルから親子を見上げている」
三毛猫の親子

構図自体は破綻していませんが、尻尾がかなり長くなってしまいました。

プロンプト例2

リアルで高品質な写真。横長構図。母猫の全身がはっきり見えていて、室内の床の上で落ち着いて横になっている。頭から胴体、後ろ足まできちんと映っている。しっぽは母猫の腰から自然に一本だけ生えており、体に完全につながっている。切断や分離はなく、腰から後ろ方向に伸びて床の上に置かれている。 子猫は1匹のみ。母猫の体のすぐ近くではなく、しっぽの先のほう、母猫から少し離れた位置にいる。子猫は床の上で、前足だけを使ってしっぽの先にじゃれている。かじったり噛んだりせず、前足で遊ぶしぐさだけ。母猫の体と子猫の間には空間があり、両者をつなぐのはしっぽだけという構図。 母猫は振り返って子猫を優しい目で見ている。しっぽは必ず腰から生えており、前足や胸から生えたり、切り離されたように描かれてはいけない。柔らかい室内光。フォトリアル。
成功英文プロンプト例1

「しっぽは必ず腰から生えており、前足や胸から生えたり、切り離されたように描かれてはいけない」と指示してもご覧の通り。

これが生成AIのトラップ。

プロンプトの禁則事項よりも、先述のバイアスが優先されてしまった例です。

プロンプト例3

細かい設定を施しているプロンプトのため、改行を入れております。

A photorealistic, high-resolution horizontal 16:9 image.

Setting:
Outdoors on a paved plaza. In the background, multiple wooden picnic tables and benches are visible but softly defocused (gentle bokeh). No indoor elements.

Surface:
The nearest wooden picnic table top is clean and unobstructed; wood grain is crisp and realistic. Mother cat (adult tabby): Lying relaxed on the tabletop, side-on to camera.

Her entire body is fully in frame with nothing cropped:
head, torso, both hind legs, and the full tail from base to tip.

The tail originates anatomically from the base of the spine at the hip (near the hind legs) as a single, continuous tail; fur texture and color flow seamlessly from body to tail.
The tail rests on the plane of the tabletop (not floating), extends backward along the wood, then gently curves toward the kitten.
Both the tail base at the hip and the tip are clearly visible and uncut.

Kitten (single tabby):
Only one kitten on the same tabletop, positioned near the tip of the mother’s tail and clearly separated from the mother’s body by open space.
The kitten plays by lightly touching only the tip of the tail with its front paws (no biting, no chewing); hind legs crouched on the tabletop, kitten’s own tail relaxed.
The kitten does not cover or block the mother’s tail base.

Relationship and gaze:
The mother turns her head and looks at the kitten with gentle, affectionate eyes.
The only physical connection between them is the tail tip.

Camera and light:
Eye-level viewpoint, ~70–85 mm equivalent focal length.
Shallow depth of field (around f/2.8–f/4) to softly blur the background tables/benches while keeping both cats and the entire tail in focus.
Soft outdoor daylight (open shade) with even illumination; fur detail and wood grain rendered crisply; no harsh shadows or blown highlights.

Strict framing rules (must):
Do not crop any part of the mother’s body or tail.
Keep the tail base at the hip unobstructed and clearly visible.
Keep the full tail length continuous from base to tip on the tabletop.
Maintain visible empty space between mother and kitten.

Disallow (hard negatives):
extra kittens; extra tails; tail growing from chest or front legs; tail appearing cut, duplicated, floating, or disconnected; biting or mouth on tail; any part of mother or kitten off-frame; indoor floors or rugs; humans, toys, bowls, or extraneous props.
かろうじて成功した英文プロンプト例1

失敗の可能性も少なくありませんが、許容範囲の事例でしょうか。

プロンプト例4

A realistic, high-quality photo in horizontal view. The full body of a mother cat is clearly visible, lying calmly on the floor indoors. Her entire body is shown from head to torso to hind legs. From her hindquarters, a single tail naturally grows, fully attached to her body. The tail extends backward and outward from her hips, resting on the floor, clearly continuous with her body and not separate. A single kitten is positioned at the far end of the tail, farther away from the mother cat’s body. The kitten is not close to the mother cat, but instead sits or stands near the tip of the tail, on the same indoor floor surface. The kitten is playfully pawing at the tip of the tail with its front paws only. The kitten is not biting or chewing the tail, only playing with it gently with its paws. There is clear space between the mother cat’s body and the kitten, with only the tail connecting them visually. The mother cat looks back calmly at the kitten with a gentle expression. The focus is on the natural relationship: the mother cat with her real, attached tail growing from her hips, and a single kitten a short distance away pawing at the tip of that tail. The tail must never appear to grow from the cat’s front legs or chest, and must not appear detached. Soft indoor lighting, photorealistic style, high detail.

こちらは当たり外れが極端な例。プロンプトが細かい分、成功例は概ね同じ構図で再現できそうですが、時として、変なところから尻尾が生えてくる場合もあるので、何度かトライする必要があるかもしれません。

成功英文プロンプト例1
成功例1
成功英文プロンプト例1
成功例2
失敗英文プロンプト例1
失敗例(しっぽの生え方がおかしい)

-もふもふAI動物工房