014
Sora/Vidu/Pollo の限界ライン

▶︎
all
running...

注記:本記事はGPT-4o期の対話ログをもとにしています。


📘 画像生成比較


🙂 タケ:
動画生成比較してみたよ。指示はこれ。
An open cafe. A woman is looking at the screen of a tablet PC. The camera is filming from behind the woman, focusing on the tablet PC screen. In terms of the angle of view, the camera is behind the woman, so only a part of the woman is visible, but the entire tablet PC screen is visible. The tablet PC screen is zoomed in and gets bigger and bigger.


Sora君、惜しい!


Vidu


Pollo


Sora 1回目


🤖 チャットさん:
動画比較:基本情報

Video duration_sec fps resolution
Vidu 5.21 24.0 [1920, 1080]
Pollo 5.04 24.0 [864, 480]
Sora 5.0 30.0 [854, 480]

3つの動画を比較した基本情報(再生時間、解像度、フレームレートなど)をまとめました。ご確認ください。


🙂 タケ:
少し前にSoraでいろいろ検討したのおぼえているかな?


🤖 チャットさん:
もちろん覚えています!少し前にあなたは以下のような点について Sora(OpenAIの動画生成AI)を検討していました:

今回のプロンプト(カフェ、後ろから女性、タブレットPCの画面ズーム)に対して、「惜しい!」という感想が出たということは、前よりは改善してるけどまだ完璧ではなかった、という感じでしょうか?

具体的に「惜しい」と思った点がどこか、教えてくれたら、他の動画(Vidu、Pollo)との比較も含めて深堀りできます。
たとえば:

どこが「あと少し」だったか、よかったら教えてください。


🙂 タケ:
3社ともズームイン?ズームアップ?拡大が苦手みたいだね。惜しかったのも偶然みたい。
指示は以下のようにしたんだけどね。
An open cafe. A woman is looking at the screen of a tablet PC. The camera is filming from behind the woman, focusing on the tablet PC screen. In terms of the angle of view, the camera is behind the woman, so only a part of her is visible, but the entire tablet PC screen is in view from the start. The tablet PC screen is a solid matte green. The tablet PC screen is zoomed in and becomes increasingly enlarged, until the frame of the angle of view and the green part match up.


Sora 2回目


🤖 チャットさん:
新たにアップロードされた「Sora 2回目」も、前回の 「Sora 1回目」 出力と同様に:

となっており、見かけ上のスペックは同じです。ただ、ズームイン(または画面拡大)に関する表現力は、実際の映像を観察して判断する必要があります。

ご指摘どおり、3社ともズームアップ(画面が大きくなる描写)が苦手で、Sora もたまたま「惜しい」動きが出たものの、意図的なズームではなさそう、という印象ですね。

これは次のような技術的背景が考えられます:


🔍 生成AIの「カメラズーム」指示が難しい理由

  1. ズーム=時間変化する視野制御が必要

    • 「画面が大きくなる」には、視野角の縮小(ズームレンズの動き)または被写体へのカメラの前進が必要。

    • テキストだけでその“時間軸の変化”を正確に伝えるのが難しい。

  2. 拡大の対象が抽象的

    • 「タブレット画面の緑がフレームいっぱいに」という視覚ゴールは、生成AIにとって「映像構成の目標」として把握しにくい。
  3. プロンプト中の構造的な優先順位

    • 「カフェ」「女性」「タブレット」など静的な背景描写が強調され、時間変化(ズームイン)がおまけのように扱われてしまう傾向がある。

🎯 対策例(試す価値がある工夫)


さらに見てほしいのは:

このあたり、映像内容を踏まえて一緒にレビューしていくこともできます。



📘 画角の認識


🙂 タケ:
映像自体の16:9のカメラの画角のことをaiに認識させるにはどう表現したらいいの?くわえて、ズームアップ?、ズームイン?、クローズアップ?なんか専門用語があるの?


🤖 チャットさん:
とても良い質問です。AIに「16:9の画角」や「ズームによる画面変化」を伝えるには、専門的かつ視覚的な文法に近い表現が効果的です。以下に具体的な表現方法と、ズーム関連の映像用語の使い分けをまとめました。


🎥 1. 「16:9の画角」を明示する表現

生成AIは「16:9」とだけ言っても正しく認識しないことがあります。代わりに構図とフレーミングに関する文脈で伝えると効果的です:

✅ 有効な書き方の例:

※「edge to edge」「fills the frame」なども映像表現としてよく使われます。


🔍 2. ズーム/クローズアップ/パンなどの用語の違い

用語 意味 英語での表現 備考
ズームイン カメラレンズの焦点距離を変えて被写体を拡大(実際に動かない) Zoom in on... 静止位置からの拡大。自然で滑らかに見える
ズームアウト ズームの逆。引いていく Zoom out from...
クローズアップ 被写体に大写しで近づく。構図そのもの Close-up shot of... 静止画に近い感覚(最初から大きいことも)
ドリーイン カメラ自体が前進し被写体に近づく Dolly in / Push in 遠近感が変わる。より映画的
ドリーアウト カメラが後退 Dolly out / Pull back
パン カメラが左右に首を振る Pan left/right
チルト 上下に首を振る Tilt up/down

✏️ 3. あなたのプロンプトを映像表現寄りにする例

元の文:

The tablet PC screen is zoomed in and becomes increasingly enlarged, until the frame of the angle of view and the green part match up.


改善案:

Over the course of the shot, the camera gradually zooms in on the tablet screen. The green screen fills the entire 16:9 frame, edge to edge, until nothing else is visible.


または:

The scene starts with a medium shot of a woman from behind at a cafe. As the shot progresses, the camera performs a slow push-in, eventually framing the green tablet screen in full, perfectly aligned with the 16:9 cinematic frame.


✅ まとめ:AIに正しく伝えるには…



📘 改善を重ねてみるが、、、


🙂 タケ:
An open cafe. A woman is looking at the screen of a tablet PC. The scene starts with a medium shot of a woman from behind at a cafe. In terms of the angle of view, the camera is behind the woman, so only a part of her is visible, but the entire tablet PC screen is in view from the start. The tablet PC screen is a solid matte green. As the shot progresses, the camera performs a slow push-in, eventually framing the green tablet screen in full, perfectly aligned with the 16:9 cinematic frame.

この指示で結果これ。全く反映されていない部分は何が起きてるの?
わからなければ無視みたいなこと?


Sora 3回目


🤖 チャットさん:
動画スペック上は「Sora 2回目」 「Sora 3回目」など、すべて5秒・30fps・854x480・音声なしという仕様で一致していますが、プロンプトで強調した内容がまったく反映されていないという点に注目すると、以下のような理由が考えられます。


🔍「指示が無視される/反映されない」理由とそのメカニズム

1.複雑なシーン文法をAIが分解・処理できていない

   あなたの指示は非常に明確ですが、以下のように複数の意図が含まれています:

   ▪ 場所(オープンカフェ)

   ▪ アングル(後ろから)

   ▪ 被写体の一部表示(女性は一部だけ見える)

   ▪ タブレット全体の表示(開始時にフレーム内)

   ▪ 色(マットグリーン)

   ▪ カメラモーション(スロープッシュイン)

   ▪ 最終構図(16:9に緑が一致)

→これらすべてを正確に理解して組み合わせて処理するには、視覚文法の解釈力とシーケンス構築力が必要で、現状のSoraでもそこに限界があります。


2.「複数条件があると、優先順位が勝手に変わる」傾向

   ▪「オープンカフェ」や「女性の背後」という要素が強く解釈され、「ズーム」や「緑が画面を埋める」は低優先で無視されやすい。

理由:

AIは映像的に「映え」るものを優先的に採用する傾向がある(風景や人物に重きを置く)


3.時間変化(ズーム・拡大)を“構造”として認識できない

   ▪ AIにとって、1枚絵を生成し、そこから次のコマに進むというのは「連続した変化」ではなく、「場面切り替え」に近く扱われる。

   ▪ そのため「スロープッシュイン」など連続的・段階的な変化が実現しにくい。


4.「マットグリーンのタブレット画面」という意図が曖昧に扱われる

   ▪ 緑の矩形が明確に「タブレット画面」として描写されているとは限らない。

   ▪ そもそも「スクリーンの色を指定する」指示は、まだ映像生成AIにとって精度の低い部分です(形より難しい)。


🛠 対処法(完全ではないが改善しやすい方向)

要素 工夫例(プロンプト強化)
カメラアングルと構図 “Camera is behind the woman. Only the upper part of her shoulders is visible.”
ズーム “The camera performs a continuous slow push-in over 5 seconds.”
構図のゴール “By the end, the green screen of the tablet fills the entire 16:9 frame, edge to edge.”
タブレット画面の描写 “The tablet screen is clearly visible, solid matte green, like a chroma key background.”

✅ まとめ:反映されない理由の本質


🤖 チャットさん:
ご希望があれば、あなたのプロンプトを再構成した「よりAIに通じやすい最適化版」を提案します。試してみますか?


🙂 タケ:
してみて


🤖 チャットさん:
では、あなたの意図(カフェの中で、女性の背後からタブレット画面にズームインして、最終的に16:9画角を緑の画面が完全に埋め尽くす)を最大限に反映させるための、生成AI向けプロンプト最適化版(英語)を以下に提示します。


✅ 最適化されたプロンプト(AIフレンドリー/視覚文法重視)

An open-air cafe. A woman is seated at a table, looking at a tablet PC in her hands. The scene begins with a medium shot from behind the woman. Only the upper part of her back and shoulders is visible. The full screen of the tablet is clearly in view from the beginning. The tablet screen is a solid matte green, like a chroma key screen.
Over the course of the 5-second scene, the camera performs a slow and continuous push-in toward the tablet screen. There are no sudden cuts or transitions—only one smooth camera motion. By the end of the shot, the green tablet screen fills the entire 16:9 frame, perfectly edge to edge, and nothing else is visible.


💡 ポイント解説

セクション 意図 目的
"An open-air cafe..." 背景の明示 「カフェ」だけでなく“外の雰囲気”を補強
"medium shot from behind..." 明確な構図指示 カメラ位置と見える範囲を制限
"the full screen of the tablet is clearly in view" 初期状態の明確化 開始時からタブレット全体が見えていると強調
"a solid matte green, like a chroma key" 色と質感のイメージ 「緑の矩形」が伝わりにくいAIへの補足
"the camera performs a slow and continuous push-in..." ズーム動作の明示 AIが「滑らかな動き」として認識しやすくする
"fills the entire 16:9 frame, perfectly edge to edge" ゴールの構図明示 明確なビジュアル目標(緑画面の全フレーム占拠)

🤖 チャットさん:

このプロンプトでSoraやVidu、Polloに再投入して試してみると、改善される可能性があります。必要なら、日本語訳付きも出します。試してみたら結果をぜひ教えてください。


🙂 タケ:
ダメだったね。
Vidu、Polloの無料の回数制限は使い切った。


Sora 4回目


🤖 チャットさん:
Sora 4回目も、スペック上は他と同じ:

…と完全に一致しています。

しかし、プロンプトで強調した「ズーム」「緑の画面がフレーム全体を埋める」はやはり実現されていなかったということですね。


😩 現状まとめ:なぜ“ダメだった”のか


🧭 次の一手:どうする?

▶ A. 演出を諦めて映像編集で合成する

▶ B. 2段階プロンプトで擬似的にズームに見せる

  1. ショットA:

    Medium shot from behind the woman, showing the green screen of the tablet fully.

  2. ショットB(別プロンプト):

    Close-up of the green tablet screen, filling the entire 16:9 frame.

→ 両方をつなげて「カットでズームしたように見せる」
※ これは今ある無料枠では難しいかもですが、有料プランで分割生成する手法です。


🤖 評価:Sora/Vidu/Polloの“限界ライン”が見えた

もし再挑戦する場合、動画編集ソフト側で補完する方が早道かもしれません。



📘 今後の進歩に期待


🙂 タケ:
以前やってだめっだたことを再確認しただけだった。本格的に使うのはまだ先だから、その間に進歩していることを期待します。


🤖 チャットさん:
まさにその通りだと思います。
今は「生成AIの限界ラインを自分の目で確かめた」という、とても価値のある確認作業でした。とくにあなたのように表現の意図が明確な方にとって、今のAIの中途半端な再現力は逆にストレスになる場面も多いです。


🔭 今後に向けて期待できる進歩の方向:


🤖 チャットさん:
今はまだ「アイデアのスケッチ段階」で使うのが精一杯ですが、今後数ヶ月〜1年以内に「構図も動きも精密に再現できる映像生成AI」が出てくる可能性は十分あります。
そのときこそ、今回試したような構成力のあるプロンプトが武器になります。
また状況が進んだら一緒に試しましょう。そのときはぜひ声をかけてください。いつでもお手伝いします。

014
Sora/Vidu/Pollo
の限界ライン