AI画像から動画:完全なプロダクションワークフロー
AI画像をRunwayにアップロードして「生成」をクリックするだけの人と、適切なプロダクションワークフローに従う人の間には、品質に大きな差があります。その違いは最終成果物に現れます。一方は明らかにAI生成に見え、もう一方はほとんどのプラットフォームで本物の映像として通用する可能性があります。
この記事では、すべての動画制作に使用しているプロフェッショナルな5フェーズワークフローを詳しく解説します。各フェーズには具体的なツール、設定、パラメータが含まれています。これは理論ではなく、過去1年間に公開してきたコンテンツの正確なプロセスです。
画像準備
このフェーズは15-20分かかりますが、何時間もの無駄な動画生成を防ぎます。スキップすると、ソース画像に問題があったために失敗するクリップの再生成でクレジットを消費してしまいます。
アップスケーリング
すべてのソース画像は、動画パイプラインに入る前に、生成解像度の少なくとも2倍にアップスケールする必要があります。768x1344で生成した場合、1536x2688にアップスケールします。理由は、動画AIモデルが入力画像からディテールを抽出して生成フレームに反映するためです。ソースのディテールが多いほど、より安定した高品質な動画出力が得られます。
最適なアップスケーリングツール:
- Topaz Gigapixel AI - $99(一括払い)。フォトリアリスティックな顔に最高品質。「Standard」モードで「Recover Original Detail」を50%に設定して使用。
- Real-ESRGAN(Automatic1111またはComfyUI経由) - 無料。「4x-UltraSharp」モデルを使用。品質はTopazの約85%ですが、コストはかかりません。
- Magnific AI - 月額$39。アップスケール時にディテールを追加するのに最適。単に拡大するだけでなく、顔の品質を実際に改善できます。ほとんどのユースケースには過剰ですが、ヒーロー画像には価値があります。
アスペクト比の修正
画像がまだターゲットのアスペクト比でない場合は、今クロップしてください。動画ツールにアスペクト比変換を任せないでください - ほとんどのツールは引き伸ばすか、不格好なレターボックスを追加します。
| Reels / TikTok | 9:16 (1080x1920 or 1536x2688) |
| YouTube Shorts | 9:16 (1080x1920) |
| YouTube Standard | 16:9 (1920x1080 or 2560x1440) |
| Instagram Feed | 4:5 (1080x1350) |
アーティファクトの除去
各画像を確認して修正してください:
- 手の異常 - 余分な指、融合した指、不自然なポーズ。Photoshopのジェネレイティブフィルまたは手専用のLoRAを使ったSDXLインペインティングを使用。
- ジュエリーの歪み - イヤリング、ネックレス、リングにはAIアーティファクトが頻繁に発生します。インペインティングで修正するか、完全に除去してください。
- 背景の不整合 - 歪んだ建築物、浮遊するオブジェクト、あり得ない反射。これらは動画で増幅されます。
- 肌のテクスチャの問題 - 過度に滑らかな肌やプラスチックのように見える部分。Topaz Photo AIの「Recover Face」が役立ちます。またはPhotoshopの周波数分離テクニックを使用してください。
時間節約のコツ:クリーンアップ手順用のPhotoshopアクションまたはComfyUIワークフローを作成してください。数本の動画を作成した後、毎回同じ問題が発生することに気づくでしょう。修正の自動化により、画像1枚あたり5-10分を節約できます。
動画生成
ショットタイプ別のツール選択
単一プラットフォームへの忠誠ではなく、具体的なショットに基づいてツールを選択してください:
- クローズアップポートレート(顔がフレームの40%以上):Runway Gen-3 Alpha。「Turbo」モードを使用。モーション強度を3/10に設定。
- ミディアムショット(腰上):Kling AI 1.6またはRunway。Klingは腕のジェスチャーをよりうまく処理し、Runwayは顔の品質をよりうまく処理します。
- 全身ショット:Kling AI 1.6。ここでは議論の余地がありません。モーションモードを「Standard」に、モーション強度を5/10に設定。
- トーキングヘッド:HeyGen。画像をアップロードし、スクリプトを入力し、音声を選択。クリップあたり最大5分。
- 雰囲気/ムード:Luma Dream Machine。非対話コンテンツにおけるシネマティック品質は他に類を見ません。
各ツール向けのプロンプト作成
Runway Gen-3 Alphaプロンプト:短くモーションに焦点を当ててください。Runwayは30語未満のプロンプトに最もよく反応します。例:「女性がゆっくり右を向く、自然なまばたき、風が髪を動かす、ソフトライティング、静止カメラ、フォトリアリスティック。」Runwayは「4K」や「シネマティック」などのスタイルキーワードを無視します - ネイティブ品質で生成します。
Kling AI 1.6プロンプト:Klingはより長く詳細なプロンプトを処理できます。カメラの動きを明示的に含めてください。例:「女性が都市の歩道をカメラに向かってゆっくり歩く、自然な歩幅、腕は両脇にリラックス、わずかな笑み。カメラ:同じペースでスロードリーバック。フォトリアリスティック、自然光、浅い被写界深度。」Klingの「Professional」モードは生成時間を約30秒増やしますが、品質が目に見えて向上します。
Luma Dream Machineプロンプト:Lumaは雰囲気で力を発揮します。例:「ゴールデンアワーの光が屋上に立つ女性を包む、風がドレスと髪を揺らす、背景に都市のスカイラインがぼけている、シネマティックな被写界深度、スローカメラプッシュイン。」Lumaは自動的にシネマティックなカラーグレーディングを適用するので、それに逆らわず活用してください。
モーションコントロールパラメータ
| 微細なモーション(呼吸、髪) | 強度:2-3/10 |
| 首の動き、表情 | 強度:3-4/10 |
| 上半身のジェスチャー | 強度:4-5/10 |
| 歩行、全身 | 強度:5-6/10 |
| ダイナミックなアクション(避ける) | 強度:7+/10(アーティファクトリスク高) |
各クリップの2-3バージョンを生成してください。強度3-4での成功率は約80%です。強度6以上では40-50%に低下します。それに応じてクレジットを予算配分してください。
ポストプロダクション
編集:トリミングと配置
すべての生成クリップをエディターにインポートします。30秒を超えるものにはDaVinci Resolveを、クイックなリール/TikTokにはCapCutを使用しています。最初のパス:
- すべてのクリップの最初の0.3-0.5秒をトリミング(「モーフイン」アーティファクト)
- 最後の0.3-0.5秒をトリミング(劣化ゾーン)
- クリップをナラティブ順に配置
- クリップ間に0.3-0.5秒のクロスディゾルブトランジションを追加
カラーグレーディング
AI動画ツールはクリップ間で一貫しない色温度を生成します。同じツールからの連続した生成でも異なって見えることがあります。DaVinci Resolveでは:
- 「ヒーロー」クリップを選ぶ - 最も良い色のもの
- 「Shot Match」を使用して他のすべてのクリップをヒーロークリップのグレードに合わせる
- 微調整:シャドウをわずかにブースト(Lift: +0.02)、ハイライトを低減(Gain: -0.03)、洗練された見た目のためにLum vs. SatカーブにS字カーブを追加
- ブランドルックがある場合は一貫したLUTを適用。FilmConvertとDehancerには人気のプリセットがあります。
CapCutでは、内蔵の「フィルター」がより高速な近似です。「Film」と「Retro」カテゴリには、すべてのクリップに一貫したグレーディングを適用するオプションがいくつかあります。
スタビライゼーション
一部のAI生成クリップには、特にモーション強度が高い場合に微細なジッターがあります。DaVinci Resolve(Editページ > Inspector > Stabilization)で「Translation」モード、smoothnessを0.5に設定してスタビライゼーションを適用してください。過度にスタビライズしないでください - 浮遊感のある不自然な見た目になります。
オーディオ
ボイスオーバーの録音と生成
AIインフルエンサーコンテンツには2つのオプションがあります:
- AIボイスオーバー(ElevenLabs):Turbo v2.5モデルを使用。設定:Stability 0.50、Similarity Boost 0.75、Style 0.00(自然な音声のためにスタイルはゼロのまま)。最高品質のためにWAVでエクスポート。コスト:1文あたり約$0.01-0.02。
- 人間のボイスオーバー:Fiverrで依頼(動画1本あたり$15-50)。より自然ですが、コストと納期が増えます。自分の声を使うクリエイターもいます - AIインフルエンサーが「あなたの」声を持つことに抵抗がなければ有効です。
音楽の選択
ボイスオーバーに対して-15から-20 dBで音楽を音声の下にレイヤリングします。音声なしの動画では、音楽は-6から-10 dBに設定します。BPMを編集カットに合わせてください - 3秒ごとにカットする場合、100 BPMのトラックが自然なカットのビートを提供します。
ソース:カスタム生成にはSuno v4、プロフェッショナルなライブラリトラックにはEpidemic Sound(月額$15)、音楽と効果音の両方にはArtlist(月額$17)。
サウンドデザイン
3つのレイヤーがコンテンツを洗練されたものにします:
- アンビエントベッド - ルームトーン、屋外の環境音、またはロケーション固有のサウンド。-20から-25 dB。クリップ全体を通して一定。
- フォーリーエフェクト - 足音、衣擦れ、ドアの音、グラスの音。-10から-15 dB。画面上のアクションに同期。
- トランジションエフェクト - カット時のスウッシュ音、リビール時のベースドロップ。-8から-12 dB。控えめに使用。
エクスポートとプラットフォーム最適化
プラットフォーム別エクスポート設定
| Instagram Reels | 1080x1920, H.264, 30fps, 10-15 Mbps, AAC 320kbps |
| TikTok | 1080x1920, H.264, 30fps, 8-12 Mbps, AAC 256kbps |
| YouTube Shorts | 1080x1920, H.264, 30fps, 12-18 Mbps, AAC 320kbps |
| YouTube (standard) | 2560x1440, H.264, 30fps, 25-35 Mbps, AAC 320kbps |
各プラットフォーム用に必ず別々のファイルをエクスポートしてください。プラットフォーム内蔵のクロッピングに頼らないでください。TikTokはInstagramよりも積極的に圧縮するため、補正としてTikTokバージョンはわずかに高いシャープニング(DaVinci Resolveの出力シャープニングで+10-15)でエクスポートしています。
ファイルサイズの最適化
Instagramは250MB以下のファイルを推奨しています。TikTokは287MB以下。15-30秒の動画の場合、上記のビットレートではこれらの制限に達しません。より長いコンテンツの場合は、DaVinci ResolveまたはHandBrakeで可変ビットレート(VBR)の2パスエンコーディングを使用して、目に見える品質低下なしにより圧縮してください。
サムネイル / カバーフレーム
InstagramとTikTokの両方でカバーフレームを選択できます。動画で最も視覚的にインパクトのあるフレームを選びましょう - 通常、最も良いライティングでのAIインフルエンサーの最もフラタリングなアングルです。Instagramでは、カスタムカバー画像のアップロードも可能です。画像AIツールを使用して専用のカバーを生成してください。動画のフレームである必要はありません。
投稿前の品質チェック:最終エクスポートをスマートフォンのフルスクリーンで確認してください。モニターでもタブレットでもなく、スマートフォンで。視聴者の90%以上がそのように見るからです。確認項目:目に見えるアーティファクト、オーディオバランス、キャプションの読みやすさ、最初の3秒が注目を引くかどうか。
プロダクションワークフローを最適化
AI Influencer Toolsは、各プロダクションフェーズ向けに最適化されたプロンプトセットを生成します - 画像生成から動画プロンプト、オーディオスクリプトまで。
無料トライアルを開始