LOCAL AI VIDEO
ローカルでAI動画を作るなら
2026年6月時点で、ローカルAI動画を試すならLTX-2.3系がかなり入りやすい候補です。理由は、蒸留モデル、FP8/MXFP8、Gemma 3 text encoderまわりの選択肢が増えて、16GB VRAM級でも短尺から動かす道が見えているからです。
まず結論
最初の一歩は、LTX-2.3の蒸留系ワークフローです。フル精度の大きなモデルを無理に載せるより、FP8/MXFP8、蒸留LoRA、軽量化されたGemma 3 text encoderを組み合わせるほうが、短い動画を何度も試しやすくなります。
16GB VRAMが目安になる
LTX-2.3のComfyUI向け情報では、Kijai系のFP8/MXFP8蒸留モデル、公式rank-384蒸留LoRA、Kijai系の蒸留LoRAが16GB VRAM級の入口として案内されています。実機報告では、RTX 5070 Tiで約12.3GB VRAMに収まった例や、RTX 5060 Ti 16GBで動いたという声もあります。ただし、解像度、秒数、ノード、オフロード設定でかなり変わります。
なぜ軽く動くのか
蒸留モデルは、大きなモデルの振る舞いを短い手順で再現しやすい形に寄せたものです。LTX-2.3では、8 steps / CFG=1の蒸留モデル、FP8/MXFP8の量子化、LoRAで蒸留品質を足す構成、text encoderの軽量版、tiled VAE decodeなどを合わせることで、低VRAMでも試しやすい流れができています。
Gemma 3 text encoderを見る
LTX-2系ではGoogleのGemma 3 12Bがテキスト理解の大きな部品として使われます。ComfyUI向けの案内でも、16GB/24GBカードではFP4 mixedのGemma 3 12B text encoderが入口として挙げられています。成人向けの表現を扱う場合は、制限の少ない派生text encoderを使う例もありますが、入手元、ライセンス、ワークフローの互換性を先に確認します。
Lightricksという安心材料
LTX-2は、FacetuneやLTXで知られるLightricksのオープンな動画モデルです。Lightricksはエルサレムを拠点にするAIクリエイティブ企業として知られ、技術レポートやGitHubでモデルの中身を追いやすいのも強みです。
LTX-2.3コミュニティの強さ
2026年6月現在、LTX-2.3まわりはComfyUI、Kijai系モデル、蒸留LoRA、GGUF、text encoder差し替え、I2V/T2Vテンプレートが多く、試せる道が多いのが強みです。過去LTXV系のLoRAや作法から続く資産もあり、短尺を何度も回す用途に向いています。
注意するところ
LTX-2.3は万能ではありません。プロンプト追従や細部の安定感は、Wan系など別モデルが合う場面もあります。まずは短尺、低めの解像度、画像から動画にするI2Vで試し、気に入ったら解像度や秒数を上げるのが無難です。
WORKFLOW ENTRANCE
最初に見るワークフロー。
公式の流れで動かしてから、軽い派生構成へ進むと迷いにくくなります。
公式 ComfyUI ワークフロー
最初に触るなら公式側です。T2V、I2V、画像から動画、蒸留LoRA、必要モデルの流れを確認しやすく、更新が追いやすい入口です。
- T2V / I2Vの基本を確認
- 必要モデルと置き場所を合わせる
- まず短尺で動作を見る
Kijai 派生ワークフロー
16GB VRAM級で試すなら、Kijai系のFP8/MXFP8や蒸留LoRAも見ます。公式の流れを理解したあと、軽い構成や派生モデルを探す入口です。
- FP8 / MXFP8構成を探す
- 蒸留LoRAと対象モデルを合わせる
- ファイル名とワークフローを混ぜない
まず公式を見よっ。
YORU CHECK
高額な“秘伝ワークフロー”の前に見るところ
ComfyUIの公式手順やモデル配布元の説明で確認できることを、まるで秘伝のワークフローのように見せる有料情報には注意してください。
YORU-CHAN TIPS
ヨルちゃんの豆知識
略語や表記で迷いやすいところだけ、短く見ておきます。
16GB VRAMなら、FP8/MXFP8のLTX-2.3本体、蒸留LoRA、軽量Gemma 3 text encoder、tiled VAE decode、VRAM管理ノードから見ます。
RTX 4060 Ti 16GB、4070 Ti SUPER 16GB、4080 16GBは16GB級の入口として名前が出ます。RTX 3090など30系はMXFP8側を見るのが無難です。
Kijaiの蒸留LoRAやtransformer-onlyモデルは、ComfyUI側の低VRAM構成でよく見かけます。ファイル名と対象ワークフローを合わせて使います。
Gemma 3 12B text encoderは重い部品です。FP4 mixed、GGUF、オフロード、API分離などで負担を下げる例があります。
最初から長尺を狙わず、5秒前後、低めの解像度、固定した種、同じ画像で比較すると失敗原因が見えやすくなります。
LTX-2.3は回転の速さが魅力です。細部の重さやプロンプト厳守を優先する場面では、他モデルとの使い分けも見ます。
CHECKED LINKS
確認したページ
仕様や動作例は変わることがあります。気になる構成は、配布元と最近の報告も合わせて見てください。
FAQ
よくある質問
LTX-2.3は16GB VRAMで本当に動きますか?
動作報告はあります。ただし、使うモデル、text encoder、量子化、オフロード、解像度、秒数で変わるため、16GBは「試せる入口」として見るのが現実的です。
蒸留モデルとは何ですか?
大きなモデルの出力傾向を、少ない手順や軽い構成で使いやすくしたものです。動画生成では試行回数を増やしやすくなるのが強みです。
Gemma 3はなぜ出てくるのですか?
LTX-2系のテキスト理解を支える部品として使われます。プロンプトを映像側に渡す前の重要な入口です。
成人向けのローカルAI動画にも使えますか?
ローカル環境で試す人はいます。ただし、モデルやtext encoderのライセンス、配布元の規約、出力物の扱いを必ず確認してください。
最初に何を見ればいいですか?
LTX-2.3のComfyUIテンプレート、必要モデル一覧、text encoder、VAE、蒸留LoRA、VRAM別の構成を見ます。いきなり長尺に行かず、短尺で確認するのがおすすめです。