OpenAIがSoraでプロンプトからビデオを生成する生成AIがデビュー。 - 自作ユーザーが解説するゲーミングPCガイド

現在、一部のユーザーに限定されている生成ツール。

人工知能のパイオニアであるOpenAIは木曜日、新しい生成ツールを発表した。Sora」（日本語で「空」）と名付けられたこのツールは、オープンエイのこれまでの開発で最も野心的なもので、単なるテキストプロンプトから最長1分の複雑な高解像度ビデオを生成することができる。

画像のプロンプトも使用できる。

Soraはまだ一般には公開されていない。

OpenAIは、そのサービスを洗練させる間、一部の研究者と映像専門家にアクセスを制限することに決めたからだ。

重要なのは、この市販前の期間は、ツールが誤った情報や憎悪に満ちたコンテンツなどを構築するために使用されないように、安全対策を実施するためにも使用されるということだ。

https://twitter.com/adrianweckler/status/1758446359324004629

Open AIの新しいテキスト・トゥ・ビデオ・ツール、Sora.ここで、（単独で）ビデオを作成したテキスト・プロンプトは、次のようなものだった：

「スタイリッシュな女性が、暖かく光るネオンとアニメーションの都市看板で満たされた東京の通りを歩いている。彼女は黒いレザージャケット、赤いロングドレス、黒いブーツを履いている… ->

さっそくいくつかの例を紹介しよう。百聞は一見にしかずというが、ビデオでも同じことが毎秒数十フレームでできる。

最初の例は、比較的複雑なプロンプトからの1分間のクリップである。

ここでは、Soraがその力を発揮し、最近雨でしずんだ東京のネオン街や、エレガントな主人公の動きを表現している。

Soraについてのブログ投稿の中で、OpenAIは、このプロンプトからビデオへのツールは、複数のキャラクターが登場する複雑なシーンを、正確で忠実なディテールで生成するように設計されていると説明している。

「このモデルは、ユーザーがプロンプトで何を求めたかだけでなく、それらが物理的な世界にどのように存在するかも理解しています」と同社は主張している。

説明のために、OpenAIは以下の動画を紹介している。

しかし、乾燥した埃っぽい山道を森の中を疾走するジープのこの表現は、非常に「ビデオゲーム」的であるように見える。

https://twitter.com/GrantAIAgent/status/1758275916579655934

OpenAIはSoraでTxT2Video企業の埃をかぶった：

プロンプト：カメラは、山の急斜面にある松の木に囲まれた急な未舗装道路をスピードを上げて走る、黒いルーフラックのついた白い年代物のSUVの後ろを追う、タイヤからは砂埃が舞い上がり、…

ビデオゲームのテクニックについて、経験豊富な技術業界アナリストのパトリック・ムーアヘッドは、生成されたビデオのほとんどは、キャラクターとカメラが同時に動いており、”不気味の谷を指摘するような細部に気づかないように脳をだます “ためだと考えている。

ソラは少なくとも部分的に、アンリアル・エンジンから入手した合成映像を使って訓練されたと考える人もいる。

OpenAIが、そのモデルにはまだ弱点があることを恥ずかしげもなく認めているのは良いことだ。

ブログでは、Soraが生成したビデオは「複雑なシーンの物理を正確にシミュレートするのに苦労するかもしれないし、原因と結果の特定の例を理解できないかもしれない」と説明している。

さらに、OpenAIは再びいくつかの動画例を示している。

この5つの動画の中で、私たちの目に最も衝撃を与えたのは、ハイイロオオカミの子犬が登場する動画と、”Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care. “というプロンプトから生成された下の動画だろう。

https://twitter.com/Sentdex/status/1758279976712040855

このSoraの生成した動画は私の脳を壊している。もはや現実とは何なのか？

プロンプト：考古学者が砂漠で一般的なプラスチックの椅子を発見、発掘し、細心の注意を払ってほこりを払う

OpenAIのブログに掲載されたこのビデオの下で、ソラの失言は、椅子が剛体であることをモデルが理解していないためだと説明されている。

修正に時間はかからないはずだが…。

安全性 – なぜ我々は良いものを手に入れられないのか？

イントロダクションで安全性について少し触れたが、Soraのような生成AIツールが一般の人々によってあらゆるいたずらに使われることは明らかだ。

しかし、OpenAIは当然のことながら、Soraがプライムタイムに入る前に安全対策を実装し、一部の人々が生成したいと望むような厄介なものの風潮を抑えたいと考えている。

具体的には、OpenAIのブログによると、最初のテスターと協力して、”誤った情報、憎悪に満ちたコンテンツ、偏見 “の生成を防ぐという。

さらに、ビデオ内のそのようなコンテンツを防止し、検出するための措置も講じている。

その他の禁止事項としては、”過激な暴力、性的な内容、憎悪的なイメージ、有名人の肖像、他人のIP “などがある。

以前、偽の音声やビデオ録画がニュースの見出しを飾り、様々な反響を呼んだことがある。

従って、Soraの出力範囲に蓋をすることは、責任ある開発者にとって優先事項かもしれない。

Soraは、我々が見た最初のテキストからビデオへのジェネレーターではないが、今のところ最も高度で複雑で現実的なジェネレーターである。

多くの人が、Soraの影響は大きく、コンピューターや技術ニュースの領域をはるかに超えて感じられるだろうとコメントしている。

ソース：Tom’s Hardware – OpenAI Sora text to video generator debuts – results can be amazing, but bugs admittedly remain

解説：

すでにテレビでニュースにもなっていますのでご存知の方も多いと思いますが、OpenAIが動画生成AIを発表しました。

Stable Diffusion WebUIにもStale Video Diffusion という名前で動画生成す機能があるのですが、あちらはカメラが回り込んだり人がゆらゆらと体を動かす程度の4-5秒の短い動画を作るのがせいぜいでした。

しかし、OpenAIの動画生成AISoraの生成した動画を見ると、ある程度のストーリー性を備えた動画を作成できるようです。

OpenAIのロンチする製品はどれも巨大なシステムが必要な大がかりなものであり、明日からこのレベルの動画がローカルPCで実行できるわけではないでしょう。

しかし、次世代のGPUは飛躍的に性能が上がるでしょうから、不可能ではないかもしれません。

惜しむらくはAMDのRadeonは次世代の高性能モデルNavi41/42をキャンセルするといわれており、たとえROCmを使ったとしてもこれらの技術を恩恵を十全に受けることはできないでしょう。

せめて、MI300A/X、もしくは後継の製品をお求めやすい価格でコンシュマーに降ろしてくれると嬉しいですが、今のAMDは金の鉱脈になったデータセンター向けAI/MLハードウェアアクセラレーターに全力投球しており、一般向けのRadeonには力を入れないと思われます。

Navi43は(RX8600?)はRX7900GREと同程度の性能といわれています。

Navi33のRX7600とNavi31のRX7900XTXの性能差は約3倍ですので、もし、Navi41が出るならば、最低でも120TFLOPS程度の性能にはなっていたと思います。

当然今のRTX4090の性能を超えています。

残念ですが、これらの高性能な(おそらくは安価に設定されることが期待される)GPUはキャンセルされるということになります。

こうした動画生成AIは我々一般ユーザーに降りてくるとしても最初は非常に高性能なGPUが要求されるでしょう。

一般ユーザー向けにも生成AIの恩恵が十分に味わえる大事な時期にRadeonの高性能モデルが設定されないのは非常に残念でなりません。

前々から書いていますが、Navi43だけとなるとわざわざコストをかけてROCmの対応をするのかどうかもわかりませんので、RDNA4は生成AIを使う用途では様子見をしたほうがよいでしょう。

おそらくは第二世代のAI/MLハードウェア演算器(AMD版Tensorコア)も搭載されるでしょう。

Radeonで生成AIはできないといわれてきたことに対する挑戦として、とても興味深く多くのユーザーにRadeonで生成AIを楽しんでほしいと思ってきました。

そして、Radeonでも生成AIができるということを実感しているユーザーもそれなりに増えていると思います。

それだけに、この大事な時期にフラッグシップ不在というのは痛いなと思います。

ROCmのセットアップスクリプトを配布している当サイトとしては非常に残念でなりません。