https://zeyuet.github.io/AudioX/
AudioX: Diffusion Transformer for Anything-to-Audio Generation
AudioXは、あらゆるものからオーディオおよび音楽を生成できる統一された拡散トランスフォーマーモデルです。
テキスト、ビデオ、画像、音楽、オーディオなど、さまざまなモダリティを柔軟に制御し、シームレスに処理できます。
マルチモーダルなマスクされたトレーニング戦略により、高品質なオーディオと音楽の生成を可能にします。