Riffusion 修改 Stable Diffusion 使 AI 文本到图像频谱可以播放音频

该系统已经过调整,可以生成更精细的频谱图图像。

Stable Diffusion 已更新,包括用于微调与文本配对的频谱图图像的 AI 例程。 他们现在可以更精确地发出声音。 Riffusion 是团队版本的稳定扩散模型。

所有稳定扩散特征都保留了下来。

Merovingian/iStock。

音频处理也已完成,但它发生在模型的后期或下游。

来源和详细信息:
https://interestingengineering.com/innovation/riffusion-tweaks-stable-diffusion-to-make-ai-text-to-image-spectrograms-to-play-audio

By lausm

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *