Riffusion:AI 支持的文本到图像频谱图,用于生成精确的音频

Riffusion 修改 Stable Diffusion 使 AI 文本到图像频谱可以播放音频

该系统已经过调整,可以生成更精细的频谱图图像。

Stable Diffusion 已更新,包括用于微调与文本配对的频谱图图像的 AI 例程。 他们现在可以更精确地发出声音。 Riffusion 是团队版本的稳定扩散模型。

所有稳定扩散特征都保留了下来。

Merovingian/iStock。

音频处理也已完成,但它发生在模型的后期或下游。

来源和详细信息:
https://interestingengineering.com/innovation/riffusion-tweaks-stable-diffusion-to-make-ai-text-to-image-spectrograms-to-play-audio

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注