Riffusion：AI 支持的文本到图像频谱图，用于生成精确的音频

By lausm 2023年5月3日

Riffusion 修改 Stable Diffusion 使 AI 文本到图像频谱可以播放音频

该系统已经过调整，可以生成更精细的频谱图图像。

Stable Diffusion 已更新，包括用于微调与文本配对的频谱图图像的 AI 例程。他们现在可以更精确地发出声音。 Riffusion 是团队版本的稳定扩散模型。

所有稳定扩散特征都保留了下来。

Merovingian/iStock。

音频处理也已完成，但它发生在模型的后期或下游。

来源和详细信息：
https://interestingengineering.com/innovation/riffusion-tweaks-stable-diffusion-to-make-ai-text-to-image-spectrograms-to-play-audio

相關

By lausm

發佈留言取消回覆

AI 算法加入 Cornell Big Red：以 80% 的准确度预测运动队的动作

揭示神经退行性疾病进展的复杂性：ALS 的机器学习方法

保护您的隐私：人工智能如何帮助打击窃听

解开读带分子棘轮的秘密