Meta Spirit LM - 多模态语言模型 | 绿软下载

Meta AI 最近发布了一个名为 Meta Spirit LM 的开源多模态语言模型，它能够在文本和语音之间实现无缝转换。这一模型支持多模态任务，既可以进行语音识别，也能够生成带有情感的语音。这款模型的出现为跨模态生成任务带来了新的可能，特别是在语音与文本的混合生成方面。

软件功能

两个版本：Meta Spirit LM 提供了 Base 和 Expressive 两个版本。Base 版本适合一般的语音识别和生成任务，而 Expressive 版本则可以生成带有情感的语音，使机器语音更加自然和富有表现力。
情感捕捉与生成：Expressive 版本不仅能够理解语音中的情感，还可以通过不同的语调和风格生成带有情感的语音。例如，模型能够根据输入的情感状态生成带有“愤怒”、“悲伤”或“兴奋”色彩的语音内容。
跨模态任务：Spirit LM 支持多种跨模态任务，如 ASR 和 TTS，同时也能在生成过程中自由切换文本和语音，具备极高的灵活性。