颠覆人工智能的听觉技巧:清华大学和字节跳动揭示了SALMONN——一种突破性的多模态神经网络,用于高级音频处理

「探索颠覆人工智能领域的听觉技巧:清华大学和字节跳动倾情揭秘SALMONN——一款颠覆传统的多模态神经网络,助力高级音频处理的突破性工具」

在多个自然语言处理应用中,基于文本的大型语言模型展现出令人印象深刻甚至接近人类水平的性能。与此同时,一种名为指令调整(instruction tuning)的LLM训练范式演变出来,让LLM能够遵守无限制的用户指令。越来越多的研究者对为LLM赋予多模态感知能力感兴趣。目前的研究集中在将LLM与一个或多个输入类型的编码器(如图像、无声视频、音频事件或语音)或多种输入类型的编码器相链接。

为了使编码器输出空间与LLM输入空间保持一致,人们可以利用连接模块和LLM适配器。本研究提出的SALMONN(speech audio language music open neural network)是一个单一的音频-文本多模态LLM,能够识别和理解语音、音频事件和音乐这三个主要声音类别。SALMONN采用双编码器框架,包括来自Whisper语音模型的BEATs音频编码器和语音编码器,以提高语音和非语音音频应用的性能。

为了进一步提高Vicuna的性能,利用低秩调整策略作为一种跨模态适配器,将增强输入空间与输出空间进行匹配。窗口级Q-Former和LoRA的跨模态预训练和指令调整阶段涵盖了许多语音、音频和音乐挑战。由此产生的多模态LLMs几乎没有交叉模态的新技能,并且可能仅限于指令调整中使用的特定任务类型,具体来说是音频字幕和语音识别,该问题被称为任务过度拟合问题。研究中将能够执行在训练期间没有注意到的交叉模态任务的能力称为交叉模态新技能。这些能力基本上是在指令调整过程中丢失的LLMs新技能。

为了减轻训练任务中的显著灾难性遗忘,他们建议将少数样本激活调整阶段添加到SALMONN的工具中。使用各种语音、听觉事件和音乐标准来评估SALMONN的认知听觉能力。任务分为三级。前两个级别测试未受过训练的任务,而第一级别对八个在指令调整中教授的任务进行基准测试,包括音频字幕、翻译和语音识别。第二级别包括五个基于语音的自然语言处理(NLP)任务,包括填槽和对未经训练的语言进行翻译,这些任务需要语音和文本标记之间的多语言和高质量对齐。

理解非语音听觉信息对于最后一组任务是必要的,例如基于音频的叙述和语音音频共推理。实验结果表明,当作为单一模型使用时,SALMONN可以完成所有这些任务,并在行业基准上表现出竞争力。这表明可能可以创建能够“听到”和理解各种音频输入(包括语音、音频事件和音乐)的人工智能。

本文的主要贡献可以总结如下:

• 据他们所知,清华大学和字节跳动的研究人员提供了SALMONN,第一个能够识别和理解包括语音、音频事件和音乐在内的通用音频输入的多模态LLM。

• 通过改变LoRA缩放因子,他们研究了交叉模态新技能的存在性。然后建议使用低成本激活调整技术作为额外的训练步骤,以激活这些能力并减少对训练中遇到的任务的显著灾难性遗忘。

• 他们提供了两个新任务,基于音频的叙事和口语音频共推理,并在多种任务上评估SALMONN,这些任务代表了一系列常规听觉技能。