在COSP和USP内部:Google研究新方法推动LLMs的推理技术进步

探索COSP和USP的内部:Google开展新研究以推动LLM的推理技术进步

通过自适应提示,这两种新方法增强了LLMs中的常识推理能力。

使用DALL-E 3创建

我最近开始了一封关注人工智能的教育通讯,已经有超过160,000的订阅者了。TheSequence是一份不啰嗦(即没有炒作、没有新闻等等)以机器学习为导向的通讯,花费阅读时间只需5分钟。我们的目标是让你及时了解机器学习项目、研究论文和概念。请通过以下方式订阅一试:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据发展的最佳信息来源…

thesequence.substack.com

提示生成的演进是LLM应用的关键构建模块之一。推理或精调等任务在很大程度上依赖于具有强大提示数据集。有限样本设置等技术已大大减少了为特定任务精调模型所需的大量数据的必要性。然而,在一些通用模型覆盖广泛任务的场景下,制作示例提示仍面临挑战。即使生成少量示范也可能是一项艰巨的任务。特别是对于总结冗长文章或回答需要专业领域知识的问题(如医学问答)等任务,情况变得更为复杂。

在这种情况下,拥有强大的零样本性能的模型能够帮助减轻问题,无需手动生成提示。然而,需要注意的是,零样本性能往往不如指导下的性能强,因为语言模型在没有特定指导的情况下运行,偶尔会输出错误结果。

最近,Google Research提出了两种使LLMs中的零样本自适应提示得到提升的技术。第一种方法被称为“一致性自适应提示(COSP)”,在一篇最新的ACL 2023研究论文中进行了详细描述。COSP通过利用无标签样本和模型自身的预测来解决生成合适提示的困境,从而弥合了零样本和有限样本之间的性能差距,同时保留了零样本提示的优势。

与此同时,即将发表的EMNLP 2023论文中介绍了“通用自适应提示(USP)”的概念,将该概念扩展到了广泛的自然语言理解和生成任务中,展示了其在各个领域的有效性。

COSP和USP详细信息

COSP和USP的核心理念是利用模型的零样本输出作为生成提示的示范。其中挑战在于选择可靠的自动生成示范,因为错误的示范可能会产生不良影响。为了应对这一挑战,COSP利用了一个观察结果,即自信和一致的模型预测更有可能是正确的。这种置信度测量仅基于模型的预测,不需要标记数据。高置信度的预测及其相应的输入被视为伪示范。

基于这个基础,通过自一致性评估估计模型输出的置信度,作为正确性的度量。为了生成一系列可能的理由和答案,可以通过多次零样本思维链提示来查询模型,其随机程度由“温度”超参数控制。然后计算答案的熵值来量化不确定性。具有高自一致性和更大模型确定性的答案被认为是可靠的并被选择。

总之,COSP和USP遵循相似的方法:

· 输入无标签问题到模型中,以获得多个理由和答案。

· 强调最常见的答案,并测量它们在多个模型输出中的一致性。

· 惩罚重复,提倡在所选示范中的多样性。

· 将伪演示合并为测试问题,并再次查询模型以获得最终的预测答案。

图片来源:Google研究

虽然COSP主要关注具有明确正确答案的问题回答任务,但USP将该方法推广到其他自然语言处理任务,包括分类,短文本生成和长文本生成,并相应地调整置信度测量技术。 在USP下,Google研究将其方法论扩展到更广泛的自然语言处理任务的范围:

· 分类(CLS):在这个类别中,问题涉及根据神经网络的输出logits确定每个类的概率。 Google研究采用这种方法通过计算logit分布的熵来衡量不确定性,而无需进行多个抽样。

· 短文本生成(SFG):与问答类似的问题受益于与COSP中使用的类似过程,如有必要,无需生成策略。

· 长文本生成(LFG):涉及摘要和翻译等任务通常涉及非相同输出的开放式问题,即使模型自信。 在这些情况下,Google研究采用重叠度量标准,计算相同查询的不同输出之间的平均成对ROUGE分数。

图片来源:Google研究

这些创新方法在AI提示领域代表了一大步,使模型能够有效地自我提示并提升在各种自然语言任务中的表现。

结果

Google研究对COSP和USP在不同基准上进行了评估。在基于一致性的自适应提示(COSP)的情况下,Google研究最初集中在一组六个算术和常识推理问题上。他们将COSP与零样本CoT方法进行了比较,使用自我一致性来确保公平的计算资源比较。在三种不同的大型语言模型(LLMs)上,结果明确表明,零样本COSP优于标准的零样本基准。

图片来源:Google研究

在通用自适应提示(USP)中,Google研究采取了更广泛的方法,将分析范围扩大到超过25个分类任务,短文本生成和长文本生成任务。此外,他们使用先进的PaLM 2模型来解决庞大的BIG-Bench Hard任务系列,这是LLMs在与人类表现相比以前困难的领域。与他们的COSP结果惊人的一致性一样,Google研究证明USP在竞争中持续优于基准方法,与黄金示例提示相比也不逊色。

图片来源:Google研究

通过研究与正确性之间的置信度关系,可以清楚看出Google研究对于理解USP的机制承诺。他们的发现证实了主要观察结果,即USP主要选择自信的预测结果,在考虑到各种任务类型时往往产生更好的结果,如附图所示。这进一步证明了USP在增强语言模型在各种自然语言理解和生成任务中的表现方面的功效。

图片来源:Google研究

COSP和USP代表了探索提高LLMs常识推理的重要领域。