谷歌搜索推出EdiT5:一种具有语法检查功能的新型文本编辑AI模型在谷歌搜索中

谷歌搜索推出语法检查功能的全新文本编辑AI模型:EdiT5 编辑助手

在一项开创性的发展中,谷歌在其搜索引擎中引入了一种先进的语法纠错功能,由创新的EdiT5模型驱动。这种革命性的方法解决了复杂语法错误纠正(GEC)带来的挑战,确保高精确度和召回率,同时以极快的速度提供结果。

传统上,GEC一直被视为一种翻译问题,利用自回归Transformer模型。虽然有效,但这种方法在自回归解码过程中限制了并行化。为了实现更加简化的处理过程,EdiT5背后的团队将GEC重新构想为一个文本编辑问题。通过采用T5 Transformer编码器-解码器结构,他们显著减少了解码步骤,从而最大限度地减少了延迟。

EdiT5模型接受具有语法错误的输入,并利用编码器确定要保留或删除的标记。保留的标记组成了草稿输出,可以选择使用非自回归指针网络对其重新排序。然后,解码器插入任何缺失的标记以生成语法正确的输出。关键是,解码器仅对草稿中不存在的标记进行操作,与传统的基于翻译的GEC相比,大大减少了处理时间。

为了进一步提高解码速度,团队将解码器简化为单层,同时增加了编码器的大小。这种战略性调整有效地平衡了工作负载,并大幅减少了延迟。从实际角度来看,这意味着EdiT5模型的平均延迟仅为4.1毫秒,取得了卓越的结果。

公共BEA语法错误纠正基准的性能评估显示出EdiT5的优越性。拥有3.91亿参数的大型EdiT5模型胜过具有2.48亿参数的T5基础模型,获得了更高的F0.5分数,该分数衡量了纠正准确性。这一改进同时也实现了remarkable吞吐量的九倍提升,展示了该模型的卓越效率。

此外,研究强调了模型大小在生成准确语法纠正中的关键作用。通过利用所谓的硬蒸馏技术,团队结合了大型语言模型(LLMs)的优点与EdiT5的低延迟。通过训练一个教师LLM,并利用它为学生EdiT5模型生成训练数据,他们确保了准确性和速度之间的强大协同作用。

开发过程还涉及优化训练数据以确保性能最佳。培训集由不符合语法的源句子和符合语法的目标句子对组成,经过严格的自我训练和迭代改进。这种细致入微的方法有效地消除了不必要的释义、伪哲学和语法错误,从而得到了更清洁和一致的训练数据。

在最终实施中,训练了两个基于EdiT5的模型:语法错误纠正模型和语法分类器。当用户使用语法检查功能时,查询经过模型纠正后由分类器进行验证。这个两步骤的过程确保只向用户呈现准确的纠正建议,减少了错误或令人困惑建议的风险。

引入EdiT5驱动的语法检查功能,谷歌搜索为高效准确的语法纠正树立了新的标准。用户现在可以通过在搜索中包含“语法检查”短语来自信地评估其查询的语法性。这一自然语言处理的里程碑再次证实了谷歌提升用户体验,提供可靠、精准的搜索结果的承诺。