微软研究员引入“大型搜索模型”框架,以人工智能为核心,彻底改革在线搜索引擎

微软研究员以人工智能为核心,引入“大型搜索模型”框架,全面升级在线搜索引擎

在互联网的信息传播时代,搜索引擎已成为定位和获取知识的不可或缺的工具。这些数字平台作为导航工具,在庞大的信息海洋中有效而准确地让人们获取特定的细节。用户可查询各种主题,从学术研究到日常实用问题。搜索引擎不仅促进了信息的发现,也在基于相关性的组织和排序数据方面发挥了重要作用。

现代搜索引擎是建立在复杂基础上的,以充分利用搜索引擎结果页面(SERP)上的宝贵信息,包括多媒体内容、知识面板、相关查询、直接答案和特色片段。这个基础由多个部分组成,如理解用户查询、获取数据、多阶段排名结果和回答查询。

过去,这些组件通常是独立开发和优化的,经常通过使用特定任务数据集增强预训练的语言模型(如BERT或T5)来实现。需要一个更灵活的系统,它能够做出各种决策并具有可适应的界面。这种系统的重要性随着时间的推移而增长。

因此,微软研究人员发表了一篇名为“Large Search Model: Redefining Search Stack in the Era of LLMs”的论文,提出了一个新颖的框架。通过结合多个组件,这个框架,也被称为大型搜索模型,展望了传统搜索堆栈的转变。

通过简化和加快复杂的搜索过程,这种方法使搜索结果更好。它使用一种单一的建模方式,通过给它提示来为不同的搜索定制大型搜索模型。搜索的常规部分,如查找和组织信息以创建搜索引擎结果页面(SERP),仍然存在。研究团队称这个大型搜索模型为个性化的大型语言模型(LLM)。它可以处理不同类型的信息任务,并通过自然语言提示告诉它要做什么。

此外,大型搜索模型可以根据特定的搜索情境进行调整,具有灵活性。这种定制是通过使用商业搜索引擎中常有的特定领域的数据对模型进行微调来实现的。重要的是,这种能力使模型能够将其知识用于新任务,即使它尚未经过直接训练。这个过程被称为零样本学习。

研究团队提供了现实世界的例子,以支持他们建议的模型的有效性。他们的模型优于多个鲁棒的密集检索器和传统的BM25稀疏检索。经过训练后,大型搜索模型表现比预期的模型更好,并超过了基准性能,展示了它的能力。

大型搜索模型是搜索引擎领域的一项重要突破。借助大型语言模型的灵活性和强大功能,它有潜力提升搜索结果的质量,并简化复杂的搜索过程。