Vectara推出具有开创性的开源模型,用于评估和解决AI语言模型中的’幻觉’问题

Vectara推出创新的开源模型,解决AI语言模型中的'幻觉'问题

在促进快速发展的生成AI(GenAI)领域中,Vectara采取了前所未有的举措,推出了一种开源幻觉评估模型,标志着在大型语言模型(LLMs)中标准化测量事实准确性的重要进展。该举措为评估LLMs对事实的保持程度提供了商业和开源资源,用于评估它们与提供的参考材料生成内容时与真实事实的偏离程度,同时提供动态和公开的排行榜。

该发布旨在增强透明度,为评估领先的GenAI工具中幻觉风险提供客观方法,这是促进负责任人工智能、减少错误信息和支撑有效监管的基本措施。幻觉评估模型将成为评估LLMs的事实准确性的关键工具,以提供对它们生成内容的事实基础程度的评估。

Vectara的幻觉评估模型现在在Hugging Face上可供使用,采用Apache 2.0许可证,清晰地展示了LLMs的事实真实性。在此之前,LLM供应商关于其模型能够抵抗幻觉的说法往往是无法验证的。Vectara的模型利用了幻觉研究的最新进展,以客观评估LLM摘要。

随发布而来的是一个称为排行榜的东西,类似于用于评估GenAI准确性的FICO评分,由Vectara团队与开源社区共同维护。它根据LLMs在一套标准化的提示中的表现进行排名,为企业和开发人员提供有价值的洞察,以进行知情决策。

排行榜的结果显示,OpenAI的模型目前在性能上领先,Llama 2模型紧随其后,并且Cohere和Anthropic也显示出了强大的结果。然而,Google的Palm模型得分较低,反映了该领域的不断发展和竞争。

Vectara的模型虽然不能解决幻觉问题,但它是一种更安全、更准确的GenAI采用工具。它的推出正值关注错误信息风险的高峰时期,比如美国总统选举。

幻觉评估模型和排行榜将在促进数据驱动的GenAI监管方面发挥重要作用,为行业和监管机构一直期待的标准化基准。