《梦境与现实之间:生成文本与幻觉》

《梦幻与现实:文字创作与幻觉之间的冲突》

 

在数字时代,人工智能的奇迹已经改变了我们的互动方式、工作方式,甚至思考方式。

从能够策划我们的播放列表的语音助手到能够预测市场趋势的预测算法,人工智能已经无缝融入我们的日常生活。

但是,就像任何技术进步一样,它也不是没有缺陷的。

大型语言模型(LLM)是经过训练的机器学习模型,根据您提供的提示生成文本。为了生成良好的回应,这些模型利用其训练阶段所保留的所有知识。

最近,LLM展示了令人印象深刻且不断增强的能力,包括对任何类型的用户提示生成令人信服的回应。

然而,尽管LLM具有生成文本的令人难以置信的能力,但很难确定这种生成是否准确。

这正是常常被称为幻觉的东西。

那么这些幻觉是什么,以及它们如何影响人工智能的可靠性和实用性呢?

 

LLM幻觉之谜

 

LLM在文本生成、翻译、创意内容等方面是一流的。

尽管是强大的工具,LLM确实存在一些明显的缺点:

  1. 使用的解码技术可能会产生无启发、缺乏连贯性或容易陷入单调重复的输出。
  2. 它们的知识基础是“静态”的,更新无缝性存在挑战。
  3. 常见问题是生成无意义或不准确的文本。

最后一点被称为幻觉,这是一个从人类扩展出来的概念。

对于人类来说,幻觉代表了虽然是虚构的,但被认为是真实的经验。这个概念也适用于AI模型,其中产生的幻觉文本看起来准确,但事实上是错误的。

在LLM的情境中,“幻觉”指的是模型生成的不正确、无意义或虚假的文本。

  

LLM不像数据库或搜索引擎一样设计,因此它们的回答不引用特定的来源或知识。我敢打赌,你们中的大多数人可能会想知道…这是怎么可能的呢?

这些模型通过构建给定的提示生成文本。生成的回应不总是直接由特定的训练数据支持,而是根据提示的上下文进行制作。

简单来说:

它们可以自信地输出事实上不正确或没有意义的信息。

 

解读幻觉的类型

 

识别人类的幻觉一直是一个重大挑战。鉴于我们有限的获取可靠基准进行比较的能力,这个任务变得更加复杂。

虽然来自大型语言模型的详细洞察力,如输出概率分布,可以在这个过程中有所帮助,但这些数据并不总是可用的,增加了另一层复杂性。

幻觉检测问题仍未解决,是一项正在进行的研究课题。

  1. 肆无忌惮的谎言:LLM可能创造出从未存在过的事件或人物。

  2. 太过准确:它们可能会洩露过多信息,可能导致敏感信息的传播。

  3. 无意义的:有时,输出可能只是纯粹的胡言乱语。

    这些幻觉为什么会发生?

 

这些幻觉为什么会发生?

 

其根本原因在于训练数据。LLM从庞大的数据集中学习,这些数据集有时可能是不完整的、过时的,甚至矛盾的。这种模糊性可能会使它们偏离轨道,使它们将某些词语或短语与不准确的概念关联起来。

此外,由于数据的庞大,LLMs可能没有明确的“真实来源”来验证它们生成的信息。

充分利用幻觉

有趣的是,这些幻觉实际上可以成为一种福音。如果你寻求创造力,你会希望像ChatGPT这样的LLMs产生幻觉。

想象一下,你要求一个独特的幻想故事情节,你会希望得到一个新鲜的叙述,而不是现有故事的复制品。

同样,在脑力激荡时,幻觉能够提供大量多样化的想法。

减轻幻觉的影响

意识是解决这些幻觉的第一步。以下是一些控制它们的策略:

  • 一致性检查:对同一个提示生成多个响应并进行比较。
  • 语义相似性检查:使用BERTScore等工具来衡量生成文本之间的语义相似性。
  • 使用更新的数据进行训练:定期更新训练数据以确保相关性。甚至可以微调GPT模型以提高其在某些特定领域的性能。
  • 用户意识:向用户介绍潜在的幻觉和交叉参考信息的重要性。

最后但并非最不重要的…探索!

本文为LLM幻觉奠定了基础,但对于您和您的应用程序而言,其影响可能会有所不同。

此外,您对这些现象的解释可能并不完全符合实际情况。要完全掌握和评估LLM幻觉对您的努力产生的影响,需要对LLMs进行深入探索。

总结

人工智能的旅程,尤其是LLMs,就像在尚未勘探的水域航行一样。虽然无限可能的海洋令人兴奋,但需要警惕可能导致我们失误的幻觉。

通过了解这些幻觉的本质并采取措施减轻它们,我们可以继续利用人工智能的变革力量,确保在不断发展的数字环境中的准确性和可靠性。

[Josep Ferrer](https://www.linkedin.com/in/josep-ferrer-sanchez)是来自巴塞罗那的分析工程师。他在物理工程专业毕业,并目前从事应用于人类活动的数据科学领域。他是一个兼职内容创作者,专注于数据科学和技术。您可以在LinkedInTwitterVoAGI上联系他。