5分钟带你了解：AI联网搜索与RAG如何选择与应用

创作时间:

作者:

@小白创作中心

5分钟带你了解：AI联网搜索与RAG如何选择与应用

引用

CSDN

https://blog.csdn.net/leah126/article/details/140963881

众所周知，LLM的训练数据存在时效性和通用性问题。在面对时效性或是专业性较强的提问时，如果只依赖于内在知识，LLM就无法很好地回答。为了解决这些问题，让LLM搜索信息后再生成的方法应运而生。而搜索信息的方法又可以简单地分为网络搜索与本地搜索两种。网络搜索可以在一定程度上缓解LLM的时效性问题，而依赖于本地知识库的RAG方法可以较好地解决LLM在某专业领域知识不足的情况。

如果要打一个比方来描述网络搜索信息、本地搜索信息与依赖内在知识的区别，那么就是：

网络搜索信息就像是做项目，网络上的一切信息都可以利用
本地搜索信息就像是开卷考试，只能从有限的资料中搜索与考试科目有关的内容
依赖内在知识就像是闭卷考试，成绩完全取决于自身能力

但是，我们应该如何平衡这三者的关系呢？让我们来看一个真实的使用场景。

社区同学猫猫头想要知道在最近的巴黎奥运会中，乒乓球单打项目的金牌情况，所以他使用了MindSearch（一款AI搜索工具）来让LLM在网络中搜索，并且得到了满意的回复。同时他也选择了直接询问LLM，但是很明显，LLM的训练数据截止在了巴黎奥运会举办前，所以LLM认为巴黎奥运会还没有举办。

所以，本文将会在一定程度上从原理出发，为大家讲解网络搜索信息、本地搜索信息、依赖内在知识三种方法的利与弊，希望可以对大家在平衡这三者关系方面上有所帮助。

MindSearch 网络搜索

首先我们来简单介绍一下MindSearch。MindSearch是InternLM团队最近开源的AI搜索引擎工具，其可以在3分钟内主动从300+网页中搜集整理有效信息，并进行总结归纳。

上图即为MindSearch的整体工作流程。MindSearch框架主要包含两个Agent，分别为Planner和Searcher，前者负责生成搜索图以及输出最终的回复，后者则负责网页信息的抽取与整合。不难看出，网络搜索对于LLM的长文本能力、信息抽取能力以及推理能力提出了要求，而对于LLM本身的知识多少却没有限制。另一方面，网络搜索到的信息一定是实时更新的，所以网络搜索很适合用来解决LLM的知识时效性问题。

但是，值得注意的一点是，网络搜索信息的全过程极大地依赖于搜索引擎。无论是DuckDuckGo还是Bing，搜索引擎根据搜索关键词返回的结果将会直接影响LLM所看到的资料。此外，网络上大量的同质化内容也会对于网络搜索带来不小的挑战。因此，网络搜索信息方法的表现主要受到了搜索引擎和网络信息质量的影响。在某种意义上讲，网络搜索信息的方式更适合处理那些时效性极强，或是存在相关高质量信息来源网页的问题。

从下面的例子我们可以看出，当我们搜索“Real-time tracking论文”时，由于mindsearch默认配置的搜索引擎并不适合检索学术论文（mindsearch是开源的，可以更换搜索引擎的API），且“Real-time tracking论文”相关内容（低时效性）本身可能存在于LLM的内在知识中，因此此时直接询问LLM的效果可能反而比使用mindsearch搜索的更好。

左图：使用mindsearch搜索论文；右图：直接询问LLM