问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

港大打造LightRAG:让大模型RAG高效又便宜

创作时间:
作者:
@小白创作中心

港大打造LightRAG:让大模型RAG高效又便宜

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_29227408?commTag=true

香港大学计算机学院助理教授黄超带领团队研发的LightRAG系统,通过引入图结构和双层检索机制,成功解决了现有RAG系统在信息检索效率、相关性和新数据适应能力等方面的痛点。

RAG系统概述

Retrieval-Augmented Generation (RAG)通过在私有数据库中检索相关内容来增强针对特定查询的回答生成。RAG系统通常包含三个主要工作过程:

  1. 建立私有数据库索引
  2. 针对查询的快速检索
  3. 基于检索内容的回答生成

LightRAG的优势指标

  1. 信息检索的全面性:LightRAG通过引入图结构,能够全面捕捉数据库中实体之间的复杂依赖关系,提升信息检索的覆盖范围和相关性。

  2. 检索算法的计算时间和成本:采用双层检索机制优化检索效率,显著降低计算时间和资源消耗。

  3. 面向新数据的迭代能力:具备快速适应新数据的能力,确保系统在动态环境中的高效和准确。

LightRAG系统设计

基于图的文本索引

LightRAG采用基于图的文本索引方法,主要包括实体和关系提取以及生成键值对数据。通过文档分割、实体识别、关系提取和键值对生成等步骤,构建信息块之间的相关性,增强检索结果的全面性。

双层检索算法

针对特定查询和抽象查询,LightRAG设计了低级别检索和高级别检索策略。低级别检索聚焦于特定实体及其相关属性,高级别检索则处理更广泛的主题和概念。通过结合图数据和向量数据,提升检索的准确性和相关性。

实验结果

在四个不同领域的数据集(农业、计算机科学、法律、混合)上,LightRAG与多种基线模型进行对比。实验结果显示,LightRAG在全面性、多样性和整体表现等方面均显著优于基线模型。特别是在法律数据集上,LightRAG的全面性和多样性胜率超过65%,而Naive RAG的胜率不足35%。

消融实验

消融实验进一步验证了双层检索机制和语义图的有效性。结果显示,仅使用低级别或高级别检索都会导致性能下降,而移除原始文本内容后,模型性能未显著下降,说明语义图在信息提取和表示方面具有强大能力。

成本分析

与最佳基线模型GraphRAG相比,LightRAG在检索效率和成本效益上具有显著优势。在检索阶段,LightRAG通过整合图结构和向量表示,显著降低了token消耗和API调用次数。在增量数据更新方面,LightRAG的增量更新算法避免了重复构建的开销,提高了更新效率。

总结

LightRAG通过创新的图结构和双层检索机制,不仅提升了信息检索的准确性和效率,还降低了大模型检索增强的成本。这一突破为RAG系统在实际应用中的推广提供了新的可能性。

论文地址https://arxiv.org/abs/2410.05779
项目地址https://github.com/HKUDS/LightRAG

本文原文来自澎湃新闻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号