资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型如何守护你的隐私？

创作时间:

作者:

@小白创作中心

大语言模型如何守护你的隐私？

引用

百度

等

来源

https://cloud.baidu.com/article/3362182

https://blog.csdn.net/wtyuong/article/details/132752497

https://blog.csdn.net/weixin_43156294/article/details/140572913

https://cloud.baidu.com/article/3327678

https://www.journalofcybersec.com/CN/10.20172/j.issn.2097-3136.240103

https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/

https://www.journalofcybersec.com/CN/10.20172/j.issn.2097-3136.240103#14

https://www.journalofcybersec.com/CN/10.20172/j.issn.2097-3136.240103#7

https://www.cnblogs.com/huggingface/p/17725744.html

10.

https://kiwisec.com/articles/detail/18053.shtml

11.

https://developer.aliyun.com/article/1505609

随着人工智能技术的快速发展，大语言模型（LLMs）已经成为推动自然语言处理（NLP）领域进步的核心力量。然而，随着模型能力的提升，数据隐私和安全性问题也日益凸显。如何在保护用户隐私的同时，充分利用大数据训练和优化模型，成为了一个亟待解决的难题。本文将探讨大语言模型在个人隐私保护中的角色，分析其面临的挑战以及解决方案，帮助你了解这些技术是如何在不侵犯隐私的前提下提供个性化服务的。

核心技术手段

全同态加密：在密文上直接计算

全同态加密（Fully Homomorphic Encryption, FHE）是一种允许在加密数据上进行任意计算的加密技术。与传统的加密方法不同，FHE不仅保证了数据的机密性，还允许在密文上执行各种复杂的计算，而无需解密。这意味着，即使数据被加密，仍然可以对其进行搜索、排序、分析和训练模型等操作，且结果同样以加密形式返回。

在大语言模型的应用中，FHE技术可以确保数据的机密性和安全性，同时支持复杂的计算任务。然而，FHE也面临一些挑战。首先，由于FHE算法通常涉及复杂的数学运算和大量的计算资源，因此在实际应用中可能会遇到性能瓶颈。其次，FHE的密钥管理和分发也是一个重要问题，需要确保密钥的安全性和可用性。

差分隐私：添加噪声保护数据

差分隐私（Differential Privacy）是一种在统计数据库查询中添加随机噪声的技术，以保护个体数据的隐私。在大语言模型的训练过程中，差分隐私通过在梯度更新时添加噪声，防止模型记住特定的训练样本，从而保护用户隐私。

差分隐私的主要优势在于它提供了强大的隐私保护，同时对模型性能的影响相对较小。然而，添加噪声可能会导致模型的准确性略有下降，因此需要在隐私保护和模型性能之间找到平衡点。

匿名化处理：端侧隐私保护方案

腾讯安全玄武实验室提出了一种端侧隐私保护方案，通过在端侧执行隐私实体的替换和还原，实现了轻量级的隐私保护。该方案在正常调用云端LLM服务流程中插入了两个在端侧执行的步骤：

平行替换隐私实体以实现隐私敏感信息的脱敏
还原云端LLM输出中的隐私实体以恢复可用性

该方案能够在保护敏感信息隐私的同时保证生成输出的可用性，并且最小化计算开销。通过部署在端侧的小模型实现了用户无干预下的自动化脱敏和还原，以端到端的方式隐藏了命名实体识别、指代消解、文本生成等中间步骤。

为实现上述功能，腾讯团队标注了大量的替换与还原的平行语料数据集，训练了一个权重文件仅500MB的小模型。目前，该模型已成功在手机和笔记本上进行了部署实验。经测试，仅使用CPU的情况下，MacBook M2笔记本的推理速度为180-200 tokens/s，MacBook M1笔记本的推理速度110-130 tokens/s，Pixel 8 Pro手机的推理速度为20-30 tokens/s。