MemPrivacy – 记忆张量联合荣耀 AI 开源的隐私保护框架

动态 来源:AI工具集 2026-05-18 23:59:56

MemPrivacy是什么

MemPrivacy 是记忆张量(MemTensor)团队联合荣耀 AI 团队及同济大学共同开源的端云协同 Agent 隐私保护框架。针对云端 Agent 长期记忆场景中的隐私泄露风险,提出”本地可逆伪匿名化”方案:端侧识别用户输入中的敏感信息并替换为带语义类型的占位符(如 <Email_1>、<Health_Info_1>),真实值映射保存在本地 SQLite 数据库;云端基于占位符继续完成推理、记忆写入与检索;回传后由本地还原为真实内容。

MemPrivacy的主要功能

  • 本地可逆伪匿名化:端侧识别用户输入中的隐私片段,将其替换为带语义类型的占位符(如 <Email_1>、<Health_Info_1>),真实值与占位符的映射持久化存储于本地 SQLite 数据库,云端仅见占位符不见明文,回传后本地再还原为真实内容。
  • 四级隐私分类体系(PL1–PL4):以可识别性、潜在危害性与可利用性为准绳,将隐私分为基础画像级(PL1)、身份锚定级(PL2)、高危敏感级(PL3)、致命核心级(PL4),支持用户自由配置脱敏阈值与保护策略。
  • 三种掩码模式:type_specific 类型化占位符(保留语义角色,效用最佳)、generic 通用占位符(隐私更强但语义较弱)、complete 完全删除敏感片段(隐私最强但效用最低)。
  • 端-云-端三段式流程:上行脱敏(本地)→ 云端处理(推理/记忆写入/工具调用)→ 下行恢复(本地),实现架构级隔离,云端组件永不接触原始敏感值。
  • 多规格端侧模型:开源 0.6B、1.7B、4B 参数版本(基于 Qwen3 系列底座),均提供 SFT 与 RL 训练版本,适配从轻量 IoT 到高性能端侧的不同部署需求。
  • 自研评测基准 MemPrivacy-Bench:覆盖 200 个合成用户、中英双语多轮对话、超 15.5 万个隐私项,支持隐私提取准确率与记忆系统效用损失的端到端评估。
  • 开箱即用评估套件:内置 Mem0、LangMem、Memobase 三大主流记忆系统的端到端评估脚本,可直接测试不同保护策略下的隐私-效用权衡。
  • 低延迟本地处理:单条消息隐私检测与脱敏延迟低于 1 秒,适合无缝端侧部署,不影响用户实时交互体验。
  • 持久化映射管理:本地 SQLite 数据库跨会话保存占位符 ↔ 真实值映射,支持长期 Agent 记忆场景下的持续隐私保护。

如何使用MemPrivacy

  • 克隆仓库并安装依赖:git clone https://github.com/MemTensor/MemPrivacy.git,创建虚拟环境并执行 pip install -r requirements.txt。
  • 配置隐私框架参数:编辑 src/privacy_config.yaml,设置 LLM API 凭证、本地 SQLite 数据库路径及掩码级别(如 PL3、PL4)。
  • 配置评估套件参数(可选):编辑 evaluation/eval_config.yaml,配置 OpenAI API、记忆系统数据库连接(Mem0 / Memobase)及各角色 LLM。
  • 运行核心脱敏流程:调用 src/privacy_masking.py 中的 mask_dialogue() 进行上行脱敏,选择掩码模式(type_specific / generic / complete)。
  • 云端交互:将脱敏后的文本发送至云端 LLM / 记忆系统,云端基于占位符完成推理与记忆操作。
  • 下行恢复:调用 unmask_dialogue() 使用本地 SQLite 映射表将云端响应中的占位符还原为真实值。
  • 运行记忆系统评估(可选):执行 python evaluation/eval_mem0.py / eval_langmem.py / eval_memobase.py 进行端到端基准测试。

MemPrivacy的项目地址

  • GitHub仓库:https://github.com/MemTensor/MemPrivacy

  • HuggingFace模型库:https://huggingface.co/collections/IAAR-Shanghai/memprivacy

  • arXiv技术论文:https://arxiv.org/pdf/2605.09530

MemPrivacy的技术原理

  • 本地可逆伪匿名化架构:采用”端-云-端”三段式流程,端侧负责隐私检测与脱敏、本地映射存储及下行恢复,云端仅处理带占位符的文本,实现架构级隔离,确保原始敏感值永不进入云端
  • 细粒度隐私检测模型:基于 Qwen3 系列底座训练专用隐私提取模型,通过 SFT 阶段学习 26K 高质量多轮对话中的隐私定位与替换能力,再通过 GRPO 强化学习优化模糊边界下的召回率与精确率平衡
  • 四级隐私分类树(PL1–PL4):以可识别性、潜在危害性与可利用性三维指标构建隐私分级体系,PL1 为低敏偏好画像、PL2 为身份锚定信息、PL3 为高危敏感数据、PL4 为致命核心凭证,支持用户按策略阈值动态触发保护
  • 语义保留的占位符替换机制:将敏感片段替换为带类型的占位符(如 <Email_1>、<Health_Info_1>),相比传统 *** 掩码或通用 <Mask_1>,保留了语义角色信息,使云端 Agent 仍能基于类型理解上下文并完成推理、记忆检索与工具调用
  • 本地 SQLite 映射持久化:在端侧建立占位符 ↔ 原始真实值的加密映射数据库,跨会话持久保存,支撑长期记忆场景下的双向转换,且映射数据仅驻留本地不上传
  • 三种掩码策略动态切换:type_specific 模式最大化语义保留与系统效用;generic 模式降低语义暴露面;complete 模式直接删除敏感片段,用户可按隐私等级与场景需求灵活选择

MemPrivacy的核心优势

  • 隐私提取准确率大幅领先:MemPrivacy-4B-RL 在 MemPrivacy-Bench 上 F1 达 85.97%,OpenAI privacy-filter 仅 35.50%,领先 50.47%;在跨分布数据集 PersonaMem-v2 上仍领先近 9%。
  • 系统效用损失极低:保护 PL2-PL4 时记忆系统准确率仅下降 0.71%~1.60%;仅保护 PL4 时下降低于 0.89%,传统不可逆掩码会导致 16%~42% 暴跌。
  • 越级碾压通用大模型:即便面对 GPT-5.2、Gemini-3.1-Pro、DeepSeek-V3.2-Think 等通用模型,MemPrivacy-4B 乃至 0.6B 微型版本在隐私提取任务上均实现碾压。
  • 细粒度语义保留:类型化占位符让云端 Agent 仍能理解语义结构,避免”Agent 失忆”或任务逻辑断裂。
  • 低延迟端侧部署:单条消息处理延迟低于 1 秒,适合无缝本地部署。
  • 两阶段训练策略:先通过 26K 高质量多轮对话数据 SFT 掌握基础隐私定位与替换,再引入 GRPO 强化学习优化模糊边界下的召回与精确率平衡。

MemPrivacy的同类竞品对比

对比维度MemPrivacyOpenAI privacy-filter
发布方记忆张量 MemTensor + 荣耀 + 同济大学OpenAI
发布时间2026 年 5 月 15 日2026 年 4 月 22 日
模型参数0.6B / 1.7B / 4B(基于 Qwen3)1.5B 总参,约 50M 激活参数
隐私标签粒度细粒度类型化占位符(如 <Health_Info_1>)8 类基础标签(如 [PRIVATE_PERSON]、[SECRET])
隐私分类体系四级分层(PL1-PL4),可调控阈值无明确分级,统一处理
核心机制本地可逆伪匿名化(端-云-端)双向 Token 分类,直接掩码/替换
F1 分数(MemPrivacy-Bench)85.97%(4B-RL 版本)35.50%
系统效用损失0.71% ~ 1.60%传统掩码导致 16%~42% 暴跌
上下文长度适配长文本 Agent 记忆场景128K
开源范围模型权重、代码、评测基准全开源模型开源

MemPrivacy的应用场景

  • 端侧智能助手隐私增强:为手机端 AI 助手提供本地隐私过滤层,确保用户健康、财务数据不上云明文。
  • 企业级 Agent 合规部署:在涉及客户 PII 的客服 Agent、医疗 Agent 中满足数据合规要求。
  • 长期记忆型个人助理:保护用户日程、偏好、家庭住址等长期记忆数据,同时保留个性化能力。
  • 跨境云服务隐私隔离:中国大陆用户数据经本地脱敏后上云处理,满足数据出境合规要求。
  • 隐私保护研究基准测试:用 MemPrivacy-Bench 评估不同记忆系统(Mem0、LangMem、Memobase)的隐私-效用权衡。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接