北电数智发布AI可信数据空间研究报告,创新解决数据安全与隐私保护难题
北电数智发布AI可信数据空间研究报告,创新解决数据安全与隐私保护难题
12月19日,在2024数据资产管理大会上,由北电数智、北京大学信息管理系、中日友好医院共同编写的《智能计算驱动的AI可信数据空间方案研究》正式发布。这份重磅报告不仅前瞻性地提出了“以数据可信定义AI终局”的发展愿景,更为解决当前AI发展中的数据安全和隐私保护难题提供了创新性的解决方案。
以数据可信定义AI终局
随着AI技术的不断发展,数据安全和隐私保护已成为制约其发展的关键因素。《研究报告》指出,当前公开数据资源日益枯竭,而“数据烟囱”的客观存在进一步阻碍了高质量数据向应用场景释放价值。在此背景下,构建可信数据空间成为实现数据资源共享、数据要素流通、数据价值共创、构建数据市场的重要基础设施。
报告提出了三个层面的建设建议:
明确价值定义:通过隐私计算、虚拟沙箱等技术手段,保障数据“可用不可见、可用不可存、可控可计量”,为数据要素的安全、高效流通提供关键支撑。
借鉴国际经验:欧盟通过构建多层次的可信数据空间体系,在科研、健康等领域已取得显著成效。国内也在政务、跨境、工业等领域开展了诸多实践。
因地制宜施策:鉴于我国可信数据空间发展尚处于起步阶段,建议国资背景企业先行先试,推动安全、高效、公平的数据流通环境建设。
红湖·可信数据空间:AI发展的数据基础设施
作为AI原生国企,北电数智基于对数据要素核心价值的深入洞察,推出了“红湖·可信数据空间”产品。该产品通过构建安全、可信的数据环境,让数据能自由汇聚、共享和流动,从而释放数据要素价值,为人工智能发展提供数据燃料。
红湖·可信数据空间的整体架构是面向大模型开发设计的。面向数据提供方,红湖·可信数据空间有着使用策略协商、数据合约授权、数据安全接入、存证等产品功能,最大范围保障其权益,让数据“可用不可见、可用不可存、可控可计量”;面对数据开发者,红湖·可信数据空间还提供了大模型嵌入与开发、数据安全计算、流程管控、底层算力调度等功能,让可信空间中的数据有效支持模型训练及人工智能发展。
红湖·可信数据空间的产品设计充分考虑了人工智能开发过程中的风险因素。它能依托混元算力构建,通过嵌入机密计算能力、隐私计算软硬一体设计等技术,能结合已有算力基础设施建设可信数据空间,如将平台能力建立在国产硬件上;而在算法开发环节,红湖·可信数据空间提供了大模型开发算法融入数据空间的标准化方法,将算法与有效的技术手段结合来保护数据隐私安全。
对于数据流通的安全性,红湖·可信数据空间会根据应用场景需求对数据选取不同的安全技术配置,如对于大数量、超大模型、低敏感的数据,可以基于策略控制与软件隔离对大模型进行训练;但对于多方小数据量但高敏感的数据,就需要基于密码学密文计算的样本对齐、模型推理等。
多场景应用,释放数据要素价值
目前,红湖·可信数据空间已在多个行业落地应用:
在医疗领域,通过整合多源异构数据,并结合AI数据挖掘,提升了医疗服务的智能化水平。
在科研领域,提出了“1+1+N”科研数据服务解决方案,构建全面的科研与产品服务生态网络。
在公共数据运营领域,构建从数据汇聚、治理、授权管理到开发利用的全链条授权开发与流通应用体系,释放公共数据价值。
政策引领,未来可期
9月以来,国家数据局密集发布系列政策,提出公共数据资源开发利用成为产业发展重要趋势,并明确出台“可信数据空间”建设行动计划,确立了2028年前建成100个可信数据空间,培育推广五大类空间,形成九大关键技术突破等目标。
《研究报告》预计,随着相关政策与法律法规的不断优化完善、大模型与数据要素融合趋势加快、数据流通基础设施朝向互联互通迈进,可信数据空间将成为实现数据资源共享共用的数据流通利用基础设施、数据要素价值共创的应用生态和支撑构建全国一体化数据市场的重要载体。
北电数智也将持续锻造“红湖·可信数据空间”产品服务能力,全力促进数据要素价值释放,促进人工智能产业发展。