当前,随着生成型人工智能的迅速发展,大模型的安全和合规问题也逐渐成为业界关注的焦点。京东云基于自身的业务需求和国家的监管要求,建立了一套完整的大模型应用安全体系,实现了大模型应用从开发到运行的全过程安全保护。

京东云的大模型安全实践,将合规作为一条底线,构建了“上线前侦测+上线保护”全链路的闭环安全体系。其核心技术包括以下四个关键步骤:一是模型库筛选,利用敏感数据筛选规则引擎准确筛选出涉及政治、暴力、色情、个人隐私和商业机密的违规内容,并结合金融、卫生、政府等行业特有的模版,综合筛选企业现有库和基础库,生成库安全评价报告。第二步是模型评估,根据监管部门规定的31个风险类别,以330000个风险词汇库为基础,构建测试试题库,利用启发式学习算法、矢量数据库以及安全大模型,对模型进行综合测试,以发现模型中存在的数据泄露和内容生成违规行为。

实时安全网关是系统上线后的核心防护,它利用“试探+矢量数据库+大模型”的三层侦测引擎,实时拦截用户提出的问题和模型产生的内容。该网关能够检测文本、图像、音频和视频等多种类型的内容,能够识别角色扮演和权限升级等攻击手段,系统连续90天的利用率为99.99%,每一次服务请求的P99时间只有40 ms,能够提供分钟级别的服务。同时,脱机测试平台不断地对保护策略进行优化,从而形成了“测试—迭代—优化”的良好循环。

该安全体系已经在京东的核心业务中实现了落地和应用,覆盖了京言导购助手,京医千询,万商商家AI助手等产品,并与ChatGPT, ERNIE, ChatGLM等主流平台进行了适配。实际应用结果表明,该系统能够支持30多种场景的安全检测,其中包括零售、卫生、工业等,准确率达到95%以上;在过去90天内,完成了5000W+次的安全检测,2W+次的政治、暴力、恐怖、商业机密泄露风险识别,并成功拦截了业务数据、金融数据、身份信息和其他敏感信息的泄露。
在备案合规方面,京东云从立项、审批、会签、上线等各个环节都制定了集团内部的备案管理规范,严格按照《生成式人工智能服务管理暂行办法》执行。通过对31项风险进行自主评估,并向监管部门报送完整的安全评估报告和语料标注规则,由当地网信部门和有关部门进行评估并完成备案,保证大模型应用的合法、合规运行。















点击阅读原文获取《95% 风险拦截率背后:京东云大模型安全网关的实战架构》