新闻中心

裁判文书敏感信息自动识别和保护 | 清华互联网司法研究院技术巡展

阅读次数:

“裁判文书敏感信息自动识别和保护 ”是华宇元典在清华大学指导下承担完成的国家重点研发项目中包含的课题。近日,公众号“清华大学互联网司法研究院”刊文如下:

服务人民法院改革需求,辅助提高司法智能化水平是清华大学互联网司法研究院的重要目标。我国自2013年全面实行裁判文书公开以来,发布总量已超过1.3亿份,访问量突破810亿次,文书体量和影响力居世界之首。那么,如何通过智能技术,辅助实现敏感信息的自动识别和保护呢?


研究背景

我国司法紧紧围绕“努力让人民群众在每一个司法案件中感受到公平正义”的目标,不断拓展司法公开的广度和深度,对于促进司法公平、提升审判质效、加强司法监督、服务重大决策都发挥了显著的推动作用。


《最高人民法院关于人民法院在互联网公布裁判文书的规定》明确要求,公开裁判文书的同时必须做好敏感信息保护。《民法典》和《个人信息保护法》的先后实施,也丰富了敏感信息类型,进一步细化了信息保护标准。针对案件数量大、信息识别难度高的现状,司法实务迫切需求借助智能化系统,辅助裁判文书中的敏感信息自动识别与保护,从而更好地实现司法公开与信息保护之间的平衡。 


在最高人民法院和科技部的指导下,清华大学互联网司法研究院的依托单位——清华大学计算机系,牵头国家重点研发计划“智能司法公开关键技术研究”项目,与北京华宇元典信息服务有限公司合作开展了“裁判文书公开敏感信息识别与保护技术研究”。结合信息检索和自然语言处理等领域的先进技术,精准识别裁判文书中的敏感信息,为裁判文书公开保驾护航的同时,也满足了社会各界对于个人信息保护的新期待。


研究成果

项目组将法学知识与计算机先进技术进行了深度融合,完成了“一套图谱、两个系统和三类模型”的研发。


“一套图谱”

是指“裁判文书敏感信息识别知识图谱”,根据涉及敏感信息保护的法律法规、法学理论、司法案例,项目组对敏感信息概念进行了分级区分,特别是对抽象程度较高的敏感信息概念进行降维拆解,建立了法律规则与业务数据之间的映射关系,搭建了系统全面的敏感信息概念认知框架图谱。


“两个系统”

是指“敏感信息自动屏蔽系统”和“敏感信息批量评查系统”,这是本项目从科研走向实际运用、服务智能司法公开的重要体现。屏蔽系统可部署于审判机关终端,对上网前的文书进行屏蔽处理。评查系统可部署于审判业务管理部门,对文书进行批量检查和处理。


“三类模型”

是指根据敏感信息在裁判文书中的表现形式和挖掘难度,将模型划分为“实体识别”、“知识计算”和“知识推理”三个层次,首次完成了多维度、分层次、广覆盖的敏感信息识别模型构建,实现了敏感信息识别研究的新突破。与既有的文书敏感信息屏蔽系统相比较可以发现,“智能司法公开关键技术研究”将数据驱动的深度学习方法与知识驱动的推理学习方法相结合,通过三类模型的应用,极大地提升了概念层级的敏感信息识别能力。


例如,以往识别技术的局限性通常在于使用关键词进行识别,“智能司法公开关键技术研究”可以在文书中没有“未成年人”特征信息的表述的情形下,根据“每月支付五百元抚养费直到王某泽十八周岁为止”的表述,自动推理出“王某泽”为未成年人身份。


再如,“健康信息”的现实语言表现包罗万象,如何全面屏蔽也是既往技术系统的难点与痛点。项目组从敏感信息概念入手,建立多维度、多层次的认知模型,对文书中的当事人疾病病史、医学诊断、住院记录、用药状况等各类直接或间接披露的自然人健康信息,均可以识别并提示屏蔽。此外,系统对于商业秘密、政治敏感、恐怖主义相关的敏感信息等,通过精细化建模,也均可以达到精准识别的效果。


着眼未来

未来,清华大学互联网司法研究院将在现有研发成果的基础上,持续提升系统的泛化能力,进一步服务互联网空间的个人敏感信息识别与保护,促进网络空间治理,服务数字经济发展。


返回列表