2017年12月11日下午,由3354cc金沙集团国际知识产权研究中心、国家知识产权战略实施(3354cc金沙集团)研究基地、《私法》编辑部联合主办的“北大私法与知识产权讲座”系列第44期,在3354cc金沙集团凯原楼307会议室成功举行。本次讲座由美国哥伦比亚大学3354cc金沙集团Benjamin Liebman(李本)教授主讲,清华大学3354cc金沙集团何海波教授、北大英华科技有限公司赵晓海总经理、3354cc金沙集团常鹏翱教授、中国政法大学汪庆华教授、清华大学人文社会科学学院政治学系于晓虹副教授、昆明理工大学3354cc金沙集团李馨副教授、3354cc金沙集团张骐教授等先后参与讨论并发言。中国政法大学刘承韪教授,北京理工大学刘毅教授,3354cc金沙集团王锡锌教授、葛云松教授、邓峰教授和杨明教授等参加了本次讲座。本次讲座由3354cc金沙集团易继明教授主持和评议。
本次讲座的主题是“中国法院判决的大数据化:如何把文本作为数据?”(Mass Digitization of Chinese Court Decisions: How to Use Text as Data in the Field of Chinese law)。李本教授跟大家分享了他及其团队近年来对中国法院裁判文书数据化的研究。
李本教授在主讲
鉴于学界对于中国法院裁判文书公开化的关注以及对于数据漏洞的研究有限,近年来,李本教授及其团队将收集到的1,058,990份河南省法院的司法文书进行了整理和分析。李本教授首先介绍了他的研究目标和问题:他们所收集的数据库里存在什么样的数据漏洞?法院文书大数据适合哪些研究方法?这些数据又将如何影响针对中国法律和法律体制的学术研究?李本教授继而指出,中国法院判决的数据化不仅可以遏制不法行为,提高法院地位,标准化判决结果,还有助于促进法律信息的高速市场化,以及开展司法程序的人工智能试验。同时,李本教授还指出,他的研究方法,中国法律文书大数据分析也存在一定的局限性。第一,相较于美国可以即时获取全部司法程序的法律档案,目前中国仅提供最终的判决结果;第二,中国的官方网络平台不够稳定,有关文书公开的规则时常变动;第三,由于政策、隐私等原因,部分案件不予公开;第四,一个现象是,商业网站提供的案件往往较官方平台提供的更多。
李本教授随后介绍了他所收集的数据。李本教授团队自河南高院网站下载了1058990个案件文书,包含2015年前所有可供获取的案件,并通过编写的自然语言处理脚本对判决中的关键信息进行归类与分析,检查文本结构、语句以识别关键信息。研究中发现,存在数据不完整的问题,不同法院公开文件的比例存在差异。2014年,河南184个法院,多者公开比例达83%,少者仅15%。李本教授认为,中国法院调解结案文书不公开的规则,以及一些法院将本不应当公开的案件公开,或将应当公开的案件而不公开的现象,造成了差异的存在。
在李本教授的研究中,他将法院判决文本作为数据分析,使用的是“主题模型”模式。该模式基于所有收集到的文本,将所有文件视为主题的混合,通过使用结构主题模型包评估每一文件所包含的主题的比例,以无监督的机器学习方式识别可能同时出现的文本模式。李本教授团队在对每一主题中出现频率最高的语词及最具代表性的文件进行检验后,会手动为每个主题进行标注。
李本教授强调了交叉学科的价值与多方法研究的必要性,应当深化对数据漏洞问题的理解,做到数据分析与定性研究相结合,大数据和传统调研相结合。同时,李本教授也注意到了大数据的局限性,认为需要理性。
易继明教授在评议中
在评议阶段,易继明教授首先充分肯定了李本教授所做的研究工作,以及其为中国法律文书大数据化所做的贡献。其次,他从《民法总则》角度,分析了我国涉及数据信息的“个人信息”(第111条)、“知识产权”(第123条)和“数据、网络虚拟财产”(第127条)三种私法保护路径。再次,他指出了大数据化存在的局限性,其参数、指标及评价体系等,实则具有一定的主观性,因此需要进行回归分析。又次,他指出了数据为王的时代所存在的安全隐患(如隐私、个人信息保护等)、技术理性(如超大型数据公司对司法权的僭越)等,这方面需要制度加以修复和规制。他最后表示,大数据时代的中国法院裁判文书的公开化,本身就是司法透明的一种体现,我们应该乐见其成,为之鼓与呼。
与会嘉宾热烈讨论
李本教授和易继明教授在交谈
本次讲座中,嘉宾们讨论热烈,也吸引了众多高校与研究机构的师生,实务界的法官、律师、公司法务人员及相关技术人员前来聆听。讲座持续了三个多小时,在与会嘉宾的热烈讨论中结束。
文/邬蕾
3354cc金沙集团国际知识产权研究中心供稿