01

机器真的客观吗?

人工智能的优势在于算法中立化,进而满足推荐、分析、预测场景应用客观化。即算法是海量数据中挖掘所需信息的快捷技术途径,过程实现的基础是人们对算法和数据的信任,人类把机器因其物理机制秉持的克制与理性延伸扩展到机器吞吐数据、筛选信息、反馈知识的功能机理上。

中立化的机制建立初衷是好的,但伴随着算法“塑造世界”的技术发展,其遇到了情感与伦理上的瓶颈——算法也会有偏见并会随着强化学习而加深偏见,偏见不会随着机器学习而消失。

【1】算法偏见概念

所谓算法偏见是指在没有恶意的程序设计中,却带着设计者或开发人员的偏见,或因采用带有偏见的数据而导致程序结果出现偏见(BIBO即Bias In, Bias Out)。

这样讲或许有一些难以理解,换种通俗的说法:开发人员设置参数,告诉机器“黑人更具有犯罪风险”,或人工事前给机器学习的数据里包含“黑人更具有犯罪风险”的信息,自然构建的算法世界成为包含了种族歧视的偏见世界,这与我们希冀通过机器建构中立客观的公正世界也就背道而驰。

算法偏见产生的根本在于人类自己的偏见,但机器学习领域的算法偏见与人类世界中的偏见有所不同,人类世界的偏见可以随着自学习进行纠正,但数据世界的偏见不一样,它需要进行人工的干预才能修正偏见思维,进而调整输出结果。

2法偏见现象

洛杉矶警察局使用美国最大的预测性警务公司之一——PredPol开发的犯罪预测软件。其内涵基于人的警务,警察利用软件分析出犯罪概率较大的热门人物,进而生成“惯犯”和“目标人物”名单。

警察选定特定的区域开放系统收集数据的功能,对潜在风险人进行数据收集,警察的这一行为被质疑为“自我预言的实现”。

英国警方使用人工智能技术来预测严重的暴力犯罪。他们通过使用一种名为国家数据分析解决方案(NDAS)的系统(由人工智能软件和统计数据构成),来评估一个人用白刃武器或枪支犯罪或成为犯罪受害者的风险。该项目遭受到了学界与民众的强烈质疑,“通过算法推测人的行为倾向性具有引发道德问题的社会风险”。

算法偏见情况还不止这些,我们作为社会的一部分,购物、出行、生活的方方面面正在受到算法世界的塑造,极有可能对这些算法输入各式各样的偏见、性别歧视、仇外思想、社会经济地位歧视、确认偏误等等,这些被输入了偏见的机器会将种种社会偏见潜藏于科技客观性的面纱之下。

因此,对于算法偏见,我们更应及早警惕。

02

警惕算法偏见

算法偏见引起我们对“智慧司法”建设的重新审视,当然,我们对于算法偏见不应该恐惧,而应以消除算法偏见为契机重构智慧司法的价值与应用场景设计。

对于算法偏见思考,囿于笔者的专业背景,只从法律知识与业务背景的实际出发谈一谈自己的一些看法,仅供参考。

【1】基于业务底层的多模态数据处理

基于行业模式与数据积累,法律领域是人工智能最佳的试验场域。从行业模式上来说,法律实务注重法律逻辑,秉承三段论的演绎推理将法律知识与推理规则进行了充分的汇聚与整合;

从数据积累上来说,以北大法宝为例,拥有6500万+的司法案例数据、200万+的法律法规数据、375万+的检察文书数据、192万+的行政处罚数据、22万+的英文译本、22万+的法学期刊数据、1300+的法宝视频数据、10万+的专题参考数据、2.7万+的律所实务数据,类型丰富的法律数据为算法提供了充足的数据基础。

通过业务体系的整体架构,贯穿全过程的数据支撑,从业务底层打通多模态数据处理步骤,对法律数据中蕴含的法律知识进行全面的挖掘与抽取,保证数据的全面与客观,未来的数据处理必须是涵盖业务底层基础的方方面面数据打通:案例、卷宗、证据、视频等等,通过底层数据架构的扎实推进,保证机器学习的第一环——数据支撑是完整的、全面的。

【2】基于法律逻辑的数据标注体系

在解决算法偏见的问题上,不少专家思考通过无监督训练实现机器学习,无监督的训练使用不具任何卷标的数据,完全依靠算法本身自行分类、辨别、汇整数据,这种方法不仅学习速度慢,并且无法保证学习质量。

尤其对于逻辑知识、规范知识、经验常识全面覆盖的法律知识领域,单从可预见的技术发展情况来看,在司法与人工智能结合的领域中,监督式和半监督式机器学习仍然是司法人工智能应用发展的技术实现途径。

即,需要收集足够的人类已标注的数据,通过恰当的人为介入,实现算法模型的迭代优化。但从目前的法律数据标注维度来看,还没有形成符合法律经验的数据标注规范,更多的是基于个人主观经验的特征隐性标注。

法律人员标注的数据很多,但对于表达法律知识特征的显性数据没有做到体系性、专业化规整和覆盖,导致机器学习了不少脏数据,反而扰乱了机器学习机制,学习效果并不理想。

从法律数据的标注体系化构建来说,还是应该返回法律逻辑本身,基于上面我们提到的多模态数据处理结果,完善领域知识的显性表达,继而机器才有机会实现法律数据隐性知识的扩展补充,为消除算法偏见提供人工的力量。

【3】基于专家知识的效果反馈机制

算法是一个黑盒子,但算法的结果是公开透明的。跳脱算法过程的黑盒思维,尝试从算法结果的透明寻找算法偏见的隐藏点和优化方向。评估算法结果,一种方式是机器本身会给出准确度,但机器本身给出的结果是否应该接受合理的质疑呢?

并不是质疑算法本身,而应该对算法的结果保持审慎的态度。系统推荐的类案结果,在具备可采纳的情况下,应利用专家知识去反向评估结果的可适用度,进而寻找算法隐藏的优缺点。

我们需要一个针对人工智能算法和系统进行测试和验证的流程,以便在开发期间和部署之前及早发现偏见。这个验证的流程除了算法稽核,还应加入专家知识的干预,利用对算法的效果评估建立动态实时的问题反馈机制,进行算法偏见的全时态追踪。

公开算法其实并不是保证算法公正的很好选择(编者注:这是个值得讨论的课题),一方面是涉及商业秘密,研发人员的辛勤努力可能会遭到同行人员的泄露和剽窃;另一方面,对于注重算法公正的民众和法律人士来说,他们关注的不是算法本身,而是算法结果。如果算法结果的公正是可解释的并且是可评价的,至少可以满足基本的算法公正。

03

结论

美国时间2019年4月10日,民主党参议员Cory Booker和Ron Wyden 联合提出了《2019算法问责制法案》(Algorithmic Accountability Act of 2019),试图对人工智能机器学习中的偏见和个人敏感信息使用问题进行规制。

法案提出,联邦贸易委员会应尽快制定关于“高风险自动决策系统”(high-risk automated decision system)的评估规则,科技企业必须评估算法是否存在歧视性偏见。

在人工智能与法律结合的场域,我们还有很长的路要走,算法偏见的问题不仅仅是技术问题,其中还隐含着社会问题。法律有云:正义不仅要实现,还要以看得见的方式实现。

算法的可信性可以通过算法的可解释性进行强化和印证。对于法律领域的智能化应用,算法必须是可解释的、无偏见的,只有这样,技术应用的初衷才是跟法律的价值追求相吻合的。

基于法律数据和法律本体知识的算法偏见消除是司法人工智能应用不可回避的一个问题,未来还需要很多的法律专家和技术专家合力探索,道阻且长。

文章来源于法宝智能,作者尹丹丹,原标题为《算法伦理与法律公正》

往 期 推 荐