美国平权运动持续发酵,微软、亚马逊叫停为警方提供的面部识别服务

继 IBM 之后,亚马逊、微软也加入了抗议偏见和执法暴行的队伍。

6月12日,微软宣布开始禁止将面部识别产品卖给美国警察部门,其总裁 Brad Smith 表示,“除非有强有力的、基于人权的国家法律,否则我们不会将该技术出售给警察。”

6月10日,亚马逊发布公告称,未来一年,将暂停警方使用面部识别平台 Amazon Rekognition 的权限,“我们希望这一为期一年的暂停,可以使国会有足够的时间执行适当的规则。”

最早参与进来的巨头是 IBM。6月8日,IBM首席执行 Arvind Krishna 给美国国会的信中写到,将不再提供通用的面部识别或分析软件,并向媒体表示,IBM 也将不再开发或研究该技术。原因是担心人脸识别技术会带来大规模监视、种族歧视、侵犯基本人权或自由等伤害。

面部识别平台引发多次争议

除了 IBM 说不会再开发人脸识别技术。亚马逊和微软并没有停止向全社会提供人脸识别产品,他们在避免站到美国和全球抗议种族主义与警察暴行活动的对立面。

微软12日在《华盛顿邮报》做了三个主题的直播,讨论民族主义和种族歧视问题,并宣布不再向警察出售面部识别系统。Brad Smith 在直播中呼吁制定规范的面部识别国家法律,“我们需要国会才去行动,而不仅是科技公司,这是我们保证保护人类生命的唯一途径。”

亚马逊则表示,儿童保护慈善机构 Thorn,国际失踪与受虐儿童中心,打击人口贩卖机构 Marinus Analytics 还可以继续使用 Rekognition。

没有全面叫停并不代表没有争议。人脸识别技术的门槛已经越来越低,随之技术应用风险也在增加,但很多时候,大公司不愿意面对技术带来的负面结果。

微软还未发布正式的书面通告,没有明确警方禁用产品的时限和具体名称。我们以亚马逊2016年12月发布的 Rekognition 平台为例,说说人脸识别技术存在的问题和争议。

上线之后,亚马逊多次高调宣传,Rekognition 会被很好地应用在执法部门,以及一些人口保护组织的打击犯罪行动中。亚马逊称使用 Rekognition 非常简单。之前曾有开发者尝试,使用 Rekognition 提供的 API,再编写一个 Python 脚本,做人脸检测和识别。该开发者调用了 Amazon 提供的函数库,将一张单人图片发送到 Rekognition API,最后识别结果中包括人脸的边界位置、年龄估计、面部情绪、性别等众多信息。

虽然 Rekognition 可以做到让人脸识别变得简单,但它的准确性多次遭到质疑。

2018年夏天,美国公民自由联盟 ACLU 对 Rekognition 做了测试,发现在535个国会议员中,28名议员的面部无法被正确识别。随后亚马逊反驳了此观点,称 ACLU 没有公布数据集,且使用的是 Rekognition 默认80%置信度阈值的 API,建议在执法机构应该使用置信度不低于99%的设置。

亚马逊还表示,会继续向警方提供该技术。

2019年1月,麻省理工学院媒体实验室的研究人员发现,Rekognition 在识别女性和深肤色面孔时,更容易出错——Rekognition 在识别浅肤色男性上无错误,但将女性误认为男性的比例有19%、将深肤色女性误认为男性的比例为31%。

不止是 Rekognition,现在的人脸识别产品几乎都是这样,易用却也容易产生偏颇。麻省理工此前也对包括 IBM 和微软在内的主要科技公司做过测试,结果表明,识别深肤色面部的错误率比识别浅肤色面部的错误率高十几个百分点

多项研究证明,人脸识别技术并不够成熟。2019年12月,美国国家标准与技术研究所发现,经验证据表明,目前大多数的人脸识别算法,在人口统计学的准确度上,存在误差。

但在这次动乱之前,面对批评,这些公司并没有做出什么改变。甚至这一次,也只有 IBM 表示担心技术上不成熟所导致的后果。亚马逊和微软,更偏向于通过国会监督,来解决问题,而没有直接、正面地提及自身产品的缺陷。

“是时候讨论人脸识别应用了”

为什么人脸识别会加深种族矛盾?

《纽约时报》曾指出,部分原因在于,这些公司训练识别模型的数据集中,绝大多数可能是男性和白人。

也有人解释,因为做人脸识别开发的技术人员,集中在主要科技公司,而他们大部分是白人和男性。因此,在数据集的选择和收集上,难免存在偏颇。

实际上,对于人脸识别,甚或是机器学习来说,参数、模型、算法已经不是最难攻克的方面了。AI 研发团队最缺的往往是数据、标注。

机器学习就是让计算机模拟人脑进行分辨和思考。就像我们从小学习认字,或是去认识一个人一样,如果想要计算机识别出人脸、文字、物体等等,首先需要人类找出大量的案例数据去喂养,没有数据,机器学习就无从谈起。

另外还要给一些数据加上标注,告诉计算机我们需要的目标,然后在让计算机自己去学习。有数据显示,以物体检测模型为例,开发者们花在数据标注上的时间,平均占项目周期的50%以上。

通常建立一个完善的数据集并不容易。不完善的数据集,又包裹着多种风险。

如在自动驾驶领域,数据采集非常不易。每个初创公司的任务清单里都包括一项“闭环”任务:路测、收集数据、路测、修改数据模型、再路测……而路测里程和数据也成为外界评价这些公司的重要指标。

最难的还是人脸识别。首先,数据的收集会受采集公司、主体价值观、知识面的影响,使得数据集本身会存在或多或少的偏差。

其次,即便现在发达的社交网络,为某些数据,如人脸信息、消费信息的采集提供了便捷的渠道,但这非常容易造成隐私伤害,引起大规模抗议。

上个月,美国公民自由联盟 ACLU 起诉了 Clearview AI,这是一个比 Rekognition 使用更广泛的面部识别系统。原因是 Clearview AI 未经人们统一,擅自从社交媒体抓取了十亿张照片,训练模型。

《纽约时报》曾评价面部识别技术,可能是世界上最分裂的技术:它可以识别罪犯和受害者,减少悲剧发生;但同时会加剧侵蚀隐私、加深种族歧视……

不过,我们似乎可以期待,当全世界都开始关注面部识别带来的风险,巨压之下,人脸识别或许还能做得更好。

就像 IBM Arvind Krishna 给国会的信中提到的一样:是时候开始,就执法机构是否应该使用面部识别技术,以及如何使用面部识别技术,做全国性的对话了。

虽然 Arvind Krishna 此话针对的是美国执法机构,尤其是其暴力行为,但是随着人脸识别技术在世界范围内普及,和在公共系统中的应用,它将关系到我们每一个人,所以这场讨论应该引起足够的重视,而所有人都有发言权。