我们如何防止下一代聊天机器人出现性别歧视？

硅谷初创公司 Open AI 推出 ChatGPT 测试版，加剧了人工智能军备竞赛。大型科技公司都在竞相开发一种生成式人工智能，这种人工智能可以充当未来互联网搜索的守门人，还可以通过一系列新产品和服务实现企业数字化转型。

发布三个月后，ChatGPT 的长期投资者微软宣布，这款聊天机器人（能够像人类一样回答问题）将集成到其搜索引擎中，并作为企业创新 API 发布。作为回应，谷歌发布了同样尚未完全准备好的大型语言机器人 Bard。

这两家公司早期的错误都有据可查。Bard 的一个事实错误导致谷歌母公司 Alphabet 的股价蒸发了价值 1000 亿美元的股票。ChatGPT 的欺骗性也被揭露——人们发现它自信地将虚假信息当作事实，同时提供看似合理的引文。

对于那些在该领域工作并了解大规模开发大型语言模型所面临的挑战的人来说，这一切并不奇怪。

科技公司可能会将早期的此类错误视为学习机会。与此同时，我们这些用户正在免费测试这项技术。这是 Open AI 为引起轰动而采取的大胆做法，但并不谨慎，在急于创新的过程中，科技公司可能会无意中产生歧视。

训练数据

ChatGPT 最初基于从书籍、网络文本、维基百科、文章和互联网上的其他作品中获取的 570GB 数据进行训练。

算法的好坏取决于训练算法时使用的数据，而所有数据都存在偏差。有时偏差是被忽略而不是被包含的内容。例如，医学研究领域以男性为主，因此男性特定疾病的数据远多于女性疾病（如子宫内膜异位症）。

历史数据也包含偏见，导致公然歧视——还记得微软有缺陷的面部验证软件歧视有色人种的 Uber 司机吗？或者亚马逊的招聘软件，它根据 10 年的简历自学成才，只选择男性应聘技术职位？

未来的聊天机器人是否会重复过去的算法错误？

正如 WiPro 数据隐私官 Ivana Bartoletti 在其著作《人工智能革命——权力、政治和人工智能》中警告的那样：“如果今天的社会是我们用来训练明天将影响我们的算法的唯一模型，那么我们就有可能在未来的社会中硬编码不公正和偏见。”

然而，在生产能唱能跳的聊天机器人的竞赛中，我们似乎有可能把这些偏见硬编码到可能很快成为值得信赖的数字守门人的东西中，而这些数字守门人也为无数基于企业的产品和服务提供支持。

ChatGPT 所依赖的数据集之一是维基百科，该网站 80% 的内容由男性生成。维基百科是全球访问量第五大的网站，其创始人吉米·威尔士承认，系统性偏见往往反映在其内容策划中。2021 年的一项研究发现，在一个月内，该在线百科全书中被提名删除的传记中有 41% 是关于女性的，而事实上，已发表的传记中只有 17% 是关于女性的。

有毒标签

Bartoletti 认为，偏见可能出现在人工智能生命周期的任何阶段，从训练数据到表示和评估。“给数据贴标签的人是谁？他们来自哪里？他们是否足够多样化？ ”她问道。

不幸的是，保护网上弱势群体的行为有时会导致他人受到伤害。例如，费力的数据集标记工作通常外包给发展中国家的工人，报酬非常低。

ChatGPT 也不例外。1 月份《时代》杂志报道称，OpenAI 雇用了时薪不到 2 美元的肯尼亚工人来标记有毒内容，以便能够构建针对有害材料的安全系统，该系统最终被部署在我们目前正在试验的机器人中。

那里的员工将接触到的数千张性虐待、仇恨言论、自杀和暴力图片描述为“折磨”。据报道，硅谷外包承包商 Sama 于去年 2 月取消了与 Open AI 的合作，比原计划提前了 8 个月。

尽管并非有意恶意，但为了赢得人工智能军备竞赛，科技公司以“创新”的名义冒险走捷径，牺牲了女性和其他少数群体的利益。

人工智能产品将继续在准备就绪之前发布，并且并非所有偏见都得到解决。事实上，许多偏见可能会重演。鉴于这些情况，依靠商业驱动的技术公司进行自我监管似乎不现实。

通用数字版权

随着世界走向新版互联网、Web 3.0 和元宇宙，我们似乎有机会消除过去的偏见，为女性和其他少数群体创造一个更安全的空间。

这种信念促使包括巴托莱蒂在内的多位人工智能女性领袖组建联盟，呼吁制定一套全球规则来规范互联网和数字技术。

由前绿色和平运动家兼活动家艾玛·吉布森领导的“世界数字权利联盟 ” 认为，技术无国界。该联盟希望采取与应对气候变化的协议类似的方法。

吉布森说：“人工智能正在重塑世界。”“如果你要对此进行监管，你需要一套全球认可的规则，我们认为赋予妇女权力的唯一方法是这些规则植根于基于人权、女权主义和交叉方法，”她说。