当数据是王者时
幸运的是 , 还有另一种解决方案可以抛开人造标签 , 只处理至少在某种程度上客观的数据 。 在COVID预测器的例子中 , 消除人造COVID/无COVID标签可能是有意义的 。 首先 , 由于人为错误 , 数据可能是错误的 。 另一个主要问题是数据可能不完整 。 社会经济地位较低的人获得诊断资源的机会往往较少 , 这意味着他们可能已经感染了新冠病毒 , 但从未检测呈阳性 。 这种缺失可能会使数据集倾斜 。
因此 , 为了使结果对保险公司或疫苗供应商来说更可靠 , 消除标签可能是有用的 。 现在 , 一个不受监督的机器学习模型将进行集群 , 例如按邮政编码或个人职业进行集群 。 这样 , 一个人可以得到几个不同的组 。 然后 , 模型可以轻松地为其中一个组分配一个新条目 。 之后 , 您可以将这些分组数据与其他更可靠的数据相匹配 , 如地理区域或专业内的超额死亡率 。 这样 , 人们就有可能知道某人是否感染了新冠病毒 , 无论有些人可能比其他人更容易获得检测 。
当然 , 这仍然需要一些手工工作 , 因为数据科学家需要将分组数据与超额死亡率数据匹配起来 。 尽管如此 , 对保险公司或疫苗供应商来说 , 结果可能要可靠得多 。
送机器去赏金狩猎
同样 , 这一切都很好 , 但你仍然把固定疫苗数据或保险单留给过程另一端的人 。 就疫苗而言 , 负责人可能会决定稍后为有色人种接种疫苗 , 因为他们往往较少使用医疗保健系统 , 从而降低医院生病时超车的可能性 。 不用说 , 这将是一项基于种族主义假设的不公平政策 。
让决策权由机器决定可以帮助规避决策者根深蒂固的偏见 。 这是强化学习背后的概念 。 您提供的数据集与以前相同 , 没有人造标签 , 因为它们可能会扭曲结果 。 您还向它提供了一些关于保险单或疫苗如何工作的信息 。 最后 , 您选择几个关键目标 , 如不过度使用医院资源、社会公平等 。
在强化学习中 , 如果机器找到符合关键目标的保险单或疫苗日期 , 它将获得奖励 。 通过对数据集的培训 , 它找到了优化这些目标的政策或疫苗日期 。
这一进程进一步消除了人工数据输入或决策的必要性 。 虽然它仍然远非完美 , 但这种模式不仅可以更快、更容易地做出重要决定 , 还可以更公平、更自由地摆脱人类偏见 。
进一步减少人类偏见
任何数据科学家都会告诉你 , 并非所有机器学习模型——无论是监督的、非监督的还是强化的——都非常适合每个问题 。 例如 , 保险公司可能希望获得一个人是否感染了新冠病毒的概率 , 但希望自己制定保单 。 这改变了问题 , 使强化学习变得不合适 。
幸运的是 , 即使对模型的选择有限 , 也有几种常见的做法在很大程度上有助于实现公正的结果 。 这些大多根植于数据集 。
首先 , 当您有理由怀疑特定数据点可能受到现有不平等的不当影响时 , 盲目不可靠的数据是明智的 。 例如 , 由于我们知道COVID/无COVID标签可能出于各种原因不准确 , 将其排除在外可能会导致更准确的结果 。
然而 , 这种策略不应该与令人眼花缭乱的敏感数据相混淆 。 例如 , 人们可以选择盲目种族数据 , 以避免歧视 。 然而 , 这可能弊大于利 , 因为机器可能会学习一些邮政编码和保险单的知识 。 在许多情况下 , 邮政编码与种族密切相关 。 结果是 , 一名来自纽约的拉丁裔护士和一名来自俄亥俄州的白人护士 , 他们拥有原本相同的数据 , 最终可能会获得不同的保险单 , 这最终可能会不公平 。
相关经验推荐
- 微信|微信用户需了解,若手机出现“4种情况”,请尽快将手机关机
- |最便宜 iPhone 开售,只需 2035
- 一加科技|手机出现“新骗术”?无需本人就能转走存款,请注意保管好财物
- 微信|QQ 8.8.68版已正式发布:不是它变了,是我们已不是目标人群!
- |电脑无法在真空中运行
- 笔记本|让Win妙变mac!无需黑苹果,用这个软件就搞定
- 苹果|华硕RT-AX86U巨齿鲨联名款上新仅需1999元
- iPhone|新iPhone到手后都需要做什么?赶紧收藏
- 英特尔|显卡太难买,游戏媒体向Intel求救!Intel表示:我们尽力而为
- 特斯拉|特斯拉ModelPi,是否能颠覆苹果,让我们拭目以待
