广告
广告

今天的AI并没有为现实的混乱做好准备

大多数AI从业者都使用清洁数据在无菌环境中训练自己的模型。但是未来,现实世界中的数据将永远是不完美的。

今天的AI并没有为现实的混乱做好准备
[来源插图:Imassimo82/istock]

最初是关于财务报表的警告标签已成为如何思考几乎任何事物的有用建议:“过去的绩效不能保证未来的成绩。”那么,为什么AI领域中的许多人坚持认为相反的情况呢?

广告
广告

太多的研究人员和从业人员仍然困扰着他们过去收集的数据将为未来数据提供完美的预测。如果过去的数据很好,那么将来的结果也将是好的。

最近,这种思路最近接到了一个重大的警钟电话。麻省理工学院研究发现最引用的10个数据集用标签错误填补(例如,在训练数据集中,狗的图片被标记为猫)。这些数据集构成了构建和测试多少个AI系统的基础,因此普遍存在的错误可能意味着AI并不像我们想象的那样先进。毕竟,如果AI无法分辨蘑菇和勺子之间的区别,或者Ariana Grande的声音敲响了高音和哨子(正如麻省理工学院的研究发现和麻省理工学院技术评论文章表示),那么,为什么我们应该相信它可以对我们的健康做出决定或开车呢?

学术界的膝盖反应一直是重新关注这些基准数据集。我们可以继续痴迷于创建无菌环境中AI的清洁数据,或者我们可以将AI放在现实世界中并观察其成长。目前,AI就像是在实验室里壮成长的老鼠:如果它放开了一个拥挤,受污染的城市,其生存的机会很小。

广告

每个AI永远是错的

因为AI在学术界开始,所以它遇到了该环境的基本问题,这是控制事物如何测试的动力。当然,当学术界遇到现实世界时,这是一个受到控制的情况时的问题。

据说,随着企业采用,AI在学术环境中的相对成功已经开始与之抗衡。一项研究麻省理工学院斯隆和波士顿咨询集团发现90%的组织没有通过AI实现重大的财务收益。研究加特纳仅显示53%的AI项目从原型到生产。

COVID-19大流行是一个严峻的提醒,许多因素是我们无法控制的,而未来看起来并不像过去那样。第二年看起来不像是过去10年的聚集。因此,根据模型对过去数据的符合程度评估AI的方法是没有意义的。

广告

丑陋的事实是,每个AI永远都是错误的。任何AI有时都会正确,有时是错误的。考虑到这一点,至关重要的是要尽快将AI赶出实验室并进入生产环境,以便您可以根据实际交易进行评估。这不是可以基准的,可复制的,因此完全不适合学术论文,但与从AI中获得价值的企业完全一致。

我们需要对AI质量的务实定义。我对更好AI的定义的建议:将根据AI做出的更好的决定与在没有AI帮助的情况下做出的类似决定进行了比较。如果可以的话,A/B测试。这可能很简单,“与没有AI的情况相比,对我的AI进行了培训,对我的经济价值可以创造经济价值吗?接受这些数据培训的AI可以帮助我做得比以前做得更好吗?”

例如,想象一下我们正在培训算法以确定最有前途的销售机会。哪家公司是交易中的主要竞争对手,肯定会影响我们成功的可能性,但是大多数人都没有记录(甚至知道)他们会遇到的人。在培训算法的同时,企业可能会花时间清理数据,雇用研究人员追踪所有失去的机会并填补其他争夺同样机会的公司的名称。但是重点是什么?当AI预测未来的销售交易时,大多数情况下,竞争对手领域将被要求预测的交易中空白。因此,未来数据看起来不像干净的数据。这就是为什么我们应该在凌乱的现实世界数据上训练它,以更好地代表它必须用于预测的混乱现实数据。

广告

创建人为清洁数据,然后基于该信息培训和评估AI的方法变得不可能是不切实际的。是时候让人工智能变得真实了。


Arijit Sengupta是Aible的创始人兼首席执行官。

广告
广告