广告
广告
  • 上午5:30

我是一家机器人公司的首席执行官,我相信AI在许多承诺方面都失败了。接下来是什么

自动驾驶汽车需要超过99.9999%的安全性功能可靠性,而当今的AI尚不足够。

我是一家机器人公司的首席执行官,我相信AI在许多承诺方面都失败了。接下来是什么
[源图像:Viaframe/Getty Images]

除了绘画照片现实图像并保持看似有意识对话,AI在许多承诺上都失败了。AI怀疑的结果上升给我们带来了选择:我们可能变得过于愤世嫉俗,并从场外观看赢家,或者找到一种过滤噪音并尽早确定商业突破的方法,以参加历史性的经济机会。

广告
广告

有一个简单的框架,可以将近期现实与科幻小说区分开。我们在任何技术中使用最重要的成熟度度量:它管理通常被称为边缘案例的不可预见事件的能力。随着技术的变化,它变得更加擅长处理越来越多的边缘案例,因此,逐渐解锁了新应用程序。

对于不同技术,对边缘案例可靠性的测量不同。云服务的正常运行时间可能是评估可靠性的一种方法。对于AI,更好的措施将是其准确性。当AI无法处理边缘案例时,它会产生假阳性或假阴性。精确是衡量假阳性的度量标准,并且记起衡量虚假负面。

这是一个重要的见解:如果将其专注于精确度或召回,今天的AI可以达到很高的性能。换句话说,它以牺牲另一个的代价来优化一个(即,较少的假阳性以换取更多的错误负面因素,反之亦然)。但是,当涉及到同时在这两个方面达到高性能时,AI模型都在挣扎。解决这个问题仍然是AI的圣杯。

广告

低保真与高保真AI

基于上述内容,我们可以将AI分为两个类:高保真性与低保真性。具有高精度或高召回率的AI是Lo-Fi。高精度和高召回率的一个是Hi-Fi。如今,用于图像识别,内容个性化和垃圾邮件过滤的AI模型已成为Lo-Fi。但是,Robo Taxis要求的模型必须为Hi-Fi。

关于Lo-Fi和Hi-Fi AI值得注意的一些重要见解:

  • Lo-Fi有效:当今大多数算法旨在优化精确度,但以召回为代价,反之亦然。例如,为了避免缺少欺诈性信用卡费用(最大程度地减少虚假负荷),可以设计模型以稍微指示欺诈的指控,从而增加误报。
  • hi-fi =科幻:今天,不存在基于Hi-Fi AI的商业应用。实际上,Hi-Fi AI可能几十年来,如下所示。
  • 很少需要hi-fi:在许多领域中,智能产品和业务决策可能会将AI需求从Hi-Fi降级到Lo-Fi,并且业务影响很小/可接受。为此,产品负责人必须了解AI和将其应用于他们的设计过程
  • 时间关键安全需求hi-fi:时间敏感,安全决策是通常需要Hi-Fi AI的一个领域。这是许多自动驾驶汽车用例倾向于集中精力的地方。
  • lo-fi + humans = hi-fi:安全使用案例,通常可以通过结合人工和人类的智能来实现高保真性能。可以设计产品,以便在适当的时刻(无论用户还是由支持人员)在精确和召回中达到所需的水平。

量化AI的保真度

评估AI可靠性的流行指标是F1分数,这是一种精度和回忆的数字平均值,因此可以衡量假阳性和假阴性。100%的F1代表一个完美的无错误AI,可以处理所有边缘案例。根据我们的估计,今天的一些最好的AI表现为99%,尽管通常认为高于90%的分数很高。

广告

让我们计算两个应用程序的F1分数:

  • 如果Spotify播放您喜欢95%的时间(精度),但只有一半您喜欢的歌曲(召回50%),它的F1将是65%。这是一个足够的分数,因为高精度可以使用户体验和低用户流失,而用户没有注意到低召回率。
  • 当机器人塔克西(Robo-Taxi)决定是否在交通信号灯处越过时,它会做出时间敏感的安全决定。两者都吹红光(假阴性)和在绿色(假阳性)上出乎意料的刹车都有很高的碰撞风险。我们设计了一种方法,以考虑到当前的交叉点碰撞率和其他因素,以估算自治与人驾驶员之间达到平等性所需的AI准确性水平。我们估计,机器人塔克西必须达到99.999%的精度超过99.9999%,并在检测红灯的情况下召回99.9999%的召回才能与人类相提并论。那是F1的99.9999%-或者

从上面的示例中可以明显看出,当今的AI可以很容易地实现65%的F1,但是我们距离六九个的F1有多远?

通往高保真的路线图

如前所述,任何技术的成熟度和市场准备就绪与处理边缘案例的处理能力有关。对于AI,F1分数可以是成熟度的有用近似值。同样,对于以前的数字创新浪潮(例如Web和Cloud),我们可以将其正常运行时间用作成熟的信号。

广告

作为30年历史的技术,网络是最可靠的数字体验之一。Google和Gmail等最成熟的网站的目标99.999%正常运行时间(五个九),这意味着该服务每年不超过六分钟。有时会忽略这一点,例如YouTube在2018年的62分钟中断或Gmail在2020年的6小时停电。

在网络年龄的大约一半时,云的可靠性降低了。Amazon AWS提供的大多数服务的正常运行时间SLA99.99%,或四个九。那是比Gmail少的数量级,但仍然很高。

一些观察:

广告
  • 这需要数十年:上面的示例表明,向上移动边缘成熟阶梯通常需要数十年。
  • 一些用例特别具有挑战性:机器人税(六九)所需的极高水平的边缘性能甚至超过了Gmail。请记住,自动驾驶还可以在类似于云服务的计算机上运行。然而,机器人税收所需的运行正常运行时间必须超过当前的Web和云服务!
  • 狭窄的应用程序击败通用:Web应用程序是范围定义的云服务用例。因此,Web服务可以比Cloud Services获得更高的吸引力,因为该技术越广泛,硬化就越困难。

案例研究:并非所有的自主权都是平等的

离开自动驾驶汽车团队创办公司的Google工程师有一个共同的论文:与一般的自动驾驶相比,狭义的自治应用程序更容易商业化。2017年,Aurora成立了通过高速公路上的长途卡车移动货物。大约在同一时间,成立了努罗(Nuro)以小型汽车和速度较慢的速度移动货物。

当我们在邮政局内(也在2017年)开始时,我们的团队还分享了这一论文。我们的重点也一直在移动货物上,但与其他商品相反,我们选择将汽车抛在脑后,而是专注于在街上运行的较小形式的机器人:自动移动机器人(AMRS)。这些被广泛采用在受控环境中,例如工厂地板和仓库。

考虑用于输送机器人的红灯检测。鉴于与车辆碰撞的风险,他们绝不应该越过红色,但保守地停止绿色并没有引起安全风险。因此,与机器人税(99.9999%)相似的召回率以及适度的精度(80%)对于此AI用例就足够了。这导致F1的F190%(1九),这很容易实现。通过从街道到人行道,从全尺寸的汽车转移到小型机器人,需要AI准确性降低了六个九。

广告

机器人在这里

交付AMRS是城市自主权商业化的第一个应用,而Robo Taxis仍在等待无法实现的Hi-Fi AI性能。该行业的进步率以及过去五年来我们的经验,加强了我们的观点商业化AI的最佳方法是专注于Lo-Fi AI启用较窄的应用程序,并在需要时使用人类干预来实现高保真效果。在此模型中,Lo-Fi AI会导致早期商业化,之后的改进有助于推动业务KPI。

通过针对更多宽容的用例,企业可以使用Lo-Fi AI尽早获得商业成功,同时保持对实现HI-FI功能的多年时间表的现实看法。毕竟,科幻小说在业务计划中没有席位。


阿里卡沙尼是联合创始人兼首席执行官服务机器人技术

广告

广告
广告