技术

工业规模深度学习的实际应用

公用事业公司拥有数百万英里的电力线路,需要定期检查这些线路。电力线路上的异常可能会带来巨大后果,例如大停电、森林火灾和将生命置于严重危险之中。数以百万计的电线杆必须从不同角度进行检查,以找出只有几毫米宽的缺陷。

手动浏览数量惊人的图像,以发现这些缺陷是一个令人痛心的任务。

Sterblue 通过使用最先进的深度学习和数据科学方法,在电力线路设备上,在若干异常和设备分割任务中实现了人类水平。

风力涡轮机上的Sterblue 云层中检测到的缺陷。
最终交付成果的一部分:风力涡轮机上检测到的缺陷概述

在这里,我们分享一些基本的见解,从我们成长的经验,远离陈词滥调的AI作为一个神奇的工具,解决所有问题,一次点击。

一切从好数据开始

高质量的标记数据是成功训练神经网络所必需的。事实是,在 2019 年,为了在机器学习方面取得成功,您需要一个近乎完美的数据集。

这就是为什么 Sterblue 的战略是提供包括自动数据分析和自动数据采集的端到端检测解决方案。拥有一个干净,确定性和可重复的飞行计划,无人机围绕电力线是至关重要的,获得一个不错的同质数据集。

在开始使用使用无人机软件捕获的图像后,我们注意到与使用其他方式捕获的图像相比,结果有了很大的改进。

大量数据

高质量的数据是一回事。但是,为了改变应用AI的世界,有必要访问大量的数据。

Nicolas Draber,来自Sterblue 培训无人机操作人员。
培训现场操作员

任何缺乏大量培训数据的 AI 项目都被视为失败,除非成功开发革命性方法的极罕见情况,但我们在这里谈论的是十年一次的事件。对于我们,世界其他地方来说,拥有一个大漏斗将数据输入系统是获得宝贵结果的必备结果。

Sterblue 数据采集工具可帮助我们获取这些海量数据。但即便如此,花费大量精力大规模地大规模部署数据采集解决方案是绝对必要的。每天,有数十人参与现场数据采集,需要昂贵的后勤准备。

高质量标签

如果图像标签不是一流的,拥有大量的好图像是无用的。 Sterblue 首先使用我们平台上的最终用户(实用程序)标记的图像训练神经网络。然而,我们注意到,质量并不总是完美的。

这是有道理的:我们的最终用户正是那些付钱给我们以避免自己给图像贴上标签的人。他们乐于最初为启动 AI 管道而对数据集进行标记,但 2019 年 AI 需要的数据比这更多,而且我们的客户无法提供更高的质量标准,而客户不会带来太多痛苦。

Sterblue 云上的分布极标签
在我们的云平台上获得高质量的标签

这就是为什么我们使用第三方数据标签提供商来清理数据集,因此我们最终获得用于 AI 培训的完美数据。几个月前的这一转变是我们为实现我们的目标而实施的最具影响力的变革。

了解业务领域

Sterblue'的战略一直是一个接一个地解决业务垂直领域的问题。这被证明是非常有价值的,因为我们意识到深度商业领域知识是应用机器学习成功的关键因素。

这些业务知识使我们能够设计适当的数据表示、优化标签工具、确保数据质量以及数据科学管道的许多其他方面。

在Sterb的配电线路上发现鹳鸟巢。
配电线路上发现的众多缺陷之一

在没有商业知识的情况下训练深度神经网络就像通过遵循一本书来教授一个你什么都不知道的话题:你会认为它在理论上可以工作,但在实践中却失败了。

另一方面,我们通过在几年内与真实数据交互而学到的详细业务知识,对于我们而言,是一笔宝贵的财富。

使硬科学发生

顾名思义,数据科学是一门科学。有些人把它描绘成一种艺术形式,但他们不可能更错误。

数据科学是科学,这意味着根据真实目的测量来评估结果,并且永远不会忽视硬道理。很容易愚弄自己,并热情地看着这些惊人的结果,你的AI提供,当周围是垃圾结果的海洋。一致的目标指标是了解您准确所处的位置以及您是否朝着正确方向前进的好方法。传闻的结果不是。

监控神经网络训练
监控神经网络训练

AI的成功不是通过表演一种异类的特技,而是通过有条不紊地应用最先进的方法,一路上具有健康的实用主义和创造力。

混合的力量

机器学习不是完全解决的问题。这意味着,对于一个给定的问题,几种方法可以提供良好的结果。作为一名数据科学家,有必要对各种方法持开放态度,并加以尝试,以便找到与用例最相关的方法。

神经网络架构
神经网络架构

通常,最终解决方案的鲁棒性是通过使用多种解决方案的智能组合来实现的。这方面的一个例子是对抗性的例子:一个简单的贴纸或几个改变的像素可以欺骗一些神经网络架构,使对象与另一个看似不相关的对象混淆。

就像纯种动物是最脆弱和混血动物更稳健,纯品种应用神经网络有时是脆弱的。混合各种应用机器学习方法的产品将更加强大。

工具支持

我们看到,在应用机器学习中取得有价值的成果依赖于本文中上面列出的几个关键要素。

我还没有谈到的是,每个元素都依赖于大量的工具,以便有效地执行。开发支持和优化所有这些步骤的工具实际上是应用机器学习的内容。

各种 Sterblue 平台上的工具
各种 Sterblue 平台上的工具

开发新的神经网络模型只是应用机器学习成功的一小部分。大部分工作实际上是围绕它的所有支持工具。

从超高效数据标签接口到最佳无人机飞行规划,所有 Sterblue 工具参与支持大规模机器学习的有效用例。