本文为Xtecher联合昆仑数据组织的线上分享会的演讲内容,今年以来大数据成为投资热点,在当前国际形势下,工业企业面对转型升级的挑战,大数据在其中扮演了举足轻重的角色。
演讲分享嘉宾陆薇是昆仑数据创始人兼CEO。拥有19年IT技术前瞻研发及企业服务经验。曾作为IBM物联网重大研发专项(Big Bet)全球技术负责人,主持IBM物联网云平台的战略制定、产品孵化、市场验证,曾获IBM总裁奖及杰出技术成就奖。
本文首发于Xtecher,经亿欧转载提炼,以供行业人士参考。
陆薇:各位线上的朋友大家好,很荣幸有这样的机会跟大家做一个分享。今天来参加分享的大部分都是大数据领域的、对大数据感兴趣的同仁,但是不见得都是做工业相关的内容。所以我今天讲的不会那么技术,我会从工业对大数据的需求这样一个角度跟大家去分享。
简单介绍一下,昆仑数据,是专注于工业大数据的技术产品的一家公司。这家公司核心的团队,都是之前我在IBM的同事,当时一起做智慧地球的数据管理。主要是针对重资产行业,例如制造业、能源、汽车啊,都是有很多物理设备资产的这些行业。这些资产需要进行有效的管理,并且依赖这些联网的物理资产做载体,来提供新的产业互联的服务。我们主要是针对这一类的需求。
大数据在当前工业升级中至关重要
先跟大家分享一下,我们看到的整个中国工业目前面临的情况。最主要是想让大家理解为什么大数据这件事情,对于中国工业当前的发展,对于中国工业的产业升级,具有重要的意义。
大家都知道,现在中国工业面临很大的挑战。我们是制造大国,但大而不强,面临很多成本、劳动效率、资源高消耗等一些压力,所以转型的需求是非常强烈的。另外一方面,因为我们自己在这个领域,会看到一些更深层次的问题。我们看到,现在中国的工业处于这样一个生死存亡的阶段。
为什么会这么说呢,我想分享一个数字。去年波士顿咨询做的一个调查,关于各个制造业大国的目前的发展情况。在这个调查里面,他们用成本分析的方法,分析了各个制造业国家目前所处的态势。基本上,中国是被归类为面临巨大压力的国家,美国是冉冉升起的新星,这个跟大家一般的认知情况稍微有点差异。
为什么会这样?分析一下十年前,中美之间的制造业的成本,比如说从人力成本的角度,中国的制造业的工资大概是美国的三分之一,我们有非常大的成本优势。在这种情况下,美国有一些制造都外包了,它的实体工厂都会转移到中国等亚洲的一些国家。但是经过了十年的发展,中国的劳动力成本,比如说人员、能源这些成本都增长非常厉害。到去年,中美之间的制造业成本,相差已经非常少了。大概就是,如果说美国的成本是1美元的话,中国这边的成本折下来就是0.96美元。而且照这个趋势发展下去,大家可以看到,很快中国的制造成本会超过美国。
这也是为什么从几年前开始,美国也在搞重振制造业这样一个计划。一方面也想摆脱实体制造空心的态势。另一方面,随着新工业革命的到来,随着自动化技术、信息技术、人工智能技术在工业界的应用,工厂对于人力方面的依赖会越来越少。在这种情况下,原来美国要做很多制造外包的潜在动力已经发生了非常大变化。现在要把实体制造回流到美国,在经济上是非常可行和非常划算的事情。
那从中国的角度,一方面高端制造面临着欧美回流的趋势。同时在中国制造成本上升的情况下,一些低端制造也在向越南、柬埔寨这样一些更低成本的国家转移。我们已经不能回到在低端进行低成本竞争的年代,现在唯一的出路就是要紧抓高端制造。希望尽快通过产业的升级,迎头赶上。否则中国会面临高低端同时流走,产业空心这样非常严峻的趋势。
虽然说目前我们国家的各种虚拟经济,比如消费互联网的虚拟经济发展得非常好。但是作为一个国家来说,要靠虚拟经济,或者房地产这样的产业来拉动,那整个国家的发展就会面临巨大问题。所以现在工业的转型升级,对于整个国家发展,是非常重要很关键的事情。
讲了这么多,那这些跟大数据有什么关系呢?这就要讲到,大数据在当前的工业升级中所扮演的一个关键要素作用。
工业4.0时代已经到来
大家想必都听过工业互联网、工业4.0这样一些新的概念。这里我又要用我常用的那个比喻。
工业1.0=工厂+机械。让生产摆脱了人力,让劳动效率得到了巨大的提升。
工业2.0=工厂+电。通过电气化,进一步提升劳动的效率。
工业3.0=工厂+电脑。通过用电脑,用信息化的手段,把手工管理的生产过程以及经营过程,包括订单、库存等,通过电脑管理起来,极大的提高了整个行业的效率。
工业4.0 ,很自然的,就是在3.0已经实现了自动化、信息化,具备了数据积累的基础上。基于这些数据,对企业的生产和经营,进行深入的洞察。在这些洞察的基础之上,进行更进一步的生产经营优化。所以工业4.0的实质,就是从自动化信息化向智能化升级的一个过程。显而易见,大数据在这个过程中扮演着很重要的作用。所以有人总结,工业4.0就是工厂+大数据。
因为大数据在新工业革命中的关键要素作用,各制造业大国都把它放到了非常重要的位置。
比如说美国。美国的工业互联网更强调的是研发和服务的环节,不太强调实体制造,因为它的实体制造大部分已经外包了。它更强调如何通过互联网的手段,让它在产业链中占据比较统治的地位,并且牢牢把控用户,把控服务的这种环节,在这里面扮演产业链控制者的角色。
所以工业互联网非常强调的是,如何能够把产品,包括产品自己工作的信息,包括产品周边感知到的工作环境的信息,包括人和产品怎么交互的信息,通过互联网的方式采集起来。通过对这些信息进行有效的管理和分析,让企业可以更好地把握产品的目前工作状态,用户使用的行为等。就可以基于此对用户提供更好的服务,基于此可以有更多创新的业务模式推出来。
而德国的工业4.0,更多的是从智能制造、智能车间的需求出发。讲究的是如何利用数据的方式,通过对生产过程和生产工序、生产工艺、制造过程中用到的各种设备,比如说像机床,像工业机器人等等,通过对它们的有效管理,提升制造质量,提升制造效率,降低对各种资源的消耗。这个是从智能制造的过程出发,也有很多对数据的需求。所以无论如何,数据都是扮演非常重要的角色。
那从中国来说,我们是比较混合的一个国情。一方面是实体制造业的大国,那我们有类似像德国工业4.0同样的需求。我们需要用数据的技术,在生产线上提升制造的能力。另外一方面呢,我们也是一个互联网大国,这是我们的优势,感谢消费互联网这些年的蓬勃发展。我们在互联网技术、互联网人才,甚至互联网的思维方面,已经是蛮先进了。现在一些传统的工业企业,纷纷在讲怎么向产业互联网转型。制造+互联网,要推出一些新的业务,怎样向互联网转型,怎样利用互联网的技术,围绕联网的产品,为客户提供更好的服务。
鉴于大数据在工业界,特别是新工业革命的背景下,起到关键技术要素的作用。我们国家在做《中国制造2025》的过程中,也把大数据列为一个非常重要的重点专题。
大家看去年国务院5月份发布的2025的国策,里面提到有十大发展方向。其中有9大发展方向,都是高端制造方面的,比如航空航天设备、高端数控机床和机器人,轨道交通设备、新能源汽车、电力装备,这样一些高端装备制造领域。还有一个领域 ,叫做新一代的信息技术,其中又包括偏软件和偏硬件的部分。在偏软件部分,定义了从软件领域支持中国制造的角度,需要发展哪些软件技术的方向。其中包含了嵌入式操作系统,云制造也即怎么支持协同制造,还有一个比较重要的包括今天要讲到的云+端的工业大数据平台,这也是列成中国制造发展的重点专题之一。
工业领域大数据的显著特点
我前面讲的这些都是工业大数据发展的行业的背景,下面稍微介绍一下工业大数据的偏技术一点的需求。工业大数据本身有什么样的特点,应用有哪些特点,需要什么样技术的产品来支持工业大数据。
广义的工业大数据包括在工业企业里所有的数据。工业企业里面,有包括企业生产领域的一些数据,特别是生产系统上,机器设备这些数据,这是最关键的一类数据。另外,企业内部经营系统的数据,比如资源管理系统,里面的订单信息,客户的信息,经销商的信息,库存信息等等,这就是在经营管理信息里面的数据。同时现在都是互联网时代了,传统企业也很关注如何利用互联网上的信息,比如一些资源依赖型企业,例如说棉纺厂,可能就会非常关注棉花的期货,以及波动情况是什么样的。他们可以从互联网上了解到关于市场,关于竞争对手,相关资源等方面的信息,这也是属于工业企业所要关心的数据类型之一。
这里面比较关键的而且也是对工业界有特别意义的数据,就是各种工业机器产生的数据。包括制造机器,像机床,机器人,包括生产线上的监测设备等所产生的数据。还有一些本身产品就是联网的。现在是物联网时代,越来越多的产品联网了,比如身边的智能家居智能家电设备,车联网等。还有离我们更远一点的,在更加传统的领域,比如说能源领域——风力发电机、工程机械等等。这些都已经联网。包括我们经常乘坐的飞机,飞机也是以按秒的频率在下传数据,目前很多工业产品也是联网的智能设备。
仔细来看工业机器产生的数据还是蛮有特色的。这样的特色,如果用其他传统的信息系统的数据管理手段,比如利用关系数据库的手段,包括消费互联网上的大数据技术手段,来管理这些数据,其实都不是非常合适。
从数据本身的类型的角度,都是机器设备产生的,如传感器产生的,像时间序列,时空(如果机器是动的)等多种类型的数据。另外这些机器数据上面分析的一些应用也和其他领域的分析应用也是不一样的。
传统的关系数据管理系统,在做数据分析的时候,我们常说的BI(商业智能),即各种统计分析报表这样的一类分析。在互联网上,大多都是人产生的形形色色的数据。比如人产生的文本、社交网络里面的行为、网上电商的行为、上传的照片,都是这样非结构化、半结构化的数据。在这些数据上面做的分析也是形形色色。我针对文本要做搜索,我可能就要做一个倒排索引。分析社交网络,到最后社交网络就变成了图了,人就是节点,人与人之间的关系就变成了边,那到最后就变成了图上的各种算法。
在工业领域里面,往往需要做很复杂的数值分析:振动检测、频谱分析,在这个领域里要把数值分析和本身的工作机理二者相结合起来。机理是在工业数据领域和其他数据领域非常不同的一点。
如果说在商业大数据和互联网大数据,因为主要和人打交道,其实人的行为难用自然的机理来描述的,只能用统计分析的方法,这个人和另一个人在统计上有行为的相似性,这个人买了一本书,另一个人也买了这本书。那这个人买了一本新书,另一个人很大可能也会买这一本新书,所以我们可以给他做一个推荐。这种就是纯粹基于数据的分析方法。
但实际上在工业界里面,处理的都是物理环境和物理系统,这里面有很多自然界的机理,比如说:化工领域会有化学反应的原理,风力发电会有空气动力学原理,石油管道会有流体力学原理。但在自然界并不是所有的自然机理都已经被人类发现,最好的做法就是把人类已知的自然机理和数据的方法有机的结合到一起。这是我们看到的在工业领域来做数据分析应用的时候很有效的一种方法。
工业大数据如何产生价值的“闭环”
因此大家会看到,在工业领域,工业机器数据的数据类型和数据分析应用会有很多不同的特点,我们有必要针对这种类型数据和应用的特点,量身定做一套大数据的平台。这也就是昆仑数据正在做的事情,我们研发的KMX机器数据管理分析平台最主要就是针对工业数据的管理和分析的一套定制的大数据系统。
这个系统分成几层,照我们自己的说法,希望覆盖一个企业从数据到洞察到行动,整个形成一个闭环。
首先从数据的角度,我们这个系统提供工业大数据湖。这个大数据湖可以把机器型的数据,包括生产经营系统,包括互联网上的数据高效存贮和管理在一起。这是一个完全分布的、并行的系统,容量可以无限扩展。
如果只是把数据管理起来,数据并没有产生价值。数据要产生价值,就要针对具体的业务问题,选取合适的数据,根据业务问题需要,建立合适的模型,开发算法,算法能在大规模数据集上运行,解决实际问题,这是一个数据分析的过程。
做过数据分析的人都知道,做数据分析不仅仅是开发算法的问题。研发算法之前,百分之八十的功夫都花在各种准备工作上,找到合适的数据集,研究数据集从而找到数据特征,根据数据特征选择合适的模型,研究模型参数配置,最后根据模型开发算法,这是个一系列的过程。之前在工业界的业务分析人员做这些事情都是靠手工的,这是很有挑战的事情。工业机械设备所产生的数据从人眼其实是很难辨认的,如何有效的发现特征规律,尤其是数据量巨大的时候,跨多组数据发现规律,这是靠人力非常难做的一个事情。
所以我们在KMX里面,数据湖之上我们还提供了一个工业数据的全生命周期的生产线。生产线是借用了工业界的说法。所谓生产线,就是一组相关工具的组合,是柔性的,可以按照问题的需要把相应的工具组合在一起,无缝连接组合,在工具的支持之下,帮助业务分析人员提升分析效率。基本上,这种效率的提升可以达到原来十倍的效率。需要三个月才可以完成的一个分析的项目,现在需要一两周就可以完成了。
有了数据湖,有了这套分析生产线,还是没有完全解决问题,只是解决了从数据中产生洞察。除了产生洞察还需要解决行动问题,真正驱动企业采取行动发生改变,这样才能使数据最终产生价值。
那从驱动行动的角度来说,我们做了两件事情。一件事是让数据用开放的方式暴露出去,另一件事是让分析的结果开放出去。我们的系统会提供开放的API,让数据和数据分析的结果非常方便地嵌入企业的其他生产流程当中,用数据来驱动其他的业务流程。
从数据开放的角度来说,我们会把数据非常有机整合在一起。我们会按照机器全生命的周期的形式,把机器从诞生时候的各种行为的数据,包括它的结构、设计期行为、出厂期行为、用户交互的数据,维护及故障的数据都非常有机结合到一起。相当于给机器在数字空间建立了软件模型。所以在访问数据的时候,就是在访问有模型驱动的数据。
前段时间Gartner刚刚公布的“影响未来的十大技术方向”,其中有一个方向叫做“数字孪生体”(digital twin),我们刚刚说到的事情,就是数字孪生体的实现。
通过数据湖,数据分析的全生命周期的生产线和“数字孪生体”的模型和开放API,这样就可以真正实现从数据到洞察,用数据来驱动企业行动,让数据产生价值的“闭环”过程。
但我们还发现单纯有产品并不能解决企业所有的问题。对于工业企业来说,信息水平相对于金融和电信等领域来说较弱,通常自己的人员对工业大数据复杂的分布式系统很难掌握,自己很难实现在上面做应用开发。
所以昆仑数据现在的定位,是做工业企业的大数据合伙人。我们是两手抓,一手抓产品,一手提供服务。除了KMX产品外,我们有数据科学家团队,可以进入到企业现场和企业业务专家在一起了解他的业务问题,帮他建立模型,设计算法,解决问题。产品加服务是我们现在主要的工作方式。现在服务的主要行业是当前数据基础已经相对较好的领域,包括风电,航空航天,工程机械,环保,电子制造,石油等领域。