郭朝晖工业大数据的特征、方法与价值创造.docx

上传人:太** 文档编号:35044968 上传时间:2022-08-20 格式:DOCX 页数:62 大小:4.73MB
返回 下载 相关 举报
郭朝晖工业大数据的特征、方法与价值创造.docx_第1页
第1页 / 共62页
郭朝晖工业大数据的特征、方法与价值创造.docx_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《郭朝晖工业大数据的特征、方法与价值创造.docx》由会员分享,可在线阅读,更多相关《郭朝晖工业大数据的特征、方法与价值创造.docx(62页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、郭朝晖:工业大数据的特征、方法与价值创造来源:数据观时间:2016-01-13 10:23:47作者:数据派本讲座选自宝钢中央研究院首席研究员郭朝晖于2015年12月30日在清华大数据”技术前沿讲座上所做的题为工业大数 据的特征、方法与价值创造的演讲。郭朝晖,现为宝钢中央研究院首席研究员、教授级高工。分别于1990、1994、1997年在浙江大学应用数学、化学相关工 程和自动化化专业获得学士、硕士和博士学位。1997年加盟宝钢,2005年晋升教授级高工。长期从事信息、模型、自动化控制、 大数据等领域的技术研发工作。曾先后担任中国工业与应用数学学会副理事长,中国现场统计学会第八届理事会理事,上海

2、工 业与应用学会常务理事,上海人工智能智慧学会理事,上海交大、浙江大学、宝钢人才开发院兼职教授,东北大学兼职博导, 宝钢集团党外知识分子联谊会会长,上海市知联会理事,并曾担任全国总工会十四大代表,中央企业青联委员。出版管中窥 道:技术创新的观念与方法等著作。主持人王建民:首先代表软件学院、代表清华大学数据科学研究院、工业大数据中心欢迎咱们各位老师、朋友、同学来参 加我们今天下午的这个报告会。今天是2015年的倒数第二天,我们马上就迎来了 2016,那么在2015当中有一个很热的词,在 中国,就是“中国制造2025。最近大家也看到我们的中央工作会议之后,特别对中国制造这样的一个转型升级的大命题进

3、行了 非常深入的探讨。与之对应的大家知道就是工业4。和美国的工业互联网。前两天,也就是这个星期六,清华大学发起成立了叫 做相关工程科技创新联盟,在这个联盟发起的仪式和会议上,苗坪院长、周济院长和清华大学的孙家广院士分别作了主题发言。 在这个会议上,周济院长对中国制造2025又作了特别深入的解读,中国制造2025总结出来的三句话就是智能智慧产品、智能 智慧生产和智能智慧服务。在这个会议中,在孙家广院士的主题报告当中特意把工业大数据作为主要的汇报相关内容,就是信 息化和工业化深度融合的抓手,大家看,形态上边是一个工业互联网,但是这个工业互联网的背后的大脑和智慧的来源还是工BAOSTEEL宝钢股份A

4、钢:不易发生缺陷不必清理检验结果:缺陷发生率高B钢:易发生缺陷必须清理生产工序清理工序检验结果:缺陷发生率低O枪验工序数据来源:复杂的工业系统工程师常根据经验和知识,采用前馈、反馈手段;构成复杂的系统。“如果不是从整体上、不是从联系中掌握事实;如果事实是零碎和随意挑出来的,那它们就只能是一种儿戏,或者连儿戏也不如。”列宁全集,第二版,第28卷,364页.* 7 );/J十区TrC Sr ;切.麻心二这里举一个工业界的例子。比方说A钢种不太容易发生缺陷,所以不对它进行清理,直接检验。B钢种容易发生缺陷,必 须清理之后再进行检验。如果你统计分析时,把中间这个过程略掉,你会发现:A钢种发现缺陷率高,

5、B钢种发生缺陷率低。这 样,结论和实际正好是相反的。这种现象不是偶然发生的,而是经常发生的。工业system是根据人们的认识设计的复杂的人造system。相关工程师常常根据自己的经验和知识采用前馈、反馈的手段。 特别地,如果已知某个变量(如钢种)对相关质量有重大影响的话,一定会设法把影响降低(如清理)。所以常常有前面这样 的现象。所以几乎是必然发生。现在经常有人说大数据,只要碎片化就可以了,但对工业大数据真的不一定合适。列宁说过一句话:”如果不是从总体上,不是从联系中掌握事实,如果事实是零碎的和随意挑出来的,那它只能是一种儿戏, 甚至连儿戏也不如。BAOSTEEL宝钢股份要学会用数据说话, 先

6、要知道数据会说假话、废话。 然后才能让数据说有用的真话。数据质差:严重影响预测结果如果没有误差和干扰,科学发现就不会是值得尊重的事。预很俣差25块报快差40正常异常数量数量异常 比例常量 正数异常 数量异常 比例110N8572880306267336 92, I - I我一个感受,做数据分析其实非常之难的,为什么难?你每天都跟各种各样的假象做斗争。你不知道谁是假象的话,你根 本啥都没法办。我曾经跟我的一个徒弟说:做数据分析是异常驱动的。也就是说,如果数据展现的现象跟你想象的不一样,它 里面就可能包含有用的东西。但是,这里有个前提:你要知道什么是意料之中。我常说:有意料之中才有意料之外。如果你

7、对 专业领域不熟悉,就没有预料之中,那意料之外”也往往只是无知的表现。所以,做数据分析的人必须了解工业实际。反之,如果不了解工业实际,发现一个问题,就要跟专家讨论半小时;再发现 一个问题,继续去讨论半小时。问题是:别人没那么多时间来跟你啰嗦啊。做分析麻烦之处,还在于很多“预料之外”是数据相关质量不好。我曾经统计过两个钢种。我把预报误差特别大的拿来做分析。其中,从A钢种抓取了 110个特别大的;进一步的研究发现: 有8 5个数据本身含有某种数据严重异常,占预报失误的80%。另一个钢种更高,占9 2%。这里又冒出来另外一个问题:很多人做出来的模型,正常情况下能预报,异常却预报不到了。这个事也很糟糕

8、:人家希望 你把异常的给抓出来,你只能预报正常的有什么用呢?这个原因,导致很多模型变得没用。我们要记住:这往往是数据背后的原因,是很常见的。因为异常往往是有特殊的原因引起的,而如果你的system中没有记 录这个特殊的原因,那么你自然会出现这样的事情。隐性的、非随机的系统干扰过多BAOSTEEL宝钢股份BAOSTEEL宝钢股份目标分析缺陷”分析缺陷”“频度稳定”的要求 都难以达到。每年发生率不同。-与钢种有关固定钢种:-与精整有关再固定精整:-与宽度有关再固定宽度:-与检查人员相关。再固定检查人员:-与正反而相关。我再跟大家谈一个案例,谈谈工业数据分析的复杂性。很早之前,我要研究钢坏的缺陷率y

9、和生产温度x之间的关系。我拿几十万条数据分析,发现结果很不稳定。后来,人家 告诉我:y跟钢种有关,不同钢种的缺陷相差几十倍,建模时必须区分钢种。于是,我开始分钢种研究;然而,结果还是不满 意。后来我发现,y与钢坯的正、反面相关,两面的缺陷率相差三四倍。那好,我再固定正反面继续分析;但遗憾的是:结果 还是不稳定。这时,人家提醒我:你看看谁检验的,因为甲、乙、丙、丁四个班检验出来的缺陷相差三四倍以此类推,不知 要固定多少分组,直到每个分组里面几乎没有儿个样本了。BAOSTEEL宝钢股份可靠性结论统计方法概率理论概率的概念数据假设条件概念失效经典统计学方法: 依赖于假设的合理性隐性系统性干扰:后果很

10、严重各种经典统计和检验方法失效心数据/派这个案例高度我们:工业system中的system性干扰非常多。如果没有意识到的话,怎么可能把它们两个变量之间的关系 搞清楚呢?如果不排除system性干扰,缺陷发生的频度就是不稳定的。所以,很早之前我就意识到:分析工业过程数据时,概 率理论和统计方法不可滥用。咱们再把问题稍微往远处扯一扯。实用的工业技术最重要的基础是什么?很多人经常忽视一个问题:可靠性。 BAOSTEEL宝钢股份神舟靠什么成功?可靠性要求高:是工业高科技的一般性要求中华之星为何成流星工业大生产相当复杂从大数据淘金,仅靠相关分析可能是不够的。已数据/派但可靠性实在是太重要了,给大家举正反

11、两个例子。大家知道,神舟飞船是一个很高级的技术。据说曾经这么一个故事:飞船安装过程中,一根头发掉到里面去了;然后他们 决定停工,几十个人开了三天会,论证这根头发会导致什么样的后果。后来论证下来没事,才复工。反面的例子是中华之星: 这是中国人自主研发的动车。就是因为测试时出了一点小问题,就被铁道部否决了。上午跟莫老师交流的时候也谈到一件事:我曾让一个非常优秀的同事开发一个程序。开发完成后,他拿过来问我是否可行。 我说不行。他就问我有什么问题?我说:“我看不出有什么问题,但是我没法证明它是没有问题的。在编写控制程序时,我往往要用99%的精力去来想1%的非正常状态如何处理;往往是一行功能性的程序,1

12、0行防止错误 的程序。说实话,如果程序有问题,出一次事故就吃不了兜着走了。所以工业界可靠是第一位的,你不产生效益没关系,别把 人家的设备搞坏掉了。一个技术是否先进,最难做的往往也是可靠。我刚到宝钢时,有一位前辈问我:小郭,那是学先进控制的,为什么不把先 进控制技术用到宝钢呢?我当时回答他:条件不满足。其实,一个企业之所以能用先进控制的前提它的设备先进、检测稳定, 这时可能有好结果。如果设备、检测各个方面都是有问题的,那么用先进控制的结果可能会适得其反。所以能用先进控制技术 是企业先进的一个结果、一个表现,不能为先进而先进。BAOSTEEL宝钢股份对分析结构的要求:可靠性也高高价值和高可靠性要求

13、往往是硬币的两面如果正确判断能带来巨大效益,错误判断也可能带来巨大损失。如果当真要用,你就要真正负责 为了发论文、做广告就不一样了我经常说,可靠性与价值往往是一个硬币的两个方面:可靠性要求高,它的价值才会高。比方说:我给你做一个预报,我 告诉你按照我的预报做可以节省100万试验费。那么人家也可以告诉我:你预报错了,我亏100万试验费。所以,预报模型的 价值和它可能产生的风险是同时存在的。BAOSTEEL宝钢股份可靠性难保证:模型没有共识Ys=300+200*C+80*Mn+Ys=230+800*C+40*Mn+结果很可能是海市蜃楼每个人都弄出一这就是我们常见的预报模型,每个人给的完全都不一样:

14、你叫我去信谁?这样类似的模型出了上百年了, 个来,但是同一个钢种不同的月份得出来也不一样。所以,它的问题是在于可靠性不够。我做出来的模型,有时候精度可能还 不如简单的线性回归,但是它的可靠性提升了。BAOSTEEL宝钢股份预测的重要性:潜台词要求外延的可靠性让历史告诉未来过去蕴含这种模式,以后也是过去蕴含这种模式,以后也是过去是这样的结果,以后也是应用就是:让未来按期望改变维克托迈尔-舍恩伯格在接受记者采访时表弟大数据魄心是预测,其对大类行为以及社 会问题的预测为人们津津乐道,而硼系统之所以能够成耽关键在于它们是建立在海量数据基 础之上的。在不久的将来,现今许多单纯依靠人类判肋的领躺会被计算机

15、系统所般甚至取 代,因为它为人鞋活创造了前所未有的可量化的维度。大数据已经成为新发明和新服务的源 泉)而更多的改变正蓄势待发。特别是我们大家有一个观点,建模为什么重要?最重要它可以预测,特别是利用这个知识来改变世界,这是最重要的用途。好的模型不仅要预测未来,还要有外延性;不仅对建模数据管用,对新数据也要管用。这样的东西才有真正的价值。BAOSTEEL宝钢股份数据不足或分布区域小时遇到的问题但是大家知道,过去我们往往强调精度,就会出现很多问题。一种是过拟合:老样本都预报正确,新的进来是不着调了。还有一种在里面是很对的,一到外面就发散了。这种事情很容易产生。完全正确:有时候等价于完全没用BAOST

16、EEL宝钢股份25年前的两个案例当样本的数量少时对已有样本的判断准确,绝不等于对新样本的判断正确、七数据派其实本人25年前做硕士的时候就遇到过这样的问题:你要多少精度我给你多少精度,但是我心里知道这个东西不靠谱,因 为我不知道新的过来会怎么样。有度难而无度易韩非子.外储说左上 BAOSTEEL宝钢股份 常见困难:方现知识的底线高知识往往需要超越已有认识, 数据分析的结果才有使用价 值。但人们对工业对象的认 识却往往很深.另外,工业数据分析困难还有一个原因。工业system是人造system,人家对这个对象研究得很透,像钢铁研究了几百年了。你说我发现的知识有用,你就得超越人家已有的知识。你告诉人

17、家碳对强度有正作用,人家说这是废话,我知道30年了。你必 须要比人家更高一层才能发挥你的作用,这也是难点所在。设想的目标:大而空现实的结果小而无用工业大数据以及数据挖掘技术, 很少能取得预想中的成功。业大数据。前面一年来,或者一年多来大家对工业大数据也有这样或者那样的看法,很多人会质疑说工业界有没有大数据,工 业界的数据是不是大数据,工业界的大数据怎么样发挥它的价值和作用,我想这都是摆在我们今天中国经济转型发展过程当中 不可回避的问题。正好上个月我有幸见到了宝钢的首席分析师郭朝晖郭总,应该说我们有很多的观点非常相近,我觉得特别是 郭总在企业一线积累了好多的非常深刻的,但是讲起来乂非常生动的例子

18、,我觉得值得到清华大学,特别是和我们的教师、和 我们的同学进行分享。当然,今天我也看到好多来自于清华以外的老师和同仁,这也是非常非常高兴的。郭朝晖:谢谢王老师、谢谢大家。我发现我作报告有个特点:就是我准备得越好,讲得越差。为什么呢?因为报告越重要, 准备越认真;但越是重要的报告,我就越紧张。所以,有时候准备得好,讲得反而不好。清华是咱们国家的顶尖大学,在这里 作报告我刚到特别荣幸,也感到特别紧张。所以,下面讲得不好的地方请大家多多原谅,因为我实在是很认真地准备的。磅BAOSTEEL宝钢股份常见的“失败:不了了之关于工业数据处理的问题。我20多年前读硕士的时候,我的导师胡上序先生就有这么一个领域

19、,希望通过工业数据的分析 来提升我们工业的水平。但几十年下来,我却常常发现这么一种现象:当你立一个相关项目标方向时候把它说得非常好,好像 什么事情都做得了;但当结束的时候,你却发现只能得到一个不理想的结果。所以,我们的现实和理想往往有很大的差别。某 种意义上来讲,这样的结果就是失败了。这种失败的表现就是不了了之,你不能说他一点都没得到,但得到的跟想象的相差太 远。BAOSTEEL宝钢股份工业数据分析:一般只能基于已有数据数据分析常常不同于科学研究往往只能利用现有数据,而不是为证明结论进行试验。另外,分析工业数据往往与实验设计不同:我做这个分析的时候,不知道能得到什么。很难给别人提要求,有什么数

20、据用什么数据。(g) BAOSTEEL宝钢股份工业数据分析:不了了之的原要求高、不满足要求常常不了了之人们对工业数据分析的要求非常高,可靠性要求非常高,又要超越人,条件非常差,数据误差比较大,有时候分布也不合 理,有的时候需要深入分析因果性.许多工作最后似是而非,不了了之,就是这个原因。以上是我给大家汇报的我对工业大数据特点的认识。 BAOSTEEL宝钢股份目录一、工业大数据的特点二、工业大数据的方法三、工业大数据的价值创造结束语第二点,我来谈谈工业大数据的方法。BAOSTEEL宝钢股份方法:决定于目标、现状、条件与约束目标理想方法现状提出宏大的目标、理想的思路都很容易,但达成目标很难。理想方

21、法无法达成理想目标,是因为遇到了某些隐性约束。认清现实中的约束和条件。才能找到达到目标的可行方法r- I , 一 七级据瘠这是我经常跟大家谈的一张图,来描述技术创新的逻辑和思路。在这张图中,蓝色的曲线代表一条河,右上角的方块代表 桥。要求我们做得的是:找一条从现状到目标的最短道路(WAY)。学究气太浓的人,常常执着于理论上的结论,如两点之间直线最短。的确,理论上的结论一定是正确的,但理论上的方法 可行不可行则是另外一回事。正如图中所示:理论上的办法遭遇河流,无法过去。现实的办法,则是绕道远方的桥梁一这条 路理论上不是最近的,确实现实可行的。事实上,对于创新问题,理论上的方法一般是不可行的:创新

22、是做别人没做成的事,理论上的办法常常最容易想到、能想 到的人往往很多如果现在这个技术还没做成,往往就说明理论上是走不通的。也就是说,在创新时,理论方向几乎必然遭 遇困难。这个时候,必须借助特殊的条件,才能达到技术的目标。只有现实中可行的方法,才是真正的好方法。所以,现实中,你的“水平”并不体现在对理论理解多少,而是对条件(桥梁)、 约束(河流)、目标与现状的认识。BAOSTEEL宝钢股份工业数据:有价值的信息难利用早已是常态碎片化的研发、服务信息:一万条,能管得了吗?价值含量常规的统计方法老早就失效了:并非数量大先说一下工业大数据的一些现状。我经常听到一句话,说数据大得计算机存不下了。其实,多

23、数情况不是计算机存不下了,而是少量的数据你都用好。比如 每年我们有数以千计的相关质量异议,加在一起可能是数以万计。每件事背后都是一个案例、都有资金的损失。但是请问,计 算机记得住吗?当然,你可以做成文档记录下来。必要的时候可以去查。但是,你遇到问题的时候,计算机不会自动化告诉你:过去发生 过类似的事情,要当心。这样的能耐只有人才有。很多牛人之所以很牛,就是因为记住了这样的一些事。但这个人一退休,这 个知识也就丧失掉了。所以,对于这种碎片化的知识和相关数据,哪怕是一万条,计算机都不能很好地管控起来。另外,像前面说的这样,如何 把几十万条数据中的规律挖掘出来并得到可靠的模型?这都是不容易的。BAO

24、STEEL宝钢股份数据质量和方法对可靠性的影响是短板小米电视的段子取决彳短板往往不在于计算机性能沙子再多也无法经济地提炼宝藏我个人认为,要得到可靠的分析结果,缺少好的方法往往是真正的短板,计算机的性能往往并不是短板。还有人认为数据多了就有用。不一定的。有个段子说,雷军做小米电视。他经常感到很困惑:小米电视的办法,跟小米手 机一样,为什么就卖不出去呢?后来有人来给他点拨了一下:请问买小米手机的人多少是家里有客厅的?这意味着数据再多, 调查结果都可能是错的。这是短板是方法问题,数据多是不解决问题的。另外,大家说大数据是沙里淘金。但如果随便给你拿一袋沙子,里面有万亿分之一的金子,你能淘得出来吗?如果

25、一定要 做,你淘金花的钱比这个金子要贵得多了,经济上是没有价值的。BAOSTEEL宝钢股份相关性的价值:对商业和工业的价值不一样一个人连续买了几次尿布他买的是高档尿布他买的是NB尿布$ 他很可能会买奶粉很可能会买高级奶粉 很可能会买1段奶粉ATM取款记录是秘密相关就够了:萝卜青菜各有所爱这里我特别提醒一下,商务大数据和个人大数据是不一样的。与个人相关的大数据,相关性是很重要的概念,比如:一个 人买了几次尿布,你可能说这个家伙老买尿布,是不是家里生孩子了?他可能买奶粉。而且看到买什么牌子尿布,大概知道他 家的经济情况,可以推荐什么档次的奶粉;看他买多大的尿布,大概知道该给他推荐几段的奶粉比较合适

26、。这就是相关性的价 值。但是工业上就不一样了:你买了我一吨的Q235,我知道你干什么?我啥也不知道。所以,工业跟个人是不太一样的。人和 人之间虽然有差别,但跟企业与企业之间的差别相比,还要小得多。Q BAOSTEEL宝钢股份工业大数据:不能被商务大数据的理念误导把荷花和仙人掌放在一个盆里; 浇水多也不好,浇水少也不好。把与个人相关的商务和企业内部的工业大数据相提并论这样做也不对,那样做也不对。所以我一个感觉,不能把工业大数据和商务、跟个人相关大数据混在一起。混在一起,强调相关性也不好,不强调也不好;强调因果性也好,不强调也不好。概念混了,就像把荷花和仙人掌养在一个盆子里面,浇水多也不好,浇水少

27、也不好。不是路到了尽头,而是到了该转弯的时候。或许我们要更换一种思维。比如,我们工业大数据要求的是什么?我们要求数据的完整性、真实性,这个东西是很重要的。工业大数据:组织好数据是基础BAOSTEEL宝钢股份预则立,不预则废问题表现在分析阶段,根子却在数据的收集与组织。存储数据时的真实性,组织数据时的结构化,分析数据时的预处理。首先是为人的分析创造条件 然后才肯能有自动化的分析胜兵先胜而后求战 败兵先战而后求胜 及夕论1后.孔子说:欲则立,不欲则废。孙武子说:胜兵先胜而后求战,败兵先战而后求胜。工业大数据也是这样。如果不是在开始 的时候就把数据很好地组织起来,到了后面再努力也没用了。要想着把大数

28、据用好,在收集和组织数据的时候就该想到它的目 标方向。口数据中有信息。 口信息中有知识。 口知识是有用的。不了了之的原因:梦想终止在何处? BAOSTEEL宝钢股份欲得其利,先知其弊假的、错的、偏差大的 口局部、暂时性的。口正确却平庸的。口难证实的、不敢妄用的戈数据力为什么会有不了了之呢?其实这里面有一个原因,就是我们在谈到数据应用的时候常常说得好的一面。比方说,我们说数 据当中有信息、数据当中有知识、数据是有用的。但我们又常常忽略它的另外一个方面,比方说数据有假的、有错的、有偏差 很大的,你得到的很多东西可能是局部性的、暂时性的;或许你得到了一个正确的结果,但它却是很平庸的,人家会对你说:“

29、我 早就知道了,这是常识,你告诉我有什么用呢?”等等。再就是:你告诉人家一个事,人家说:“真的吗?你说:我也不确定”, 算了,不确定我也不敢用。经常由于这样的一些原因,我们的大数据分析之梦最终不了了之。BAOSTEEL宝钢股份工业大数据:组织好数据是基础旧M认为:真实性(Veracity)是当前企业 亟需考虑的维度,将促使他们利用数据融合和 先进的数学方法进一步提升数据的质量,从而 创造更高价值。前辈王洪水先生认为:本人的一管之见:真实性首先是完整性,数据之间的联系要尽可 能完整地记录下来。知道数据是怎么来的, 有时候是分析问题的关键所在。IBM认为,应该把“4V理论改了一下。把其中一个V改成

30、真实性,他认为真实性是当前企业急需考虑的维度,并且将促使 他们利用数据融合和先进的数学方法进一步提升数据的相关质量,从而创造更高的价值。这段话读起来有点别扭,但说的理儿 还是对的。就是数据的融合,特别是数据和人脑当中知识的融合,这是一个大有可为的一个地方。宝钢有个我非常尊重的前辈, 叫王洪水先生,他说:真实性首先是数据的完整性,数据之间的联系要尽可能地完成地记录下来。本人在做数据分析的时候也 有点想法:我不仅要知道数据是什么,更要知道数据是怎么来的。比方说,不仅要知道哪个字段是屈服强度,还要知道它是怎 么取的,是横向取样还是纵向取样,是冷态取样和热态取样等等,不同情况下得到数据,虽然都叫做屈服

31、强度,但内涵是不一 样的。所以数据完整性不仅仅包含过程本身、对象本身,还要包含数据怎么来的。这样你在用的时候,才能识别一些假象,避 免给误导。我们搞数据分析的整天就是跟假象做斗争。 BAOSTEEL宝钢股份 数据分析,无非两种思路结论r理论方法结论工发现关联假设条件传统统计学:从假设条件出发数据/数据挖掘:不预设前提条件可靠性如何获得?南开大学有位老先生,有这个一个观点,蛮有意思的。大体意思是,数据分析无非是两种办法:传统统计方法是先给出假设,结论的正确性决定于假设是否合理;现代数据分析方法是根据数据表现的结果直接给出结论,可靠性难说。但现实中我们 发现:这两个方法都不好用。对于统计方法,我给

32、不出合理的架势,而现代方法的可靠度又不够。 BAOSTEEL宝钢股份如果应用统计方法的条 件是可以确认的,则统 计结果就是可靠的。应用统计学方法的条件, 一般是不能确认的。老先生给我的启示是:如果应用统计方法的前提条件是可以确认的,统计方法一定可以得到可靠的结果。我们的问题是: 条件一般是不能确认的。那么,能否将注意力放在创在条件上呢? BAOSTEEL宝钢股份 可靠性的取盘lJ生韭走投无路用统计方法用统计方法创造条件选配数据人工分析Ha原始数据统计和机理的结合对条件的判断常常来自于数据之外的认知要把分析的重点转到幕后去,也就是说利用原始数据、通过人工分析给它选配数据,来创造统计上可行的条件,

33、得到可靠 的统计结果。注意:在这个人工分析过程中,很多知识来源于被分析数据之外的认知。概率并非天生正确:创造条件可以走四条路1 .不堵时,分别耗时40、42、36、49分 钟,时间误差正负5%。1 .自驾车。2 .走外环隧道。3 .礼拜一晚上。现实中的许多问题也不是概率问题但能固定条件后能转化为概率问题。2.周四、五,外环堵车43分钟。早高峰 时翔殷路隧道堵车20分钟。国定路堵 10分钟。堵车时间误差正负35%。平均40分钟,标准差5分钟。如果有人要问:从宝山到浦东机场花多长时.间?我认为这不是一个概率问题。如果变成一个概率问题的时候,你必须要说 我走哪条路,从哪个地方走,什么时间段走。这些s

34、ystem性干扰排出了,才是一个概率问题。BAOSTEEL宝钢股份钢铁材料的问题:原理是一样的案例:620度卷取3mm的中低碳CMn钢为8.351 .数值固定、精确。2 .影响因素可知。3 .适用范围可知。4 .其他干扰基本可忽略C含量对强度的贡献多大? 平均:240Mpa/100ppm1 .什么组织?2 .什么强化机制?3 .什么产品规格?4 .什么工艺条件?5 .取样方向?也就是说:用统计办法的话,首先要把被后的system干扰排除。BAOSTEEL宝钢股份现实的可靠性:要放弃对绝对真理的奢求 j r *数学规律: 物理规律: 生物规律: 经济规律: 社会规律:证明数学定理,一个证明就够了

35、, 证明历史事件,至少要5个证据已知的正确,未知的也正确。 已知的都正确,且竞争成功。80%的正确.50%的正确可能会有人抬杠:你的做法真正可靠吗?其实,现实中的可靠都是相对的。判断过程包含人为的因素,不是严格的数学证 明。数据分析更类似一个发现科学规律的过程。学过科学哲学的人都知道:科学理论其实没法证明,只能证伪。一个理论是否正确,不同的学科有不同的标准。有这么一个段子:”数学界的标准是:已知的要正确,未知的也要正确;物 理学的标准是对已知的现象都能正确解释;生物学的标准是正确解释80%的现象;经济学只要有50%就可以了元芳,你怎么看?BAOSTEEL宝钢股份 更多的证据。 独立性强的证据。

36、 更可靠的证据。 更严密的证据链。 没有明显的反例。 理论佐证与相互竞争。认定的结论每一个独立的证据,都可能会排斥或者加强对一个结论的认识数据派我想,为了得到更加可靠的结果,论证过程中就需要更多的数据,更多独立性的证据、更可靠的证据、更严密的论证链、 有科学原理的解释,且没有明显的反例,这个时候我只好认定它就是比较好的了。我们在认证一个结论时,尽量从多个维度验证;如果没有明显的例外,就认为它是可靠的了;在没有新的证据之前,找不 到比这个更好的理论,就可以暂时采纳它。(g) BAOSTEEL宝钢股份日心说的胜利:精度为王。|相对论的确立:预言成功可靠:验证精度及外延验证牛顿自然哲学的数学原理中就

37、曾经提到:为什么做这几个假设?第一,这些假设足够简单且能解释问题,第二,现在 没有发现跟它相违背的事实。BAOSTEEL宝钢股份如何看待领域知识 生产数据不包含设计依据。单纯 从数据中分析问题,如坐井观天。 要完全用数据说话,数据需求必 遭遇组合爆炸,数据永远不理想。 数据不理想时,会存在难以证实 和选择的不同假说。机理用于选 择更合适假说、客观上起到减少 数据需求的作用。我们认为“可靠”的结论,是理论和数据的共识这里特别要说明一下:仅从数据本身就得到可靠的结论,往往是一种奢望。在做分析的时候一定要把人的知识和科学机理 融合进去。一个可靠结论,既要能描述数据的实际特征,又要符合冶金机理。从数据

38、到数据的分析方法为什么会有问题呢?我的感觉是:如果纯粹从数据上加以证明的话,一定会遭遇组合爆炸问题; 要得到全面可靠的验证,数据永远是不够的。 BAOSTEEL宝钢股份 目录一、工业大数据的特点二、工业大数据的方法三、工业大数据的价值创造结束语 0一*l今天我给大家汇报的相关内容大概包括这么三个方面的相关内容,第一,我先谈一谈工业大数据到底有什么样的特点;再 介绍一下我们分析工业大数据当中有什么样的方法,最后针对工业大数据的价值创造,谈一点自己的想法。BAOSTEEL宝钢股份目录一、工业大数据的特点二、工业大数据的方法三、工业大数据的价值创造结束语现在,我跟大家谈谈价值创造。其实关于技术创新,

39、我在宝钢做了 20年,经常感到很痛苦,为什么很痛苦呢?因为我们作为一个博士,很想做有技术先进性的东西。但现实当中,我们发现先进的东西往往不实用,实用的东西往往不先进。我们一直在很薄的夹缝中生存。尽管如此, 我们不能放弃的底线是创造价值,因为我毕竟是企业的人。只有创造价值工业大数据才有生命力技术才能真正在企业落地熊彼特(1883-1950)只有将新技术用于经济活动并取得经济成功才算创新。A A,- I .,,一据瘠熊彼特说,只有将新技术运用于经济活动并且取得成功才创新。同样,只有创造价值,工业大数据才有生命力,才能真正 在企业里面落地。这是必须坚持的一条原则。BAOSTEEL宝钢股份寻找大数据落

40、地的蓝海:场景很重要一杯水放在餐桌上是垃圾放在沙漠里则可以救命新技术,要雪中送炭,不要锦上添花价值决定于用户要求和难度决定于场景宝钢的老领导何麟生先生,今年快90岁了。我去探望他的时候,他跟我说:半杯水,剩在餐桌上是垃圾,放在沙漠中可以 救人一命。换句话说:技术的价值它决定于用户,用户是怎么看待它的。我们做新技术要想创造价值,要做到雪中送炭,而不 要锦上添花。所以,大数据能不能落地,关键要找到合适的场景,而不是技术本身是怎样的。BAOSTEEL宝钢股份GE的设想:很好,但普通企业难复制可靠性要求高:潜在价值大相互比较校验:可靠性易取得便于知识复用:价值倍增收集来自数以万计机器的数据形成工业大数

41、据应用谈到工业大数据,很多人知道GE的设想。也就是说通过飞机发动机的大数据减少维修成本,来提升安全可靠性。这个例子 很好,但要跟大家强调一下它的场景。第一,航空发动机的成本很高,可靠性要求也很高,所以对它的相关工作能产生很大的价值。第二,从一台发动机的数据中发现的知识,可以用其他发动机来验证,提升可靠性;中发现的知识,可以用其他发动机来验证,提升可靠性;可以复制到成千上万台发动机上,发挥更大的价值。但是,如果这个思路针对的是自家的一台重要机器,情况就完全不一样了。分析结果的可靠性、价值创造都不一样。辔迪宝钢股份 一般企业:针对个案的分析似乎价值更大钢板要不要拆除?-对过程数据的完整记录很重要工

42、艺工程师:每一个质量异议都分析。-判别责任河南近乎无人化的小企业-数当然是必须的。 6sigma理论产生的背景:高质量要求-用数据和事实说话,才能将次品发生率降低到百万分之3.4。?哪些场景会适应普通企业呢?我给大家举几个例子。有人买了我们的钢,说我们的钢有问题,要我们赔100万。宝钢就说了,这不是我的问题。对方就说:可以把这块板子拆 下来检验;但如果拆下来发现是你们的问题,就要赔1000万。后来,宝钢回家看相关的数据后,自信地说:你拆吧,肯定不是 我们的问题。后来也证明了我们的判断。这就是数据的价值。没有数据,你怎么敢下这个结论?河南有一个小厂,农民企业家开的。别看它是小厂,却几乎是一个无人

43、工厂。为了保证相关质量,每一个环节的数据都记 录下来,放到数据中心上。否则,没有人在那儿看着,产品出了问题怎么分析呢?大家知道有一个理论叫6sigma理论,这个理论要求将次品率降低到百万分之三、四以下。这个理论有一个重要的观念,就 是用数据和事实说话:降低到这么小的次品率,单靠设计是不行的,必须能够在生产中不断地优化。而改进的依据是什么?必 须是数据,换句话说,在相关质量要求高,无人化的场景底下,数据变得非常重要。这时的数据就是雪中送炭。高质量要求、自动化高:数据成为雪中送炭BAOSTEEL宝钢股份大数据技术大数据技术对一个管理落后、不重视质量的企业先进技术可能是没有多大作用的反之,有些情况可

44、能就变得不重要了。比如说为了降低成本,有时明知设备有问题都要带病工作。这时,开发依靠数据的 智能智慧诊断技术,价值就小了。数据到底有没有用处,关键是用户对相关质量有没有高的追求。有高的追求的话,数据的价值自然会被带上去;反之,企 业对相关质量不关注时,再有好的数据没用。我想起一个更极端的例子,大家知道三鹿奶粉。厂里明明知道里面有三聚氨氨,还是要卖出去,更可气的是:石家庄政府 甚至还包庇它!所以,从大局上看,政府要改革、要重视相关质量监管,数据才会重要。某一个豆腐厂,工人操作常常不规范;质量卫生难保证。老板安装了几个摄像头,引到监控室。虽然他也不怎么去看,但问题却解决了。BAOSTEEL宝钢股份

45、摄像头的故事:记录很重要宝山有家豆腐厂,有1000来号工人。过去,有工人经常偷懒。于是,老板搞了一个摄像头,引到他的办公室里,产品相关 质量和管控水平马上变好了。偷懒的人想到:万一被老板发现怎么办?这就是监控的作用。咱们中国是刚刚起步于一个农业社会,人的纪律观念差、缺乏工匠精神。怎么才能应对新工业革命的挑战呢?我想,用大 数据提升管控能力或许是个好的切入点。管控其实很重要:管控能力差导致相关质量差,相关质量差导又会成为技术创新的阻 力。BAOSTEEL宝钢股份王洪水先生说:利用数据,把产生过程 像录像一样记录下来。用大数据提高管理能力:或许适合中国特色1,对抽象的研发、设计、采购、销售、制造、设备维 护等诸多环节,大数据记录可以看做一种抽象的 “录像,对提高管理水平的价值是很大的。2.在某些传统企业,管理漏洞的浪费可能大于总利润。3,用大数据提高管理水平,或许适合很多中国企业。工业企业中有很多工作流程。包括生产、采购、销售、服务、研发、设备维护等等。我想:利用数字化的办法,把这些流 程的痕迹记录下来,再加上一些职能性的算法,评价这些正在进行的工作。就像录像一样,把工作的状况显性化,管控水平可 能就会上去。BAOSTEEL宝钢股份蓦然回首

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com