中科医院专家 http://m.39.net/pf/bdfyy/zjdy/大家好,我是许可。数据治理专家,专注数据治理20年,数据治理实战派。分享数据治理解决方案与数据治理实践经验,以后大家多多交流。
今天是第12篇,聊聊数据治理为什么看上去很简单,实际干起来却这么难?
年11月1日《个人信息保护法》开始实施,这意味着我们生活中常见的人脸识别技术、大数据杀熟等行为开始有专门的法律来进行监管了。
与此同时,个人数据相关的管理治理也开始不断的出现在企业管理的议题当中。然而关于数据治理的相关行动,在金融行业中已经开始以罚款的方式刺激着各位企业管理者的决心。
在年一份毕马威的报告中提到,由银保监会和人民银行针对各家银行保险数据报送的罚单总金额就已经达到了10亿万,单张最高罚单达到了1亿万。
这些罚单中处罚的大多数内容都是关于数据质量、数据合规以及未按规定报送,而这其中数据质量问题首当其冲。
那么问题来了,按照监管机构要求的数据内容报送难在哪里?我们在报送流程中常常提到的数据治理又是什么?
这是一张报表,这样的报表在企业当中很常见,也是我们常常听说的商业智能BI报表。
在这份报表中,可能包含了一系列的销售汇总数据。比如每年、每季度、每月以及同比增长等相关的数据信息。
这份报表的背后往往是一个或多个数据库中的数据表,在管理这些历史数据。通常这些数据都会以表的方式存储在对应的系统中,除了数据存储,我们还经常在这个环节对数据进行清洗、丰富、质量控制和匹配。
而存储的数据来自哪里?那便是我们普罗大众的手需要被剁掉的地方。各种电商平台:淘宝、天猫、京东、拼多多、抖音、快手等等。
而我们在这些平台生成的这些交易数据可能来自于前端的连接事物处理数据库(简称OLTP)。或是上游部门的其他系统,亦或是与第三方的数据交换。
这三个步骤也简要的代表了我们企业当中数据处理与汇报的三个典型层,也就是数据源层、分析存储层以及数据消费层。
在这三层中为了应对需要满足的功能,布局的应用程序也多种多样。比如数据源层中与不同数据源的数据交换。
或是分析存储层中的数据建模、数据质量修正、数据清洗相关的数据准备应用。最后在数据消费层中,除了日常的业务运营状况报表外,还有数据创新、数据科学等高阶分析。
一条数据经过这些不同环节中,各色的应用程序加工处理,最后才能贡献在报表或者计算模型当中的一个百分比。
然而,这只是销售部门的数据链路。在企业当中,我们还有像财务、产品、市场、客户等等其他部门。也会有类似的数据流动情况。
除此以外,技术的跟迭也会进一步复杂化企业的数据布局。
比如仅仅是数据的存储分析的相关技术,就从早期的大型机到后来的关系性数据库以及数据仓库以及前几年的大数据到现在的云。
这些不同时期的技术都有可能出现在我们当下的企业数据资产布局中。
于是在这样多部门、多系统、多技术的场景之下,要找到需要的数据就变得异常困难了。
同时,在一条数据的生命周期中,数据从源端生成。
但是数据在原系统中只是支持业务系统运作了一些状态和记录。伴随着数据的集成、质量把控以及数据发现等过程形成信息,信息再通过与业务上下文关联形成知识。促进数据更方便的成为知识并被使用数据才能产生更大的价值。
例如经典的数据分析,啤酒尿布组合刺激消费的都市传说。或是能够符合监管机构要求的针对业务主体的报送,从而免于罚款。
但是在这个数据流动的过程中,由于设计的环节和系统多样复杂以及数据规模在加工过程中的快速扩张,在任何环节引入的错误和误差都有可能在后端被放大。
当然在这张图上,一切似乎仍旧清晰有序,但是实际上在企业数据资产中我们看到的是这样。
对于数据消费方,无论是错误排查还是数据发现,面对的情况时,我们只能看到一部分散落在各个系统中的数据资产以及相似的数据,并不清楚之间的关系,或者是否还有更适合的资产。
如何避免这种玩盲人摸象的体验,让企业在正确的时机做出全面的决策就是企业数据治理的核心。
作者简介:
许可,光点科技CEO,数据治理专家。专注数据治理20年,数据治理实战派。分享数据治理解决方案与数据治理实践经验。