数据治理范围很广,阐述起来也很复杂。好吧,是我讲不清。。。
在数据治理过程中,不断的会被问到:你这个有什么指导意义么?几百年不变的东西,有必要花代价去做吗?
今天一起来看一个实际的案例,需要害羞的请尽情脸红,觉得自己数据维护得不错的,也可以再整个系统里面查一下。
-----------------正文开始-------------
国家、省份这个东西,基本上很少有系统不会使用到它,今天这个例子就是某个系统某个主数据实体中的国家属性的数据质量分析。
为什么国家会为空呢?
前面带问号是什么意思?程序BUG带乱码了?
#N/A又是怎么回事,难道是EXCEL计算错误么?
AU和AUSTRALIA、Australia、Australian有什么区别?
好吧,我们来看看中国有几种写法,请注意,这个字段存储的是“国家”
把香港也作为一个单独的国家,微醺。已在多个系统中碰到。
这个国家字段,写毛的城市还有区?
中华人名共和国,大亮
-----------------正文结束-------------
朋友们,咱们好好的,找主数据平台将国家清单推送给你,系统内做一个Foreign Key,用户维护或上传文件的时候你再校验一下,这样的话,我们还能做朋友。
要不然,你让我很难做啊!!!
另,基于这样的数据,请指教,该如何进行后续的数据分析、挖掘?在线跪求。。。