数据治理需要什么技术,大数据治理要素包括哪些

互联网 2024-05-07 阅读

大家好,今天来和大家分享一下有关数据治理需要什么技术的问题,我们知道很多人对此还不太了解,同样的大数据治理要素包括哪些也是如此,我们今天就一起来探讨一下这两个问题吧!如果我的分享可以帮助到你,希望大家能够继续关注我们的网站,我们会持续为大家提供更多信息和帮助,谢谢大家!

数据治理需要什么技术,大数据治理要素包括哪些

数据治理的定义和架构

   数据治理的定义

   数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

     数据治理涉及的IT技术主题包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

     数据治理的技术组成 

    数据治理涉及的技术主题包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。

    所有与数据有关的技术产出物全部通过知识库实现相互之间共享,知识库作为数据治理的后台通道,传输不同平台、环境、技术、工具所提交和需要的元数据信息。    

    数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织的数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。

    如下以某公司数据治理架构为例:

    该数据治理平台融合元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全9大产品,每个模块功能可互相调用,全程可视化操作,打通数据治理各个环节,同时提供各个产品模块任意组合。

    元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。

     数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。

     数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

     数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。

     主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。

     数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。

     数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。

     生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。

     数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。

综上所述,数据治理系统的核心组成在:元数据管理系统数据标准数据质量数据交互传输数据安全数据生命周期等 ----不要怀疑---大神告诉你!

什么是数据治理

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API接口的形式进行了转移。API接口共享可以使用 API网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

大数据治理要素包括哪些

大数据治理要素包括目标要素、核心要素、支持要素、促成要素。

资料扩展:

大数据治理是指充分运用大数据、云计算、人工智能等先进技术,实现治理手段的智能化。大数据,一般指符合4V特征的数据,包括社交数据、机器数据等,大数据对传统数据治理工作带来很多的扩展,

在政策/流程上,大数据治理应覆盖大数据的获取、处理、存储、安全等环节,需要为大数据设置数据管理专员制度;需考虑大数据与主数据管理能力的集成,需要对大数据做定义,统一主数据标准;

在数据生命周期管理各阶段,如数据存储、保留、归档、处置时,要考虑大数据保存时间与存储空间的平衡,大数据量大,因此应识别对业务有关键影响的数据元素,检查和保证数据质量。

此外,在隐私方面,应考虑社交数据的隐私保护需求,制定相应政策,还要将大数据治理与企业内外部风险管控需求建立联系。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

大数据的5V特点(IBM提出)Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据一词列出了商务印书馆推出的《汉语新词语词典(2000—2020)》中国这20年生命活力指数最高的十大“时代新词”。

本站所有文章资源内容,如无特殊说明或标注,均为网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

数据库的验收指标有哪些,软件测试5个常用的性能指标

数据等级怎么划分的,公司数据密级分为哪几个级别