庆美资讯网,分享每日热点-

当前位置:首页 - 财经资讯 - 正文

君子好学,自强不息!

Fabarta案例

本项目案例由Fabarta投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新服务企业榜单/奖项”评选。

随着数字化转型的推进,企业逐渐意识到数据对于决策的重要性。数据驱动的决策需要可信、一致、完整的数据资产作为决策的基础。

在此背景下,企业对于数据血缘的建设需求迅速增加。在保险行业,合规性和风险管理是非常关键的。要满足监管要求和降低风险,企业需要能够跟踪和分析数据血缘,以了解来自哪里的数据、经过何种处理和传输、以及数据的使用情况。数据质量是数据驱动决策的核心要素之一。为了确保数据的质量和一致性,需要建立数据血缘来跟踪数据从源头到目的地的路径和变换,以便更好地进行数据质量监控和数据治理。

• 异常检测:

可以帮助识别数据流中的异常情况,例如循环依赖或无限递归。这有助于在早期发现潜在的问题,并采取适当的措施来纠正或处理异常数据流。

• 数据质量管理:

数据血缘系统可以提前识别数据的潜在质量问题,如数据重复、数据丢失或数据变异。这有助于提高数据的质量,并确保数据在流动过程中不会出现问题。

• 合规性和安全性:

可以帮助确保数据流动的合规性和安全性。它可以识别潜在的风险,如敏感数据泄漏或数据非法访问,以便采取必要的安全措施。

• 效率提升:

通过减少不必要的数据传递和处理,可以提高数据流动的效率。这有助于降低资源消耗,提高数据处理速度,并降低与数据管理相关的成本。

实施时间:

项目开始时间:2023年10月15日

中间重要时间节点:

2023年11月15日 测试环境上线

2023年12月01日 生产环境上线

2023年12月15日 完成生产环境验收,开始试运行

项目完结时间:2024年01月05日

应用场景

1、业务用户取数:

在企业的日常运营中,业务用户经常需要获取各种数据辅助决策。数据资产管理平台可以提供一个中心化的平台,帮助业务用户可以方便地查询和获取数据。例如,销售部门的业务用户可能需要获取销售数据,以便了解销售情况并制定销售策略。通过数据资产管理平台,他们可以快速地获取所需的数据。

2、指标加工:

数据资产管理平台可以提供指标门户与指标加工能力,帮助业务用户自助开发各种业务指标。例如,财务部门的业务用户可能需要开发财务指标,以便进行财务分析。通过数据资产管理平台,他们可以方便地加工数据,开发出所需的财务指标。

3、数据质量管理:

数据资产管理平台可以帮助企业进行数据治理,提高数据的质量。例如,企业可以通过数据资产管理平台进行数据清洗、数据标准化等,提高企业数据的质量,进而提升数据分析准确率,辅助企业决策。

4、数据驱动的业务创新:

通过数据资产管理平台,企业可以进行数据分析,得出业务洞察,进行数据驱动的决策。例如,通过分析客户行为数据,企业可以了解客户需求,进行更精准的营销。

5、数据共享:

数据资产管理平台可以帮助企业实现数据的共享,提高数据的使用效率,加速数据资产周转。例如,企业的各个部门可以通过数据资产管理平台共享数据,提高协作效率,降低数据管理与运营成本。

面临挑战

1、内部协调配合问题:

企业内部各部门之间的数据共享和协作存在问题,导致数据无法高效利用。例如,业务部门每天都有大量的数据加工与取数需求,以辅助其制定业务决策。但数据部门的资源有限,疲于应付自己部门内部的应用开发需求,同时还需要应对不同业务部门源源不断的数据需求,包括离线的供数需求和实时的数据分析需求,如何协调集团内部配合成为了一大难题。

2、系统老旧过时问题:

企业的旧有系统无法满足现在的数据管理和分析需求,数据资产平台可以提供更先进的数据处理和分析能力,帮助企业更好的使用数据;同时,旧有的数据加工工具、调度工具、BI 工具等工具类产品给数据采集、血缘采集增加了难度,使全链路字段级血缘的可行性在项目初期悬而未决。

3、数据格式不统一问题:

企业内外部的数据格式可能存在差异,导致数据无法直接使用。数据资产平台可以进行数据清洗和转换,解决数据格式不统一的问题。

4、数据孤立无法打通问题:

企业内部的数据可能存在于不同的系统和平台中,导致数据无法打通。数据资产平台可以实现数据的集成和连接,解决数据孤立的问题。

5、数据安全问题:

尽管本期项目目标是数据资产在企业内部,在使用数据的过程中,仍需格外关注数据安全、数据权限以及数据合规问题,数据资产平台可以帮助企业进行数据安全管理,实行安全加密,大大降低数据暴露风险。

数据支持

1、泰康养老数仓存量数据约 150T,日增数据约 100G,存储了泰康养老已采集的业务数据,包含获客、销售、财务、理赔、售后等业务领域。

2、数据资产平台每日定时采集数仓元数据,共采集约 2 万张表,上百万数据字段。每日采集的技术元数据均会留存历史版本,作为后续历史版本查看与版本比较的数据输入。

3、资产平台每日全量收集数据加工脚本超 5 万份,根据业务逻辑过滤筛选留下约 2 万份脚本文件。基于 Fabarta 血缘解析引擎,从中识别出 3 万余条表级数据血缘,100 万余条字段级数据血缘。每日识别的数据血缘也会留存历史版本,作为后续历史版本查看与版本比较的数据输入。

4、资产平台管理了服务类数据资产约 2 万条(数据每日稳定增长),类型包括:数据指标、数据 API、数据报表等,均可对外提供稳定的资产服务。

应用技术与实施过程

一、用户旅程

平台的业务用户旅程,如下图所示:

• 通过数据地图找数据,看数据:

平台提供资产浏览与资产地图,业务用户可自助寻找目标数据集。

• 通过审批流程申请数据权限:

按需申请数据访问权限,包括行权限、列权限,支持隐私访问。

• 通过集成工具用数据:

数据预览、数据下载、BI 工具直连、数据科学工作站(如 Jupiter Notebook)、可视化自定义 API、低代码分析平台等。

• 监控数据流转与消费:

自配置调用限制与熔断机制,日志分析,API 调用监控与分析。

二、功能架构

本项目中长期规划的功能架构,如下图所示。其中资产浏览、资产管理、审批中心和数据底座中的元数据服务、数据血缘等部分已在本期项目中成功投产上线。

在整体的功能规划中,自底向上依次为:数据源层、数据底座、资产服务、应用层:

• 数据源层:

即数据载体,目前集团内使用的数据库种类繁多,也是本项目实施的困难之一,包含:DB2 数仓、Hadoop 集群、MySQL、Oracle 等。作为泰康养老的数据基建部门,管辖了整个养老集团的全部数据,数据种类繁多、格式复杂,数据量巨大,数据血缘链路长、且变更频繁。

• 数据底座:

【金猿案例展】泰康养老—基于ArcGraph的图增强数据资产管理平台

为了支撑数据资产平台的正常运营,数据底座中包含有元数据服务、数据血缘服务、数据质量服务、数据安全服务、指标开发中心、API 开发中心等基础服务,负责提供资产管理所需的一切元数据与数据,同时将数据与质量、安全等核心资产信息关联起来,便于后续资产管理与上线使用。

• 资产服务:

提供完整的资产管理、资产发布、资产门户、资产运营能力,基于技术元数据与数据血缘,提供更为详尽的链路信息,加速数据流转,提升数据资产质量。

• 应用层:

即数据消费方,基于资产门户提供的加密数据访问方式,可支撑包含可视化报表、数据挖掘、机器学习、应用开发和日常取数等资产消费场景。

三、系统架构图

本项目核心模块-元数据管理与血缘管理的系统架构图,如下图所示:

• 数据存储:

本模块使用图数据库作为主存储,存储了技术元数据、业务元数据、表级数据血缘、字段级数据血缘等核心数据,同时,使用 MySQL 作为备库,以另一种数据形态备份了核心数据

• 元数据解析引擎:

使用开源框架实现异构治理数据源的元数据采集工作,使用开源包括 Apache MetaModel、Apache MetaCat、Ali Druid 等。周期性对治理数据源进行并行采集,保证资产平台上维护的元数据实时性。

• 血缘解析引擎:

自研血缘解析引擎,实现表级 + 字段级血缘解析,可解析率与解析准确率均超过 99%。适配本项目范围内使用的工具如:Informatica、永洪 BI、DB2 数仓等。

• 系统集成层:

实现底层数据的系统集成,通过 API、数据直连等方式提供基础数据服务。

四、关键技术

1、使用图数据库实现血缘数据的实时多跳查询

血缘数据尤其是字段级血缘数据,其数据特征为:数量大、链路长、关系复杂,为比较典型的图模式特征数据,故本项目中采用了 Fabarta 自研的 ArcGraph 作为血缘数据的存储与查询介质,实现了血缘数据的实时更新以及毫秒级的多跳实时查询。

图数据库模型(Schema)由节点(Node)和边缘(Edge)组成。

• 节点(Node Types):

图数据库模型定义了图中的不同节点,每个节点通常对应一种实体或概念,例如,如果用户 A 正在建立一个社交网络图,你可能会定义节点类型为"用户"、"帖子"和"评论"。

• 边缘(Edge Types):

图数据库模型还定义了不同边缘的类型,边缘表示节点之间的关系。例如,社交网络中的"关注"关系可以是一种边类型,"点赞"关系可以是另一种边类型。

此外,每个节点和边缘可以有属性,用于存储关于它们的附加信息,例如"用户姓名"、"点赞时间"等

本方法中涉及的图模型见下表,共计 3 种节点类型和 2 种边缘类型,节点与边缘属性仅列举示例信息,实际场景中属性可根据业务自由拓展。

搜索上下游共 14 层血缘的查询性能,常规关系型数据库需要 30s 以上返回数据。在相同数据量与相同机器配置的环境下,使用图数据库之后查询效率为 800ms 左右。

2、使用图计算算法实现血缘环路分析

我们已经在图数据库中定义了一套算法和控制逻辑,旨在找出图中所有可能形成环路的路径。其中,图遍历操作起着核心作用。图遍历是从图数据结构的某个起始节点开始,通过遍历边(或称之为关系)来访问图中其他节点,从而寻找或处理特定的信息。具体说来,访问节点的直接邻居被定义为一跳遍历,访问邻居的邻居称为二跳遍历,依此类推,被称为多跳遍历。在环路发现的算法中,我们从图的任意节点出发,通过多跳遍历来判断是否存在环路并给出输出。

图遍历在处理复杂关系和图数据时,相比传统数据库有显著优势:

• 复杂关系处理:

图遍历是处理图数据结构中复杂关系的优秀选择。传统数据库中的表格关系通常较为简洁,而图数据库则允许展示和查询更复杂的关系,例如社交网络的朋友关系、推荐系统的用户行为模式、交通网络的路线等。

• 灵活性:

图遍历是一种非常灵活的查询方式,可以根据需求深度探索数据,跨越多个节点和边进行多跳查询。而传统数据库查询往往需要明确的表格结构和预设的关系,图数据库则可以根据实际需求动态调整。

• 高效查询:

对于某些类型的查询,特别是那些需要找出和分析复杂关系的查询,图遍历比传统数据库更为高效。图数据库通常利用图算法和索引结构来提升查询性能,尤其是对于多跳查询和大规模图数据。

• 递归关系处理:

图遍历天生适合处理递归关系,例如组织结构、层级数据、推荐系统中的用户推荐等。传统数据库中的递归查询可能需要复杂的递归查询语句,而图遍历则能更自然地处理这些问题。

在问题复杂度方面,由于需要遍历所有可能的路径,其复杂度为 O(V*(V+E+R)),其中 V 为节点数量,E 为边的数量,R 为环路的数量。

① 数据剪枝

为了减少算法复杂度,我们提出了一种剪枝策略,标记不构成环路的点,并在之后的算法运行中跳过这些点,降低需要遍历的数据量。

剪枝策略核心在于当一个点出度或入度其中之一为 0(即点只存在出边或者入边),则该点不在某条环路路径上,当邻居点被剪枝后,也会产生新的不在环路中的点,反复迭代,直到标记完毕。如图所示。

经过剪枝策略,不在环路中的点和边标记为灰色,后续只需将蓝色点遍历输出即可,剪枝算法复杂度为 O(V+E),结果遍历复杂度 O(V*R)。

② 内存优化

算法运行除考虑性能外,也需要考虑所需要的硬件,其中内存消耗量是重要指标,需要在有限的硬件资源条件下选择合适的算法逻辑,在环路优化算法中,影响内存消耗量的核心在于图遍历方式。

图遍历需记录当前遍历路径,分为深度优先搜索和宽度优先搜索两种方式,我们对不同遍历方式做了对比:

• 宽度优先遍历(BFS):

队列结构存储遍历路径,每次从队列中取出一条路径,遍历路径当前点邻接点,拼接为新路径,并判断路径首尾是否相接,相接则输出环路信息,否则加入到队列中。

• 深度优先遍历(DFS):

使用递归调用方式遍历路径,将当前邻接点拼接为新路径,并判断路径首尾是否相接,相接则输出环路信息,否则加入到继续遍历邻接点。

③ 算法结果

点类型为 table,边类型为 impact,起始点和目标点类型均为 table,数据集大小为 100000 点,10000 边。在 CPU 8 核 内存 32G 的机器上测试 10 阶及以内所有环路,环路数目为 29441,性能结果如下:

增加剪枝策略后,算法内存消耗量有所增加,原因在于需额外保存点状态,但算法运行时间大大减少,实现准实时环路结果查询。

对比 BFS 和 DFS,BFS 方式内存消耗量过大,无法获取 10 跳算法结果,但 DFS 算法可以完成。

商业变化

治研一体,共同推进数据资产管理。

1、数据资产管理、数据治理与数据研发的协同,可以实现三个环节的紧密衔接,提高数据治理的效果和数据研发的效率

• 需求沟通:元数据搜索已经覆盖(标准指标、报表、维度、技术元数据库表);元数据搜索功能年度内部用户数百余人;报表信息也总访问人数占养老决策报表访问人数 80%。

• 开发设计:数据地图功能,目前有近百用户日均搜索几十次,字段级别血缘解析完成建设;库表管理与 API 管理均超过几十次/人的使用率。

2、在“治研一体”的模式下,更好地保证数据的质量、安全性和合规性,同时也可以更加快速、准确地为业务提供数据支持和解决方案

• 数据发布:资产发布登记,目前报表资产、API 资产发布议程完成存量数据 100%梳理、增量数据 100%登记;DDL 变更通知已上线。

• 服务运营:DDL 变更订阅功能,目前已经开发完成,后续配合 DDL 变更通知共同进行模型变化通知体系搭建;数据孤岛、热点模型、模型自循环等定期巡检报告输出。

相关企业介绍

·泰康养老保险股份有限公司

泰康养老成立于2007年8月,注册资本70亿元,在全国设立了34家分公司,业务全面对接政府、企业、个人,为国家多层次社会保障体系建设贡献力量。泰康养老致力于为广大雇主和雇员提供企业/职业年金、团体寿险、意外伤害险、团体及个人健康保险、团体及个人养老保险等一揽子员工福利保障解决方案,助力我国养老保障三支柱体系建设,致力于满足企事业职工群体的医养保障需求。

·Fabarta

Fabarta 成立于 2021 年,是一家 AI 基础设施公司,提供“一体两翼”的产品矩阵(多模态智能引擎、数据编织平台和企业智能分析平台),通过探索和联结数据资源,助力企业实现智能驱动的持续创新。在引擎层,打造面向 AI 的数据基础设施,提供支持图、向量和 AI 推理能力融合的 ArcNeural 多模态智能引擎;在平台层,通过 ArcPilot 企业智能分析平台加速可解释图智能和新一代 AI 技术在企业场景的落地,同时利用 ArcFabric 多模态数据编织平台帮助企业梳理多模态的数据资产,让企业充分发挥数据流动带来的价值;此外,Fabarta 可以基于多模态智能引擎、企业智能分析平台和多模态数据编织平台与客户和伙伴一同构建行业应用,加速企业数智化转型和 AI 技术的落地。