1.需求背景
随着自助分析的推广,越来越多的业务人员自己进行分析和使用,而运维人员需要对资源的相关信息进行统计、分析、跟踪。
需求说明:
1、要能统计宽表的使用频率,以及对应的影响,定时删除不常用的宽表
2、需要进行整体的运行情况分析,向领导进行汇报说明
3、要导出相关信息,定时备案
2.功能说明
元数据分析的数据会落地到知识库中。
3.使用说明
3.1. 扩展包部署
扩展包: PD_MetadataAnalysis
部署说明:扩展包部署
注意:更新扩展包之前,请做好知识库以及扩展包的备份。
3.2. 使用说明
3.2.1、通过“计划任务”,定时抽取元数据分析数据落地到物理表
扩展包部署后,会新增一个任务脚本【资源元数据分析同步任务】,和一个计划【资源元数据分析同步计划】,会在每天凌晨4点执行该计划(可以按需修改对应的计划配置)。
注意:
1)计划的执行必须在服务器的空闲时间进行,否则会影响到服务器的正常使用。
2)如果资源非常多,建议按要分析的资源类型来获取相关数据,减少服务器的压力。
任务
注意:如果资源太多,只需要统计部分资源类型的话,可以修改对应的脚本
//按资源类型统计,如果types为空数组,则全部资源统计 var types = ['SPREADSHEET_REPORT','SMARTBIX_PAGE']; connector.remoteInvoke("MetadataAnalysisModule", "recordMetadataAnalysisByType", [types])
其中资源类型的值可参考文档获取:如何查看各个资源类型的中文名称
计划
运行脚本,会进行资源的元数据分析,并将数据落地到数据表【t_ext_res_map_effect】、【t_ext_res_map_descent】和【t_ext_respath】中,后续可基于这些数据表进行数据集或报表的自定义分析,如下:
3.3. 数据字典
部署扩展包后,会在知识库中增加三个物理表,记录相关信息。
t_ext_res_map_effect(资源影响性分析数据记录表)
字段名 | 类型 | 说明 |
---|---|---|
c_id | varchar(255) | 唯一ID |
c_res_id | varchar(255) | 资源ID |
c_effect_id | varchar(255) | 影响的资源ID |
t_ext_res_map_descent(资源血统分析数据记录表)
字段名 | 类型 | 说明 |
---|---|---|
c_id | varchar(255) | 唯一ID |
c_res_id | varchar(255) | 资源ID |
c_descent_id | varchar(255) | 血统的资源ID |
t_ext_respath(资源路径数据记录表)
字段名 | 类型 | 说明 |
---|---|---|
c_id | varchar(255) | 唯一ID |
c_res_id | varchar(255) | 资源ID |
c_path | varchar(1000) | 路径 |
c_creator | varchar(255) | 创建者(可能是群组名、角色名或用户名,也是资源拥有者) |
说明:资源的详情信息可以关联 t_restree 表进行查询。
t_restree(资源树表)
字段名 | 类型 | 说明 |
---|---|---|
c_resid | varchar(255) | 资源ID |
c_resname | varchar(255) | 资源名称 |
c_resalias | varchar(255) | 资源别名 |
c_resdesc | varchar(255) | 资源描述 |
c_pid | varchar(255) | 资源父ID |
c_restype | varchar(255) | 资源类型 |
c_order | int(11) | 节点顺序 |
c_perm | longtext | 权限 |
c_created | datetime | 创建时间 |
c_lastmodified | datetime | 最后修改时间 |
c_extended | longtext | 扩展属性字段 |