关注公众号并星标查看更多数据治理资料
针对政府和企业数字化转型过程中数据应用的核心需求,构建基于云资源池和 PAAS智能计算平台的大数据平台解决方案,通过“云端边”协同、容器化部署,实现数据采集、处理、分析、治理和安全全链路集成,为企业的交易和分析业务提供统一数据接入和技术支持,有效解决异构数据集成、挖掘数据价值等现实问题。
平台的数据获取层支持结构化和非结构化的多源数据访问,覆盖了关系数据库、本地文件和消息队列等多种数据源,支持离线和实时的数据获取方式,以 Kafka、 Flume、Spark-Streaming等主流框架为基础,构建了可靠的数据获取体系结构,并在此基础上实现了对海量数据的实时获取,实现了对实时数据和非实时数据的统一获取。采集操作以全过程可视拖拽方式进行,各种构件可以灵活组装,并支持自定义开发,再加上7×24小时的实时监测,可以及时了解任务的状态,避免数据的遗漏和缺失,极大地减少了异构数据的收集难度。智能调度模块对任务进行全生命周期的管理、支持多租户的资源隔离、自定义时间调度策略、对复杂的任务进行分解和关联管理、结合电子邮件和短信的多渠道报警,保证了系统的高效率、高稳定性。
在数据处理和分析部分,利用数据总线建立了异构数据的交换通道,利用可视化 ETL实现了数据的过滤、清洗、域映射和格式转换,实现了数据的迁移和深入挖掘。建模平台提供了图形交互的开发功能,并支持少量数据的运行和断点的调试,从而降低了用户的技术门槛。同时,该模型整合了多种开放源码的算法和框架,实现了模型的序列化和重用,能够在文本分析和知识图谱的构建等领域得到应用,能够满足多种场景下的数据挖掘需要。
该平台围绕“数据资产”、“数据标准”和“数据质量”三个核心要素,建立了企业数据目录、数据血缘关系分析和信息版本控制等全维度数据治理机制;通过正向、反向稽核和校验,确保数据质量标准的落实;通过单系统和跨系统的数据质量检验,支撑数据质量的检验;通过预警和报警机制,形成“需求-上线”闭环流程,对数据质量进行持续优化。
在数据安全上,通过 IDSC数据安全中心对数据进行全程监控,利用数据隔离、加密解密、脱敏、堡垒机访问等关键技术,采用数据沙盒技术隔离研究和生产数据;同时,建立了兼顾数据利用效率和数据安全性的日志检索、集群监控和异常预警的安全审计和操作管理系统。配套的 IDH大数据工作台,采用了“管用分离”的专用门户设计,实现了开发人员和运维管理人员的“一站式”开发和管理,实现了用户界面的个性化定制,集成了完整的业务流程,满足了不同岗位人员的实际工作需要。