一、项目背景
围绕崇明区“世界级生态岛”的发展愿景,坚持新发展理念,依托电子政务外网和电子政务云,采用大数据、人工智能等技术,以跨部门、跨系统、跨层级、跨业务的应用场景为抓手,以多源数据的汇聚和融合为手段,建设大数据平台二期,形成崇明全区的大数据枢纽和对外赋能平台,促进全区公共数据整合与应用,提升政府治理能力和公共服务水平,为智慧政府和城乡治理能力现代化注入源源不断的动力。
上海市崇明区大数据平台二期建设项目
二、项目目标
结合崇明区大数据平台一期项目建设现况和未来发展需求,参照市级和区级相关工作要求,进行二期项目建设,进一步提升平台综合能级,更好为“两张网”的建设提供数据和服务支撑。
二期项目建设将主要围绕数据在采集、归集、治理、融合、应用、共享和开放的全生命周期过程,重点聚焦在补足平台能力短板,探索数据共享价值,聚焦数据赋能,实现统一运营运维等目标进行规划建设。
三、项目需求
经过崇明区大数据平台一期项目的规划建设,已完成大数据平台基础框架的搭建,为大数据平台的数据处理和共享交换提供支撑环境。二期项目的建设,将在一期项目的系统及技术架构建设成果之上,不断完善崇明区大数据平台的建设,进一步实现以下具体建设目标:
加强数据归集和共享开放能力
在一期已经完成的资源目录梳理和共享交换建设的基础之上,全面整合汇聚崇明区各部门政务信息资源,实现各部门数据应接尽接,应上尽上。同时,满足政府各部门对数据的使用需求,推动公共数据资源的共享和开放。
丰富和完善崇明区级数据湖建设
通过本次二期项目实施,沉淀数据资产,重点建设一网通办、生态体征、智慧交通、智慧文旅等主题和专题库,加强对数据资产的管理,提高数据质量,丰富和完善区数据湖建设,为崇明两网建设提供强有力的大数据支撑
加强数据供需和应用管理能力
加强政务信息资源集中统一管理的同时,建设数据供需协同子系统,作为政务信息资源目录和交换体系的重要补充,提供面向业务场景的数据供需对接,方便需求部门便捷高效获取数据。
建设统一的数据运营服务平台,全面打造面向大数据中心工作人员和技术厂商人员的统一运营服务和管理体系。
建设数据中台核心能力,赋能多样化应用场景
通过完善政务信息共享的基础设施和平台能力,实现了政务数据的统一汇聚和互联互通。数据资源蕴含着极大的价值,通过建立数据赋能平台,为各委办提供原子能力输出,能有效提升社会治理及公共服务水平,为管理者提供直观生动的监控和决策支持手段。
四、项目内容
(一)计算平台升级
为提高数据采集和共享效率,完善市区级联,更好地服务崇明区相关重点应用,进行计算平台能力升级。重点完善批处理离线采集,增强实时数据采集和流批协同处理能力,以及流批协同的分级采集和处理机制,应对不同的数据需求场景。
实时计算引擎
支持Yarn资源模型,在其上面可以运行多套计算框架,如Spark、MapReduce、Storm等计算框架。
提供丰富数据接口,引入Spark使其更好地适应大数据平台使其可以更快的接入到各类数据存储介质我们需要有针对的性的开发一系列数据接入和数据输出接口,以下接口可以完全融入到Spark的计算框架中去。
提供实时计算能力,可以对大量的数据进行实时处理。支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCPsockets,从数据源获取数据之后,可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。
消息队列
支持消息分组推送、记录每个consumer处理的信息的状态、向Kafka推拉数据、负载均衡和容错。
提供集群管理能力,包括:集群监控、消费/生产情况监控、主题申请与审批流程管控。
搜索引擎
支持对外提供索引存储、弹性搜索,支撑文本和文件数据全文检索。
提供分片及副本能力,能解决单机容量以及容灾的问题。
(二)数据治理引擎升级
鉴于上海市大数据中心在数据治理方面向各区大数据中心提出了明确的考核要求;同时结合近期数据治理工作需求,在已建平台建设的基础上,本次建设对数据治理引擎进行功能升级。
血缘分析升级
建立整个元数据的构建过程。支持当某数据出现错误或者异常时,可通过血缘关系图分析锁定问题产生的源头。
提升血缘分析能力,增强对元数据自动采集、数据源适配、血缘支撑能力。
新增数据轮廓
通过数据标签对数据实体进行刻画,从多角度反映业务实体的特征,对数据进行属性刻画。
数据地图分析升级
支持以业务地图、系统地图不同的视角提供共同对外服务;以管理者地图,让使用者从管理维度获得全局数据视角。
提升数据地图针对基本信息进行综合性分析的能力,如:数据模型、调度管理,会深化对数据内容,业务标识等。
元数据管理
支持采集多种元数据来源,包括:关系数据库、建模、数据集成、BI工具以及客户化元数据等多种元数据来源,系统对采集的元数据进行统一存储到产品知识库并集中管理,为上层元数据应用提供服务。
元数据采集
为能协同实现本期数据治理功能,需与元数据管理子系统进行能力对接,实现对元数据模板映射、任务配置、采集适配器及适配器管理、元数据信息、数据特征、数据版本、变更管理等功能的融合。
市级数据标准接入
数据治理平台具备了数据标准接入的基本功能;在本期建设内容中,会将接入市级数据标准平台的功能下沉和市标准接入。在标准管理方面,承接市级数据标准申请、审核等流程管理;增强区级数据标准审核流程。
同时,需配合各类标准落地所需的程序开发,包括:
根据市区两级数据标准,开发区级数据质量考核程序;
编制本区数据标准质量报告程序。
(三)主题库专题库建设
本期项目重点建设的主题库专题库包括:人口类专题库、法人类专题库、房屋类专题库、标准地址类专题库、一网统管主题库、一网通办主题库、生态体征主题库、智慧交通主题库、智慧文旅主题库,为崇明区各委办应用提供强有力的大数据支撑。
人口类专题库
以市大数据中心人口库数据为基础,按照最大化归集原则,增补区民政局、区教育局、区人社局、区卫生健康委等部门产生、收集的人口相关数据,建设成完整的、准确的、标准的区级人口类专题库,为区内委办局提供统一的人口数据支撑。
法人类专题库
以市大数据中心的法人库数据为基础,按照最大化归集原则,归集区内各单位各部门的法人相关数据,经过统一的清洗、处理、关联整合后,形成完整的、准确的、标准的法人数据库,统一为区内各单位、各乡镇内部业务协同、外部业务协作提供数据共享服务;为公众服务提供全面、综合查询;为后期统计决策提供数据来源和基础统计分析。
房屋类专题库
以市大数据中心房屋数据为基础,结合市人口库、区集镇规划建设、公共设施信息、征地信息、区特殊地理生态环境等数据,建设成完整的、准确的、标准的农房专题库和民宿专题库,为区内各委办提供统一的数据支撑。
标准地址类专题库
以崇明区地址场景为主要数据来源,采集区、镇级各类特色地址数据。标准地址类专题库是基于有地名意义的大型企事业单位名称、交通线名称、纪念地和古迹名称、山名、自然地域名称、境界名称等,与市级基础地名数据库建立起的映射关系。
一网统管主题库
一网统管主题库是城市运行数据的重要组成。通过进一步汇聚城市生产、生活、治理的各类数据;加强主题库建设,为各单位进行一网统管建设、应用场景开发奠定数据基础。
一网通办主题库
一网通办是依托一体化在线政务服务平台,通过规范网上办事标准、优化网上办事流程、搭建统一的互联网政务服务总门户、整合政府服务数据资源、完善配套制度等措施,推行政务服务事项网上办理,推动企业群众办事线上只登录一次即可全网通办。
智慧文旅主题库
建设智慧文旅主题库,归集旅游景区的相关数据,实现智慧文旅信息共享,提升旅游景区资源调度、文旅重大事件执行系统等能力。前期以归集花博会所需相关数据为主,为智慧花博建设进行数据支撑。在后花博时代,聚焦崇明全域文化旅游,继续为崇明智慧文旅的建设发挥重要作用。
生态体征主题库
生态体征主题库,是以上海市大数据中心生态环境数据为基础,结合上海市法人库、证照库等数据,增补区内各个部门产生、收集的生态环境相关数据,建设成完整的、准确的、标准的生态体征主题库,为区内各委办局及公众提供统一的数据支撑。
智慧交通主题库
通过对人口数量、居住人群、工作人群、流动人群及停车场相关数据进行分析管理,应对区内人员流动可能产生的交通问题,为政府部门提供辅助决策依据,提前进行相关规划。通过对不同类型人员和停车场各类数据进行持续跟踪监测,建立人员流动情况模型、停车场使用情况模型,对各类交通资源需求量进行预测。根据整体预测的情况,综合分析优化方向,提升城市道路交通管理能力。
(四)地图数据管理
数据资源接入与入库
对崇明地区的底层地图进行接入,包含二维地图、影像电子地图数据、对专题数据整理并入库,包含管线数据、规划类专题数据等,形成具有本地特色和应用特点的地理信息库。通过地理信息库的建立,对崇明的底层地图数据进行统一管理,具备地理数据的汇聚、治理、融合和管理工作等功能。
数据资源治理与融合
在地理信息库建立的基础上,按照一定的标准和规则,对基础地理信息和专题地理信息进行提取、整合和重组,生成满足政府部门和社会公共需求的地理空间框架要素数据,通过建设地图数据服务目录、各类地图数据的集成和数据共享,实现地图数据资源的可视、可控、可共享的数据资源体系,形成唯一的、权威的崇明地图数据管理平台。
实施流程
底层地图数据主要从市级和区级自然资源与规划局获取。目前正射影像数据
(DOM)从自然资源与规划局归集,对这类数据在进行整理后可以直接入库。城市地下管线数据从住建委获取,经过处理后入库。其它各类专题数据需要从相应委办局获取原始数据后,进行转换坐标系并整合、入库。
场景应用
依托统一的地理信息库,实现全区底层地图数据的汇聚、治理、融合和管理,通过为区内各委办局提供地图数据的共享服务,突出以生态、农业为主要领域的数据可视化展示服务。
(五)基础数据管理
将崇明区各委办局的公共资源数据进行常态化数据供需管理,保障数据应归尽归。此外,需对平台安全体系优化,优化平台多租户管理能力、数据安全分级分类,更全面的保障平台整体数据安全。
数据供需协同
数据供需协同系统作为政务信息资源目录和交换体系的重要补充,提供面向部门日常业务、堵点问题、营商环境、便民服务等各类业务场景进行数据共享的数据需求提出、数据需求分析、数据需求分发、数据需求确认形成数据责任、数据责任完成、共享任务实施、共享任务完成,同时开展共享任务实施,将多部门的数据资源进行有效融合和统一提供给数据需求方,方便需求部门便捷高效获取数据,提升数据共享。
平台多租户管理能力优化
支持平台多租户权限与KDC、RM、HIVE、HDFS组件的权限分配管理打通,实现在页面上可管理此类组件以及底层平台多租户自身资源。
数据安全分级分类
根据数据自有属性或者业务属性,对数据进行定级处理,不同的级别对应不同程度的加密处理手段,从而保证数据的存储安全。为加强数据的安全管理,对数据进行了安全级别的判定,同时提供在线和离线的定级能力,满足不同的业务需求,并保证级别判定的正确性。
(六)数据赋能平台建设
通过搭建数据赋能平台,更好地为崇明全区委办局业务系统应用提供数据分析与共享服务,提升数据使用价值。数据赋能平台包括数据分析服务工具集,提供可视化、交互式的数据分析能力;同时提供统一的接口服务能力,并为算法开发人员提供一站式的AI算法开发服务支撑,实现全模型生命周期管理。
数据分析服务能力
支持数据抽取和导出模块、稳定快速的消息队列模块、高效的数据计算模块、个性化的任务调度模块、统一的监控告警能力。
统一接口服务
建立数据服务网关,提供高性能、高可用的数据接口托管服务,为数据共享及数据服务提供基础支撑。
AI算法开发
AI算法开发模块为算法开发人员提供一站式的服务支撑,实现全模型生命
周期管理。主要提供算法开发、模型训练、模型评估、模型管理、资源管理等功能。
(七)数据服务原子能力建设
结合区委办局的数据分析需求,进行相关原子能力的开发、封装、注册、发布和管理工作,在生态、旅游、农业、生活等应用场景方面进行数据共享和应用支撑。数据服务原子能力建设主要支撑实时计算的数据共享需求,提供实时数据输出。
生态原子能力
生态原子能力包括对大气环境、水环境、土壤情况进行监测感知、分析相关单位/个人处罚信息,帮助相关部门掌握重点