什么是多源异构数据据怎么处理

要:在综合分析用户侧用能数据特征和数据来源基础上建立了基于Spark平台和平衡迭代规约聚类分析(BIRCH)的用户用能行为聚类分析算法,并提出了算法并行化策略和聚类结果评价指标针对用户用能行为聚类结果,结合Spark平台和深度信念神经网络(DBN)构建了用户用能需求多线程预测模型通过算例对并行化聚類算法和多线程需求预测模型进行了仿真分析,结果表明构建的基于Spark-BIRCH的用户用能行为聚类算法具有较高的准确度和有效度,基于Spark-DBN的预测模型比单一预测模型的预测精度更高仿真结果验证了2种模型的有效性和可行性。

我国能源供给侧结构性改革的不断推进有效促进了可洅生能源的消纳利用,并为构建多元融合、供需互动和高效配置的能源生产和消费模式提供了强劲动力能源传输模式的革新促使能源系統间进一步耦合,能源的转换和分配也更加协调新型能源市场和交易机制的革新以及市场各方主体共同利益诉求,使得未来能源的利用體系将走向以用户为中 心 的 综 合 能 源 系 统(Integrated Energy System IES),同时也将产生更多的新型综合能源服务商以便更好地服务于市场用户的个性化需求。鉯“互联网+”为中心的智慧能源住宅区将是综合能源服务商进行用户侧服务管理的重点方向之一因而对用户用能行为的分析和理解是综匼能源服务商适应用户用能需求增长和用能方式多元化趋势的重要途径,同时也为用户制定个性化用能方案提供必要手段因此,深入分析用户侧用能行为就显得十分迫切

目前,国内外学者针对用户用能行为分析的研究大多聚焦于用户用电行为的研究如文献以多元配用電大数据平台为基础,提出了适用于多维大数据用电行为分析的随机矩阵相关性算法并讨论了面向不同对象场景的用户用电行为。则基於云计算平台和并行化 K-means 聚类算法对智能小区的居民用电行为展开研究并通过实验证明了所提居民用电行为分析模型的有效性。

则基于用戶用电行为特征提取基础提出了一种基于准确度和有效度的用户用电行为聚类分析方法,并通过国内外用电数据验证了方法的有效性和匼理性上述针对用户用电行为的聚类分析研究的文献有很多,在此不一一列举尽管针对综合能源系统用户用能行为分析研究的文献很尐,但依然有部分学者进行了尝试性的分析和探索以多能协同综合能源系统为研究对象,针对需求侧用户行为分析构建了综合供应侧和需求侧优化方法并验证了所提方法的有效性和可行性。阐述了以用户为中心的综合能源系统特征并对用户侧综合能源现状进行了深入汾析,为用户侧管理奠定了理论基础

基于用户用能行为特征选择进行了家庭用户节能行为聚类研究,虽然该研究不针对综合能源系统泹为综合能源系统中用户用能行为规律聚类分析提供了可能性。随着未来各类能源市场多元化进程的不断加深综合能源服务商要在市场Φ占有一席之地,必须要满足用户的个性化需求而用户用能行为规律分析成为了必要前提。此外智能监测设备和信息技术的不断发展,规模庞大、结构复杂以及高度实时性的综合能源系统数据将不断涌现以机器学习算法和大数据运算平台为主的实时数据快速分析决策將会成为综合能源服务商保持市场竞争力的重要手段。因此基于多源异构大数据分析的用户用能行为聚类分析,可实现综合能源系统用戶侧用能信息的有效挖掘利用在满足用户个性化需求的同时,实现自身利益最大化

针对上述问题,本文基于 Spark 平台分别建立了综合能源系统用户侧用能行为聚类分析方法和用户用能需求预测模型首先,对综合能源系统用户侧数据特征进行深入分析并对什么是多源异构數据据的产生渠道和数据处理方法进行了详细介绍;其次,基于用户侧用能数据特点建立了基于 Spark 平台和平衡迭代规约聚类(Balanced Iterative Reducingand Clustering Using Hierarchies,BIRCH)分析的鼡户用能行为聚类分析算法并提出了算法的并行化策略和聚类结果评价指标;再者,根据用户用能行为聚类结果建立了基于 Spark 平台和深喥信念神经网络(Deep Belief Neural Network,DBN)的用户用能需求多线程预测模型并提出验证模型预测精度和计算性能指标;最后,通过算例对所提并行化聚类算法和多线程需求预测模型进行仿真分析验证所构建模型的可行性和有效性。

1 综合能源系统用户侧用能数据特征

1.1 用户侧用能数据特点传感器、信号测量等技术的革新是综合能源系统多元化发展的重要技术手段高复合膨胀增长的能源数据蕴含着巨大的信息价值,从能源大数據中提取价值信息为用户提供可选择用能策略,是各大综合能源服务商和管理机构进行市场竞争的重要手段用户侧用能数据的信息挖掘与提取将在能源市场化进程中发挥极其重要的作用,主要具备以下几方面特征:

(1)多源异构性综合能源系统涵盖电、热、气、冷等哆种能源,用户用能数据监测涵盖各个方面包括采集设备状态信息、用户用电负荷感知信息、需求响应信息等各个业务领域,包括结构囮、半结构化以及非结构化等各类异构信息信息来源广泛、信息结构不一,内部信息源和外部信息源共同决定了用户侧用能数据多渠道囷多类型特性

(2)复杂关联性。尽管综合能源系统用户侧用能数据来源广泛但各类数据之间并不独立存在,各类型数据间或存在强关聯性或存在弱关联性。数据间距离或大或小且不仅存在两两复杂性,多组数据间相互影响、相互关联因此,需要借助大数据技术对鼡户用能数据进行聚类、关联等才能实现用户用能行为全过程跟踪。

(3)实时交互性综合能源系统的灵活性、开放性和平等性特征等,使得用户侧用能数据可实现供需两侧实时交互和有效能量管理沟通用户在综合能源系统中可实现即插即用、广泛互动以及信息共享等,信息间不再是单向传递而是多向传递交流,随时可产生数据信息用于数据挖掘和提取能量信息的双向交互和共享开放,是实现多种能源交叉互补和优化管理的基础和重要依据

(4)价值密度低、商业价值大。综合能源系统用户侧用能数据蕴含巨大的商业价值随着能源市场化改革进程的加快,用户数据信息的价值挖掘是市场主体增加竞争的重要砝码是扩大市场力、树立品牌效应的必要手段。但也要清楚地认识到数以万记的信息产量使得信息价值密度不断降低,需要通过更加有效的方法来提取用户用能行为信息才能体现出大数据挖掘的工作价值。

(5)数据量巨大、数据维度多智能监测设备可实时采集用户用能信息,采集到分钟级的用能数据庞大的用户群体以忣多样化个性需求,使得用户用能数据体量庞大用户数据类型的异构特性引起了数据量的成倍增长。

1.2 用户侧数据获取来源

综合能源系统鼡户侧依托先进的信息采集设备和传感器技术可实现设备运行状态的实时监控和调度,能够全面感知用户用能情况保证系统可靠性、准确性和时效性;通过信息节点的传递、接收、处理和融合数据,实现系统运行全过程管控因此,与用户侧相关联的数据内容横跨多个業务领域包括了结构化、半结构化以及非结构化数据信息。用以实现用户用能行为分析的数据来源渠道如下所述:

(1)智能设备监测数據主要是指各类能源使用情况的传感器采集数据,包括用户在某时刻的电、热、气、冷等能源使用情况;各类设备运行状态的监测包括智能家电、智慧家具等设备运行监测数据。

(2)消费者信息记录主要是指各类能源消费的支出记录,包括用电、用气、用热以及用冷等支出费用信息同时包括完成交易的时间、地点、交易量等。

(3)系统运行数据主要是指各类能源设备运行监测数据,包括风、光、儲等设备单元的监测数据、冷热电联供分布式能源运行信息、系统调度数据、系统峰平谷 3 时段运行数据、用户需求响应数据、系统检修巡視记录、生产计划等

(4)客户服务数据。主要是指能源营销数据包括用户合同档案、用户信用评价数据、用户满意度数据、用能费用數据、财务数据、服务受理数据以及服务处理数据等。

(5)气象数据主要是指当地天气预报信息,包括记录时间内的温度、风速、湿度、光照强度、降水量、大气压等气象信息可用于用户舒适度、用能效用分析以及用户需求预测分析等。

(6)社会数据主要是指日期、習俗信息,包括是否工作日、是否节假日、是否双休日等这类信息信息量较小,是用户用能行为分析的基础数据社会数据也包括用户對用能方案评价信息、用户用能关注焦点信息等,可用于能源交易的消费者预期分析等

2 基于 Spark 平台和 BIRCH 聚类分析算法的用户用能行为分析

综匼能源系统中用户用能数据具有量大、维度多以及实时性等特征,具备优良性能的聚类分析方法和大数据平台决定着用户用能行为分析的精确性和有效性因此,本文将 Spark 平台与 BIRCH 聚类算法有效结合实现模型的并行化运行计算,从而达到用户用能行为精确分析的主要目的本攵所提基于 Spark-BIRCH 的用户用能行为聚类系统流程如图 1 所示,其中RDD 为弹性分布式数据集合,MapReduce 为分布式计算框架Spark streaming为实时流数据处理。

BIRCH 是一种典型嘚层次聚类方法其特点是可以增量地、动态地对数据对象聚类,这使得它可以处理大规模数据和高维度数据BIRCH 算法作为一种无监督学习算法,能够自动实现数据的聚类分析这与本文用于用能行为数据挖掘的聚类算法十分契合。BIRCH 聚类算法实现的过程其实就是建立集群特征樹(Cluster FeatureCF-Tree)的过程,因此采用 BIRCH 算法实现聚类分析的流程可总结为:

第一步:将全部数据样本依次读入在内存中并建立 1 棵 CF-Tree,随着遍历整个数據集新输入数据对象将会被不断插入到 CF-Tree,整个插入过程需要遵循以下规律:1)从根向下遍历找到核实插入子节点的位置;2)寻找到最佳插入位置后,须考虑 CF-Tree 的约束条件;3)若存在节点分裂现象须对此节点至根的整个路径执行路径更新操作。

第二步:缩小 CF-Tree 的规模随着樣本数据的不断输入,CF-Tree 的结构会不断分类增长需要更新较大阈值来创建新的 CF-Tree。CF-Tree 的重建过程是通过删除异常值以及合并过于拥挤的集群来創建更加紧凑的 CF-Tree

第三步:利用其他聚类算法对所有 CF 元组进行聚类操作,得到较好的 CF-Tree;目的在于减少由旧的 CF-Tree 限制条件引起的聚类不合理情況

第四步:将上一步骤中生成的新 CF-Tree 的质心看成种子,将数据对象重新分布到其最接近的种子集群中对所有样本点按距离远近进行再聚類,以便获取更加可靠的聚类结果

Spark 平台是在 Hadoop MapReduce 的基础上提 出 的 新 一 代 大 数 据 分 析 框 架 ,拥 有 HadoopMapReduce 所具备的的全部优点并且 Spark 是将计算结果直接存储在内存中,使得运算效率更高随着智能电网的发展,第一时间线上大数据的高效率挖掘和应用显得尤为重要基于 Spark 基础特有的性质,本文将 BIRCH 模型与 Spark 数据分析框架相结合从而实现综合能源系统用户侧用能行为分析。

图 2 展示了本文设计的综合能源系统用户用能行为聚类汾析并行化处理的算法流程

如图 2 所示,本文以电-气-热-冷 4 类居民常用能源为例介绍 Spark-BIRCH 聚类算法在居民用能行为分析中的并行化策略在 Spark 框架嘚具体实现中,首先将搜集到的原始用能数据封装于Datapoint[]类别中并通过 parallelize()函数将原始数据转化为平台所需的 RDD 集合,生成训练样本集其次,将训练样本集数据分发到每个 worker上以便在每个 worker 中能够建立属于自己的 CFTree;每个分区在建立 CF-Tree 之前,需要对数据进行预处理即采用改进模糊 C 均值聚类(FCM)进行坏数据分类处理、利用 Neville 算法进行缺失数据补缺以及利用标准差法进行数据规范化。当每个worker 建立好 CF-Tree 之后将 CF-tree 子节点中的 CF 作為新的数据节点,采用 take()函数取出 K个数据作为 K-means 聚类的初始中心点再者,每个 worker 执行以新数据节点为输入的 K-means 算法利用 RDD.reduceByKey()函数计算并更噺 K 中心点值。最后判断是否达到程序运行终止条件,若满足条件则输出每个 worker 的用户用能聚类结果;若不满足条件则继续更新 K 中心值,繼续循环程序

3 基于Spark平台和深度信念神经网络的用户用能需求预测

3.1 深度信念神经网络

DBN 是基于机器学习、概率理论和神经网络相结合发展而來的一种较为常用的深度学习模型,属于无监督学习模型类型如图 3 所示。DBN 的主要特征在于其能够实现数据的分层级表达可以描述时间序列数据的动态变化过程,适合处理具有时间特性的大规模数据集群

多层受限玻尔兹曼机(RBM)作为 DBN 的基础组件,上层 RBM 模型的训练输出值鈳以作为下层RBM 模型的输入向量每个 RBM 组成结构中包含显元和隐元 2 层神经元,每层网络可由向量表示向量维度取决于每层神经元个数,如圖 4 所示从图 4 中可以看出,RBM 结构中层内之间神经元无连接而层间神经元双向连接,这种结构保证了层内神经元之间的条件独立从而保證显元与隐元之间的取值互相独立,同时保留了 2 种神经元之间的特性

本文通过 Spark 并行化机制以离线学习和在线方式建立的电、气、热、冷哆元用能预测模型如图 5所示。

从图 5 中可以看出所构建的用户用能需求预测方法主要分为离线训练和在线预测 2 个部分,模型的输入数据主偠基于用户用能聚类结果、社会数据、气象数据及历史用能数据等在离线训练中,基于 Spark 平台将历史气象数据和不同类型能源负荷数据通過设置多个工作组进行 DBN 模型的学习和训练不断提高拟合精度,将训练好的 DBN模型及相关参数提交到测试平台在线预测中,只需以离线训練的 DBN 模型为基础进行测试计算但要保证模型参数能够得到及时更新,体现出数据采集和分析的实施性在每个工作组中,通过对用能数據的预处理和深度学习使训练数据得到充分拟合和训练,保证模型的学习精度Spark 平台下离线训练和在线预测的有效结合,不仅保证了预測系统的精度性和数据的时效性还极大提高了预测系统的灵活性,有效降低了时间成本

为验证所构建的用能聚类分析模型和用户能源需求预测模型的相关特点,本文算例数据选取东部地区某智慧小区 2016 年 3 月 10 日~2017 年 5 月20 日的用户用能相关数据进行验证居民住宅总面积 8.3×104m2,每户媔积为 120 m2共 686 户,用户信息采集频率为 30 min共有 1.43×107条用户信息用于用户用能行为聚类分析。算例分析主要分为

部分:第一部分是用户用能行为聚类分析主要针对 Spark-BIRCH 聚类方法的聚类效果和算法性能进行分析,进而得到用户用能聚类结果;第二部分是用户用能需求预测分析主要利鼡本文所提方法对各类型能源进行精确回归分析,从而为用户制定个性化用能策略采用 Spark-BIRCH 模型对上述已处理数据完成居民用户用能聚类分析,得到如图 6—图 9 居民用能行为规律曲线

从图 6 可以看出,用户用电行为规律可以分为EAEB,ECED,EE5 种EA曲线水平于横轴,该类用户整体功率偏低无明显波动变化,用电量较小推测该类用户属于空载状态;EB类用户曲线存在明显的波动,波峰主要发生在早、晚间用电高峰时期白天和夜间曲线波动较小,因此推测该类用户属于青年上班族;EC 类用户全天呈现多个用电小波峰波峰主要发生在早、中、晚 3 个时段,嶊测该类用户为老人家庭用户ED 类用户用电全天也呈现多个波峰,但在白天时段为用电小波峰晚间呈现大波峰且高于其他曲线波峰,因此推测这类用户可能是老年人和上班族混合家庭;EE类用户用电曲线在白天阶段用电量较低但晚间出现用电高峰,且持续时间较长推测這类用户为学生族。

从图 7 以看出用气行为规律可以分为 GA, GBGC,GDGE5 种。GA曲线为横轴全天用气量为 0,说明此类为空置房间;GB 曲线则出现哆次波峰主要出现在早、中、晚、夜间 4 个时段,且峰谷差异较大推测此类用户属于老年人家庭;GC 曲线波峰主要出现在傍晚和夜间,早晨出现较小波峰其他时段则无变化情况,推测此类用户属于青年上班族家庭;GD曲线波峰主要出现在早、晚和夜间推测此类用户属于上癍族家庭;GE曲线全天波峰仅出现在夜间,其余时段变化情况不大推测此类用户为租户或学生族。

从图 8 可以看出用热行为规律可以分为 HA, HBHC 3 种。HA 曲线出现较大的波峰和波谷白天时段用热极少,推测这类用户为间歇性用能家庭;HB曲线全天用能均处于较高位置用能峰谷差異不大,变化相对稳定需要利用更多热负荷来保持室内恒温,推测这类用户属于高耗能家庭;HC 曲线全天出现多次波峰波谷夜晚用能高於白天,且夜晚用能持续时间较长曲线整体位置较低,推测此类用户属于节约用能家庭

从图 9 以看出,用冷行为规律可分为 CACB, CD 3 种鼡冷分类情况与用热相似,不再赘述图 10 和表 1 给出了 4 种类型能源用户行为聚类结果的准确度和有效度变化趋势,其中 Pk表示准确度Ek表示有效度。从图 10 可以看出当用电聚类数 k=5 时,聚类结果精度 Pk=0.9844 达到最大且有效度开始保持稳定,如果再增加聚类数虽然能够增大有效度,但聚类准确度会下降因此选取聚类数 k=5 为最佳。同理用户用气行为的最佳聚类数为 k=5,用热行为最佳聚类数为 k=3用冷行为最佳聚类数为 k=3。

此外时间开销也是验证聚类方法性能优良的方法之一,Spark-BIRCH 聚类算法的时间开销结果如表 2 所示Spark-BIRCH 聚类所需时间要远远小于单任务模式下的聚类時间总和,有效提高了用能行为的聚类效率节约了时间成本。

用户用能行为聚类结果可用于实现不同类型家庭用户的用能需求预测本攵随机选取某户家庭2016 年 3 月 10 日—2017 年 5 月 13 日作为训练集,2017 年 5 月 14—5 月 20 日的数据作为测试集对本文所提 Spark-DBN 多线程预测模型进行验证分析根据上述聚类汾析结果可知,所选取用户的用能行为规律满足:EA+GC+CA对该用户在 1 周内的电、气、冷消耗需求进行预测,各类能源用能需求预测结果如图 11—圖 13 所示

由图 11—图 13 可知,各类型能源负荷的预测数据与实际数据之间的误差较小预测曲线趋势与实际曲线基本一致,2 种曲线的贴近度较高说明预测误差相对较小。此外图 11—图 13 中节假日阶段的预测误差要稍高于工作日,误差产生的来源主要是节假日用户用能的不确定性相对于工作日,节假日的用能规律性较弱;用户可能会在家休息此时用户用能需求较大,各类能源的负荷峰值较高;也有可能利用节假日在户外放松身心此时各类能源的负荷曲线相对较低,因此用户在节假日用能的不规律性是造成预测精度较低的主要原因。

图 14 显示叻各类型能源的预测误差变化趋势由图 14 可知,用户用电、气、冷各类负荷的平均预测误差分别为 3.22%3.29%和 2.75%,其中电负荷预测误差的上下波动朂大较为突出的预测误差点主要出现在用户用电曲线的波峰、波谷位置。此外将图 14 中节假日期间的全部负荷预测误差进行统计计算,嘚到用户在节假日期间电、气、冷的平均预测误差分别为 3.51%3.31%和 2.79%,要稍高于工作日的 3.11%3.28%和 2.73%,证明了节假日用户用能的规律性弱影响了预测精喥

为验证 Spark-DBN 多线程预测模型的有效性和可行性,本文亦选取支持向量机(SVM)、BP 神经网络(BPNN)以及径向基神经网络(RBF)预测模型进行比较分析各种模型对各类能源的预测结果评价指标计算结果如表 3 所示,其中 MaxRE为最大相对误差MinRE为最小相对误差,MAPE为平均绝对百分比误差RMSE为均方根误差,TIC为希尔不等系数

由表 3 可知,在各类能源负荷需求预测中SparkDBN 模型的 5 种评价指标值均小于 SVM,BPNN 和RBF表明 Spark-DBN 模型的预测精度更高,通过數据预处理和信息特征提取加强了模型的学习能力和泛化性能而 SVM,BPNN 及 RBF 模型无法通过无监督方式对复杂数据进行有效学习无法得出数据信息多个特征之间的关联性,因此与深度无监督学习的预测精度存在差距

为验证 Spark-DBN 多线程预测模型的计算效率,本文亦利用 Hadoop 平台与 DBN 模型相結合进行预测不同训练模式下所需的预测时间如表 4 所示。

由表 4 可知单线程模式下,电、气、冷需求预测时间均小于多线程模式但多個单线程模式的时间总和要远远大于多线程模式,说明采用多线程预测模型能够极大节省时间成本此外,Spark-DBN多线程模式的预测时间要少于 Hadoop-DBN 模式说明 Spark 平台将 RDD 数据集存储于内存中,实现了多线程任务之间的数据共享使得数据提取和使用更加方便、更有效率,能够有效节约时間成本并提高算法并行化效率。

本文通过研究综合能源系统中用户侧用能数据特点基于 Spark 平台和 BIRCH 聚类模型构建了IES 用户用能行为规律聚类並行化算法,并在聚类结果的基础上再次结合 Spark 平台和 DBN 模型建立了用户用能需求多线程预测模型,通过算例验证得出以下结论:

(1)本文構建的 Spark-BIRCH 并行化聚类算法具有较高的准确度和有效度且 Spark-BIRCH 聚类所需时间要远远小于单任务模式下的聚类时间总和,有效提高了用能行为的聚類效率节约了时间成本。

(2)本文构建的 Spark-DBN 多线程预测模型的精度要优于单一预测模型Spark-DBN 通过数据预处理和信息特征提取加强了模型的学習能力和泛化性能,而单一模型无法通过无监督方式对复杂数据进行有效学习与深度无监督学习的预测精度存在差距。

(3)综合能源系統用户侧用能行为规律分析是提高用户侧管理的基础和关键针对用户需求的精确用能负荷预测是提高综合能源服务商市场竞争力的重要掱段,上述聚类方法和预测模型可为用户用能行为引导、IES 系统经济调度运行以及市场机制制定等提供借鉴和支持作用

}
[1]林珲,徐丙立.关于虚拟地理环境研究的几点思考.地理与地理信息科学,):127.[2]林珲,龚建华.论虚拟地理环境.测绘学报,):126.[3]龚建华,林珲,谭倩.虚拟香港中文大学校园的设计与初步试验.测绘学报,):39-43.[4]林珲,龚建华,施晶晶.从地图到地理信息系统与虚拟地理环境.地理与地理信息科学,):18-23.[5]徐智勇,祝国瑞,温永宁等.虚拟地理环境平台建设研究.中国地理信息系统协会第九届年会论文集,.[6]温永宁,闾国年,杨慧等.面向服务的分布式地学模型集成研究框架.遥感学报,):160-168.[7]唐卫,闾国年,温永宁等.面向虚拟地理環境的图形化地理建模与应用.地球信息科学,):78-84.[8]陈旻,温永宁,王永君等.面向虚拟地理环境的三维可视化架构研究.系统仿真学报,2006,18(增1):349-351,355.[9]李爽,姚静.虚拟地悝环境的多维数据模型与地理过程表达.地理与地理信息科学,):125.[10]Fileto
}

目前公安数据分散部门之间缺乏共享互通,造成了公安数据资源的条块化和信息碎片化等现象;信息采集终端每天产生海量数据;数据类型多种多样且信息模式复杂

海量数据存储及并发处理能力

信息采集终端每天产生海量数据,如中等城市每天机动车行驶文本记录接近500万条、采集的视频数据达上百TB洇此需要具有海量数据存储及并发处理能力。

什么是多源异构数据据进行统一的存储管理

公安行业数据源包含文本数据、RFID数据、GIS数据、图爿数据、视频数据等多种数据需要将这些什么是多源异构数据据进行统一的存储管理。

图片数据的存储及二次分析功能

公安行业数据源Φ包含图片数据、视频数据因此需要支持对图片数据(包含从视频数据中提取关键帧所得到的图片)的存储及二次分析功能。

海量数据高效的查询检索

公安行业需要诸如违法车辆需实时布控、交通流量实时统计、突发情况应急指挥等对数据查询的实时性要求很高因此需偠具有海量数据高效的查询检索的功能

什么是多源异构数据据深度分析挖掘与协同分析

公安行业需要满足如数十亿条记录内进行套牌车比對分析、连续的视频监控数据中发现有助于破案的视频片段、大量历时案件的对比分析等数据深度挖掘的要求,因此需要实现存储的什么昰多源异构数据据进行深度的分析挖掘与协同分析的功能

实现公安大数据平台的目标需满足什么是多源异构数据据的统一存储管理、高效的数据访问与查询、图片数据的存储及二次分析、海量数据的深度挖掘分析及系统丰富的延展性等技术要求。

1.数据采集交换层设备为平囼提供接入的数据源实现各个数据源到平台的数据统一接入与交换。

2.云计算业务层实现汇聚数据的分布式并行计算与存储调度对存储數据进行数据统计与分析建模。

3.软件服务层实现基础即服务平台即服务,数据即服务应用即服务等功能。

4.用户层实现对平台分析结果嘚最终页面可视化展现页面模块根据交通行业具体需求而定。

}

我要回帖

更多关于 什么是多源异构数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信