大数据信息处理分为教学设计有哪几个环节节,主要受到哪些限制

和阿里云的其他云计算服务一样,ODPS也是采用HTTP RESTful服务,并提供Java SDK、命令行工具(Command Line Tool,CLT)和上传下载工具dship,以及阿里云官网提供统一的管理控制台界面。
本文来自《程序员》与阿里云联合出品的《凌云》杂志。
作者:李妹芳 张云远
大数据计算服务是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,主要的功能组件有如下几个。
■Tunnel服务:数据进出大数据计算服务的唯一通道,提供高并发、高吞吐量的数据上传和下载服务。
■SQL:基于SQL92并进行了本地化扩展,可用于构建大规模数据仓库和企业BI系统,是应用最为广泛的一类服务。
■DAG编程模型:类似Hadoop MapReduce,相对SQL更加灵活,但需要一定的开发工作量,适用于特定的业务场景或者自主开发新算法等。
■Graph编程模型:用于大数据量的图计算功能开发,如计算PageRank。
■XLIB:提供诸如SVD分解、逻辑回归、随机森林等分布式算法,可用于机器学习、数据挖掘等场景。
■安全:管控大数据计算服务中的所有数据对象,所有的访问都必须经过鉴权,提供了ACL、Policy等灵活强大的管理方式。
ODPS采用抽象的作业处理框架将不同场景的各种计算任务统一在同一个平台之上,共享安全、存储、数据管理和资源调度,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。
和阿里云的其他云计算服务一样,大数据计算服务也是采用HTTP RESTful服务,并提供Java SDK、命令行工具(Command Line Tool,CLT)和上传下载工具dship,以及阿里云官网提供统一的管理控制台界面。在阿里内部,有多个团队基于大数据计算服务构建交互界面的Web集成开发环境,提供数据采集、加工、处理分析、运营和维护的一条龙服务。基于大数据计算服务进行应用开发,最直接的是使用CLT以及dship等工具。如果不能满足需要,也可以进一步考虑使用大数据计算服务 SDK或RESTful API等进行定制开发,如图1所示。
如果你的业务发展需要一个足够强大、能够开箱即用的大数据处理平台,并且你不想花费太多的精力去关注这一切如何实现与运维,那么大数据计算服务是一个非常理想的选择。
规模的挑战
在DT时代,数据是宝贵的生产资料,但不断扩大的数据规模给大数据计算服务带来了极大的挑战。在阿里内部就曾直面这种情况:在可以预见的时间内,单个集群的规模无法再容纳所有的数据。
解决方案是扩大单集群的规模,同时让应用系统可以管理多个集群。在这个背景下,大数据计算服务作为一个海量数据的处理平台,结合5K项目开发了多集群管理的功能,使得数据处理的规模跨上了一个新的台阶。当单个计算集群的存储或计算容量不足时,将数据重新分布到新的集群上。更重要的一点是,这种跨多个集群的能力,对上层应用是透明的,用户在运行SQL或者Graph模型时,不必了解数据是分布在哪个物理集群上,如图2所示。
网站日志分析
这里,我们将基于最常见的网站日志分析这一应用场景,实践如何通过大数据计算服务来构建企业数据仓库,包括数据的导入导出以及清洗转换。其ETL过程与基于传统数据库的解决方法并不完全一致,在数据传输环节并没有太多的清洗转换,这项工作是在数据加载到大数据计算服务后,用SQL来完成的。在数据加载到大数据计算服务后,可以充分利用平台的水平扩展能力,处理的数据量可以轻松地扩展到PB级别,而且作为一个统一的平台,除构建数据仓库外,在大数据计算服务中利用内置的功能即可进行数据挖掘和建模等工作。在实际工作中,数据采集、数仓构建和数据挖掘等都是由不同的团队来完成的,针对这一情况,大数据计算服务中提供了完善的安全管理功能,可以精确地控制每个人可以访问到的数据内容(下例中为突出主要的过程,忽略了用户的授权管理)。
数据来源于网站酷壳(CoolShell.cn)上的HTTP访问日志数据(access.log),格式如下:
$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_ agent" [unknown_content]
一个典型的企业数据仓库通常包含数据采集、数据加工和存储、数据展现等几个过程,如图3所示。
真实的网站日志数据中不可避免地会存在很多脏数据,可以先通过脚本对源数据做简单的处理解析,去掉无意义的信息,例如第二个字段“ - ”。在数据量比较大的情况下,单机处理可能成为瓶颈。这时可以将原始的数据先上传到大数据计算服务,充分利用分布式处理的优势,通过大数据计算服务 SQL对数据进行转换。
在大数据计算服务中,大部分的数据都是以结构化的表形式存在的,因此第一步要创建ODS层源数据表。由于数据是每天导入大数据计算服务中,所以采取分区表,以日期字符串作为分区,在大数据计算服务 CLT中执行SQL如下:
假设当前数据是这一天的,添加分区如下:
ALTER TABLE ods_log_tracker ADD IF NOT EXISTS PARTITION (dt='');
解析后的数据文件在/home/admin/data//output.log下,通过dship命令导入ODPS中,如下:
$ ./dship upload /home/admin/data//output.log ods_log_tracker/dt='' -dfp "yyyy-MM-dd HH:mm:ss"
数据加工和存储
在ods_log_tracker表中,request字段包含三个信息:HTTP方法、请求路径和HTTP协议版本,如“GET / articles / 4914.html HTTP / 1.1”。在后续处理中,会统计方法为GET的请求总数,并对请求路径进行分析,因而可以把原始表的request字段拆解成三个字段method、url和protocol。这里使用的是ODPS SQL内置的正则函数解析的字符串并生成表dw_log_parser,如下:
与传统的RDBMS相比,ODPS SQL面向大数据OLAP应用,没有事务,也没有提供update和delete功能。在写结果表时,尽量采用INSERT OVERWRITE到某个分区来保证数据一致性(如果用户写错数据,只需要重写该分区,不会污染整张表)。如果采用INSERT INTO某张表的方式,那么在作业因各种原因出现中断时,不方便确定断点并重新调度运行。
ODPS SQL提供了丰富的内置函数,极大方便了应用开发者。对于某些功能,如果SQL无法完成的话,那么可以通过实现UDF(用户自定义函数)来解决。例如希望将ip字段转化成数字形式,从而和另一张表关联查询,可以实现UDF,如下:
编译生成JAR包udf_ip2num.jar,将它作为资源上传到ODPS,然后创建函数并测试,如下:
表dual(需要用户自己创建)类似于Oracle中的dual表,包含一列和一行,经常用于查询一些伪列值(pseudo column),是SQL开发调试的利器。
对于较复杂的数据分析需求,还可以通过ODPS DAG(类似MapReduce)编程模型来实现。由于篇幅限制,这里不一一介绍了。
应用数据集市往往是面向业务需求对数据仓库表进行查询分析,例如统计基于终端设备信息的PV和UV,生成结果表adm_ user_measures。R是一款开源的、功能强大的数据分析工具。通过R来绘图,展示结果报表可以有两种方式:一是通过dship命令将数据导出到本地,再通过R展现结果;二是在R环境中安装RODPS Package,直接在R中读取表中的数据并展现。在RStudio中,基于小样本数据统计的展现结果如图4所示。
迁移到ODPS
Hadoop作为开源的大数据处理平台,已得到了广泛应用。在使用Hadoop集群的用户,可以比较轻松地迁移到ODPS中,因为ODPS SQL与Hive SQL语法基本一致,而MapReduce作业可以迁移到更加灵活的DAG的执行模型。对于数据的迁移,可以通过ODPS Tunnel来完成。
数据通道服务ODPS Tunnel是ODPS与外部交互的统一数据通道,能提供高吞吐量的服务并且能够水平进行服务能力的扩展。Tunnel服务的SDK集成于ODPS SDK中。实际上,dship也是调用SDK实现的客户端工具,支持本地文件的导入导出。我们鼓励用户根据自己的场景需求,开发自己的工具,例如基于SDK开发对接其他数据源(如RDBMS)的工具。
把海量数据从Hadoop集群迁移到ODPS的基本思路是:实现一个Map Only程序,在Hadoop的Mapper中读取Hadoop源数据,调用ODPS SDK写到ODPS中。执行逻辑大致如图5所示。
Hadoop MapReduce程序的执行逻辑主要包含两个阶段:一是在客户端本地执行,例如参数解析和设置、预处理等,这是在main函数完成的;二是在集群上执行Mapper,多台Worker分布式执行map代码。在Mapper执行完成后,客户端有时还会做一些收尾工作,如执行状态汇总。
这里,我们在客户端本地的main函数中解析参数,创建UploadSession,把SessionID传给Mapper,Mapper通过SessionID获取UploadSession,实现写数据到ODPS。当Mapper执行完成后,客户端判断执行结果状态,执行Session的commit操作,把成功上传的数据Move到结果表中。
默认情况下,Hadoop会自动根据文件数来划分Mapper个数。在文件大小比较均匀时,这种方式没什么问题。然而存在大文件时,整个大文件只在一个Mapper中执行可能会很慢,造成性能瓶颈。这种情况下,应用程序可以自己对文件进行切分。
下面实现一个类Hdfs2ODPS来完成这个功能。
其中run函数完成了前面提到的主要逻辑,主要代码如下(其中包括了对ODPS Tunnel的使用):
在这个函数中,首先调用函数parseArguments对参数进行解析(后面会给出),然后初始化DataTunnel和UploadSession。创建UploadSession后,获取SessionID,并设置到conf中,在集群上运行的Mapper类会通过该conf获取各个参数。然后,调用runJob函数,其代码如下:
RunJob函数设置Hadoop conf,然后通过JobClient.runJob(conf);启动Mapper类在集群上运行,最后调用conf.getNumMapTasks()获取Task数,Task数即上传到ODPS的并发数。在Mapper中,可以通过conf.getLong("mapred.task.partition")获取Task编号,其值范围为 [0, NumMapTasks)。因此,在Mapper中可以把Task编号作为上传的blockid。客户端在Mapper成功返回时,就完成commit所有的Session。
应用实践注意点
与单机环境相比,在ODPS这样的分布式环境中进行开发,思维模式上需要有很大转变。下面分享一些实践中的注意点。
在分布式环境下,数据传输需要涉及不同机器的通信协作,可以说它是使用ODPS整个过程中最不稳定的环节,因为它是一个开放性问题,由于数据源的不确定,如文件格式、数据类型、中文字符编码格式、分隔符、不同系统(如Windows和Linux)下换行符不同,double类型的精度损失等,存在各种未知的情况。脏数据也是不可避免的,在解析处理时,往往是把脏数据写到另一个文件中,便于后续人工介入查看,而不是直接丢弃。在上传数据时,Tunnel是Append模式写入数据,因而如果多次写入同一份数据,就会存在数据重复。为了保证数据上传的“幂等性”,可以先删除要导入的分区,再上传,这样重复上传也不会存在数据重复。收集数据是一切数据处理的开始,所以必须非常严谨可靠,保证数据的正确性,否则在该环节引入的正确性问题会导致后续处理全部出错,且很难发现。
对于数据处理流程设计,要特别注意以下几点。
■数据模型:好的数据模型事半功倍。
■数据表的分区管理:如数据每天流入,按日期加工处理,则可以采取时间作为分区,在后续处理时可以避免全表扫描,同时也避免由于误操作污染全表数据。
■数据倾斜:这是作业运行慢的一个主要原因,数据倾斜导致某台机器成为瓶颈,无法利用分布式系统的优势,主要可以从业务角度解决。
■数据的产出时间:在数据处理Pipeline中,数据源往往是依赖上游业务生成的,上游业务的数据产出延迟很可能会影响到整个Pipeline结果的产出。
■数据质量和监控:要有适当的监控措施,如某天发生数据抖动,要找出原因,及时发现潜在问题。
■作业性能优化:优化可以给整个Pipeline的基线留出更多时间,而且往往消耗资源更少,节约成本。
■数据生命周期管理:设置表的生命周期,可以及时删除临时中间表,否则随着业务规模扩大,数据会膨胀很快。
此外,数据比对、A / B测试、开发测试和生产尽可能采用两个独立的Project。简言之,在应用开发实践中,要理解计费规则,尽可能优化存储计算开销。
ODPS现状和前景
阿里巴巴提出了“数据分享第一平台”的愿景,其多年来坚持投资开发ODPS平台的初心就是希望有一天能够以安全和市场的模式,让中小互联网企业能够使用阿里巴巴最宝贵的数据。阿里内部提出了所有数据“存、通和用”,将不同业务数据关联起来,发挥整体作用。ODPS目前正在发展中,它在规模上,支持淘宝核心数据仓库,每天有PB级的数据流入和加工;在正确性上,支持阿里金融的小额无担保贷款业务,其对数据计算的准确性要求非常苛刻;在安全上,支持支付宝数据全部运行在ODPS平台上,由于支付宝要符合银行监管需要,对安全性要求非常高,除了支持各种授权和鉴权审查,ODPS平台还支持“最小访问权限”原则:作业不但要检查是否有权限访问数据,而且在整个执行过程中,只允许访问自己的数据,不能访问其他数据。
前面的示例只是展现了ODPS的冰山一角。作为阿里巴巴云计算大数据平台,ODPS采用内聚式平台系统架构,各个组件紧凑内聚,除了结构化数据处理SQL、分布式编程模型MapReduce外,还包含图计算模型、实时流处理和机器学习平台,如图6所示。
随着ODPS对外开放的不断推进和第三方数据的流入,相信会有各种创新在ODPS上生根发芽、开花结果。
尽管如此,云计算和大数据是两个新兴的领域,技术和产品发展日新月异。作为一个平台,虽然ODPS已在阿里内部被广泛使用,但在产品和技术上还有很多方面需要进一步完善和加强,希望ODPS能够和云计算大数据应用共同成长,成为业界最安全、最可靠和最方便易用的平台。
本文中提到的产品大数据处理及其研究进展
时间: 22:08:37
&&&& 阅读:497
&&&& 评论:
&&&& 收藏:0
标签:&&&&&&&&&&&&&&&&&&&&&&&&&&&
大数据基本概念
大数据Big Data是指大小超出了经常使用的软件工具在执行时间内能够承受的收集,管理和处理数据能力的数据集;大数据是眼下存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。
大数据的预处理
主要完毕对已接收数据的辨析、抽取、清洗等操作。
(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程能够帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到高速分析处理的目的。
(2)清洗:对于大数据,并不全是有价值的,有些数据并非我们所关心的内容,而还有一些数据则是全然错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
大数据带来的数学问题
在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的全部数据集都是有限集合。
大数据採样——把大数据变小、找到与算法相适应的极小样本集、採样对算法误差的影响
大数据表示——表示决定存储、表示影响算法效率
大数据不一致问题——导致算法失效和无解、怎样消解不一致
大数据中的超高维问题——超高维导致数据稀疏、算法复杂度添加
大数据中的不确定维问题——多维度数据并存、按任务定维难
大数据中的不适定性问题——高维导致问题的解太多难以抉择
大数据的特征
稠密与稀疏共存:局部稠密与全局稀疏
冗余与缺失并在:大量冗余与局部缺失
显式与隐式均有:大量显式与丰富隐式
静态与动态忽现:动态演进与静态关联
多元与异质共处:多元多变与异质异性
量大与可用矛盾:量大低值与可用稀少
眼下大数据的外延
大数据规模大小是一个不断演化的指标:
当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB?PB?EB?ZB)
处理大数据的可等待的合理时间依赖任务的目标:
地震数据预測要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内
大数据悖论
大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的財富。根源在于,大数据的价值在于预測未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而眼下的大数据技术和应用,依旧局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。
方法论缺位
自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等差别开,由于三者均没有设置数量级等门槛。
方法论缺位是最大的障碍。大数据发展的核心动力源于人们測量、记录和分析世界的渴望,满足这些渴望须要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在便宜的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,其实思维和方法论才是决定大数据成败的关键,但眼下来看,跨越学术与产业、技术与应用之间鸿沟的方法论依旧不完好。
在社会难题中淘金
正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子跌到谷底,很多数据创业公司变得岌岌可危……依据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期。
市场中的鸿沟
大数据营销模型将经历创新者、早期採用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝,当中最大、最危急的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”。
大数据的主流市场来源于有用主义的早期大众和保守主义的后期大众,两者各自占领大数据市场1/3的份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。有所不同的是,前者希望看到成熟的解决方式和成功的应用案例,它们大多是金融、能源、电信等公共服务部门。而后者须要有更安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。
大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易举的。可是,不因“时髦”而增加,不因“过时”而退出,才干成为大数据主流市场的掘金者。遗憾的是,不少企业也许会成为“鸿沟中的牺牲者”,而无缘迎接大数据真正应用市场的到来。
规划总体产品
现代营销奠基人之——西奥多·莱维特给出了“总体产品”的概念。依据这一概念,大数据产品应该包含作为“核心吸引物”的一般产品、满足0基础心理需求的期望产品和实现更高阶參与以及自我实现的延伸产品和潜在产品4个部分。
三、 大数据挑战性问题
现有的数据中心技术非常难满足大数据的需求,须要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,眼下传送大数据最高效也是最有用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统须要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。应对处理大数据的各种技术挑战中,下面几个问题值得重视:
1、大数据对科学规范的挑战
大数据带来了新的科研范式
科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大数据科研从第三范式中分离出来单独作为一种科研范式,是由于其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们能够做到没有模型和如果就能够分析数据。将数据丢进巨大的计算机机群中,仅仅要有相关关系的数据,统计分析算法能够发现过去的科学方法发现不了的新模式、新知识甚至新规律。
大数据怎样应用于开放的研究
大数据基于对海量数据的分析产生价值,那么怎样获得海量数据来让大数据真正落地呢?这当中最不可或缺的一个环节就是数据开放。如今推进数据开放更为重要的是通过数据的共享来产生很多其它的价值。数据开放可以提高社会执行效率,积极整合各方公开的数据,建立基于大数据的城市规划来缓解交通和社会治安问题。&&数据开放可以激发巨大的商业价值,数据开放是面向社会大众的开放,不论什么人仅仅要有能力都可以用它来创造新的商机。
加强数据开放,为大数据发展打牢基础。在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也能给我们的生活带来巨大的便利。常常网购的人会有这样一种体验。非常多电商站点可以在我们买书的时候,推荐我们刚好喜欢的其它书籍,这正是站点依据成千上万甚至上亿人的个人数据的统计分析而得出的,可是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此,完好个人隐私保护等相关立法,对哪些个人数据可以进行商业化应用、应用范围怎样界定、数据滥用应承担哪些责任等详细问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。
重现大数据研究结果
数据量的增大,会带来规律的丧失和严重失真。维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出“数据量的大幅添加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的測量会导致出现“错误发现”的风险添加。大数据意味着很多其它的信息,但同一时候也意味着很多其它的虚假关系信息,海量数据带来显著性检验的问题,将使我们非常难找到真正的关联。
我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:
上表是关于某年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量添加到10482个的时候,发现独生子女和女性開始显著,添加到20964个的时候,体制外这个变量也開始显著,当样本添加到33万的时候,全部变量都具有显著性,这意味着世间万物都是有联系的。样本大到一定程度的时候,非常多结果自然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这样的虚假关系随着数据量的增长而增长,我们将非常难再接触到真相。
其实,真实的规律是这种:
对一个社会现象进行客观深刻准确的分析,对事物的理解须要数据,但更须要分析思维,在大数据时代,理论并不是不重要,而是变得更加重要。我们所指的理论也并不是僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。
大数据研究结果可信与否
《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预測。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。他觉得,大数据大大解放了人们的分析能力。一是能够分析很多其它的数据,甚至是相关的全部数据,而不再依赖于随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求准确度;三是不必拘泥于对因果关系的探究,而能够在相关关系中发现大数据的潜在价值。因此,当人们能够放弃寻找因果关系的传统偏好,開始挖掘相关关系的优点时,一个用数据预測的时代才会到来。
不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学,描写叙述了他抛弃几百年延续的选择球员的惯常做法,採用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈事实上是人和机器的博弈。即便是有一将难求的数据科学家的协助,大数据决策依旧是辅助系统。
在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。
2、大数据带来的社会问题
在基于社交媒体和数字化记忆的大数据时代,人们不仅操心无处不在的“第三仅仅眼”,并且操心隐私被二次利用。由于,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包含我们的社交关系网……可怕的不是这些隐私数据,而是大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。依照维克托·迈尔-舍恩伯格的说法,危急不再是隐私的泄漏,而是被预知的可能性——这些可以预測我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。
不管怎样,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。大数据的魅力在于它可以让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行參数。比方从消费者兴趣图谱中萃取研发创新智慧,而不局限于产品关联性分析;比方对企业内外部利益相关者群体智慧的发掘,开展企业和产业的健康诊断,而不局限于短效的精益管理;比方对地震等自然灾害的预警,构架社会应急机制……
3、大数据带来的技术挑战
抽样分析+全数据验证的分析思路
添加样本easy,减少算法复杂度难。维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,当中之中的一个是:分析全部的数据,而不再只依靠一小部分数据。全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,这样的看法无疑是对大数据和抽样二者都存在偏见和不足,假设觉得大数据就是收集全部样本的信息,让数据自己说话,那么在方法论上就是狭隘的。
这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预測到流感爆发的案例被广为引用以说明数据自会说话,当人们開始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系,可以成功的预測一场流感)数据确实能看到变化,通过变化作出“预測”,但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并不是是这位作者有选择的选择,而是放弃抽样而直接採用大数据的必定。
《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。
没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是全部的社会事实都一场流感一样易于预測,况且即便是谷歌被广为赞誉的流感预測案例也被觉得存在问题:在与传统的流感监測数据比較之后,依据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的准确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而仅仅能补充传统的流行病监測网络。他们正在开发噪音较少的替代跟踪方法,比如基于Twitter的流感跟踪仅仅包括真正病人的帖子,而不是转载的流感新闻报道。
分析理解大数据——盲人摸象
数据是企业最重要的资产,并且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们须要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决的方法之中的一个是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才干实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
4、大数据管理的挑战
每一种非结构化数据均可被视为大数据。这包含在社交站点上的数据、在线金融交易数据、公司记录、气象监測数据、卫星数据和其它监控、研究和开发数据。大数据存储与管理要用存储器把採集到的数据存储起来,建立对应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。&
通过隔离管理大数据存储
假设有多个存储箱,那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其他存储系统则用于大数据应用如门户站点,在线流媒体应用等。
假设没有存储系统,将特定的前端存储port到数据库,OLTP等等;致力于大数据应用到其它port。背后的基本原理是使用专用port,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,由于数据块的大小是比大数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的,而大数据应用程序很多其它的使用前端port。因此,很多其它的port能够专注于大数据应用。
专业的大数据存储管理
兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,由于在一个单一的文件系统中大数据能增长到多字节的数据。
大数据分析
除了存储,大数据管理的还有一项大的挑战是数据分析。一般的数据分析应用程序无法非常好的处理大数据,毕竟涉及到大量的数据。採用专门针对大数据的管理和分析的工具,这些应用程序执行在集群存储系统上,缓解大数据的管理。管理大数据的还有一个须要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的,足以满足未来的存储需求。
大数据的存储管理和云计算
眼下正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理,能够确保数据的全部权。有权选择将数据移入或移出云服务,而不被供应商锁定。
5、大数据挖掘挑战
面临的挑战
(1)大数据集的挑战
例如以下图为数据到知识的演化过程示意图:
缺少大数据复杂度冗余度的度量方法
缺少确保近似算法精度分析方法
缺少依据分布知识对大数据进行抽样的方法
(2)数据复杂性挑战
挖掘将会非常大程度地提高数据分析的性能和灵活性。源于数据仓库的数 据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术,最近的研究致力于构建回归立方体、预測立方体以及其它的面向统计的复杂数据立方体。这种多维或高维分析工具对分层多维数据的有效分析提供了保证。
(3)数据动态增长的挑战
(1)研究分布式并行计算环境下的大数据大数据分析的基本策略
I.与数据分布相联系的分治策略
II.与算法机理相结合的并行策略
(2)研究复杂度降精度可控的新的大数据分析算法
I.大数据分类、聚类、关联分析、异常发现等
&&&&& (3)大数据分析平台研发
大数据挖掘的算法
分类和预測是两种分析数据的方法,它们可用于抽取可以描写叙述关键数据集合或预測未来数据趋势的模型。分类方法用于预測数据对象的离散类别;而预測则用于预測数据对象的连续取值。很多分类和预測方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出,当中的大部分算法属于驻留内存算法,通常假定的数据量非常小,最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。眼下数据挖掘方法都要求,眼下的数据挖掘研究已经在这些工作基础之上得到了非常大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预測技术,这些技术结合了并行和分布处理的思想。
1、&&& 数据变小——分类算法
分类是找出数据库中的一组数据对象的共同特点并依照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。能够应用到涉及到应用分类、趋势预測中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,依据情况向用户推荐关联类的商品,从而添加商铺的销售量。
空间覆盖算法-基于球邻域的空间划分
空间覆盖算法-仿生模式识别
空间覆盖算法-视觉分类方法
VCA把数据看作一幅图像,核心是基于尺度空间理论,选择合适的尺度使得同类样本区域融合在一起。
分类超曲面算法HSC
设训练样本所在空间为一封闭维方体区域,将此区域依照一定细分规则划分成若干小区域,使每一个小区域仅仅包括同一类样本点,并用样本点的类别标定该区域,合并相邻同类区域边界,获得若干超平面片封闭组成的分类超曲面。输入新样本点,依据分类判别定理推断样本点所在的类别。
(1)通过特征区域细化直接解决非线性分类问题,不须要考虑使用何种函数,不须要升维变换。
(2)通用可操作的分类超曲面构造法,基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分
(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类推断算法,使得基于非凸的超曲面的分类判别变得简便、易行。
2、&&& 极小覆盖子集
覆盖型分类算法的极小覆盖子集——对特定的训练样本集,若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型同样,则称子样本集是原样本集的一个覆盖。在一个样本集的全部覆盖中,包括样本个数最少的覆盖称为样本集的极小覆盖子集。
(1)计算极小覆盖子集的基本步骤:
用一个方形区域覆盖全部样本点;将该区域划分成一系列小区域 (单元格),直到每一个小区域内包括的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。
(2)採样受限于极小覆盖子集
全样本空间必定包括极小覆盖子集,随意一个数据集未必包括完整的极小覆盖子集。大数据环境下,极小覆盖子集中的样本很多其它地包括在大数据中,较多的数据能够战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。
3、&&& 回归分析
回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它能够应用到对数据序列的预測及相关关系的研究中去。在市场营销中,回归分析能够被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预測并做出针对性的营销改变。
4、&&& 聚类
聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性非常大,但不同类别之间数据的相似性非常小,跨类的数据关联性非常低。
5、&&& 关联规则
关联规则是隐藏在数据项之间的关联或相互关系,即能够依据一个数据项的出现推导出其它数据项的出现。关联规则的挖掘过程主要包含两个阶段:第一阶段为从海量原始数据中找出全部的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预測客户的需求,各银行在自己的ATM&机上通过捆绑客户可能感兴趣的信息供用户了解并获取对应信息来改善自身的营销。
6、&&& 神经网络方法。
神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预測和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield&的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART&模型为代表。尽管神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,并且人们非常难理解网络的学习及决策过程。
7、&&& Web数据挖掘
Web数据挖掘是一项综合性技术,指Web&从文档结构和使用的集合C&中发现隐含的模式P,假设将C看做是输入,P&看做是输出,那么Web&挖掘过程就能够看做是从输入到输出的一个映射过程。
大数据展望与应用
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供根据,从而提高各个领域的执行效率,大大提高整个社会经济的集约化程度。根据ESM国际电子商情针大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在前五位的各自是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中能够看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图能够看出,排在前三位的功能各自是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。从调查结果能够看出:在未来一两年中有迫切部署大数据的需求,而且已经从一開始的基础设施建设,逐渐发展为对大数据分析和总体大数据解决方式的需求。
大数据将重点应用于下面几大大领域:商业智能、政府决策、公共服务等。
行业拓展者,打造大数据行业基石&&
IBM:IBM大数据提供的服务包含数据分析,文本分析,蓝色云杉;业务事件处理;IBM&Mashup&Center的计量,监測,和商业化服务(MMMS)。&IBM的大数据产品组合中的最新系列产品的InfoSphere&bigInsights,基于Apache&Hadoop。&该产品组合包含:打包的Apache&Hadoop的软件和服务,代号是bigInsights核心,用于開始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方式&微软:2011年1月与惠普(详细而言是HP数据库综合应用部门)&合作目标是开发了一系列可以提升生产力和提高决策速度的设备。&&
EMC:EMC&斩获了纽交所和Nasdaq;大数据解决方式已包含40多个产品。&
Oracle:Oracle大数据机与Oracle&Exalogic中间件云server、Oracle&Exadata数据库云server以及Oracle&Exalytics商务智能云server一起组成了甲骨文最广泛、高度集成化系统产品组合。
大数据促进了政府职能变革&
重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩project,改造成智慧project;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比方医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,仅仅局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革,还有一方面政府投入将形成示范效应,大大推动大数据的发展。
打造“智慧城市”&
通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、project领域的创新步伐,强化安全意识,转变教育和学习模式。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。
未来,改变一切&
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。&数据的再利用:因为在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。但当它被一些公布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
最后说明:本文仅仅是我汇总整理的一些关于大数据的资料,兴许我还会继续完好,为了有须要时翻看查阅,没有亵渎大数据的用意。
标签:&&&&&&&&&&&&&&&&&&&&&&&&&&&原文地址:http://www.cnblogs.com/lcchuguo/p/3991472.html
&&国之画&&&& &&&&chrome插件&&
版权所有 京ICP备号-2
迷上了代码!}

我要回帖

更多关于 信息处理的第一个环节 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信