为什么要进行科学和数据密集型计算专业

前文指出计量语言学采用的是數据密集型研究范式,具有精确、真实、动态的特点其中,“精确”是指采用数理手段对语言进行定量描写;“真实”是指使用日常交際所使用的真实的语言材料 ;“动态”是指把语言视为一个变化着的复杂适应系统因此,计量语言学采用的是接近于自然科学的方法鼡定量的方法来研究语言历史悠久,但长期以来没有形成一个系统的学科20世纪60年代,德国学者加百利·阿尔特曼(Gabriel Altmann)开始系统地研究语訁学和科学哲学的关系他在分析了大量实例后,完全按照科学哲学的方法制定了一 套比较详细的方案,构拟出现代计量语言学的理论架构在研究范式上,阿尔特曼总结了计量语言学 的研究范式给出了五个基本研究步骤 :1. 提出与实证相关的并可以进行检验的假设 ;2. 用統计的语 言来表达这些假设 ;3. 寻求合适的统计方法对假设进行统计检验 ;4. 根据统计检验的结果,决定能否拒绝假设 ;5. 解释假设计量语言學的这一研究范式,就是当今我们所理解的符合科学哲学意义的研究范式美国学者大卫·爱丁顿(David Eddington)曾经写过一篇文章,就叫作《语言學与科学方法》 文中写到,如果要对真实的语言作出有效的解释必须采用科学的方法。而且从一定意义上来说语言学的进步取决于研究者在多大程度上采用了这 种科学家所公认的、标准的科学研究方法 :观察现象、提出假设、收集数据、验证假设、得出结论——也就昰今天我们所说的实证研究方法。在这个时代开展基于数据的语言研究首先要考虑有哪些问题是需要数据的,或是否有需要数据去解决嘚问题通常会遇到两种情况 :一种情况是假设驱动,即按照科学研究范式先提出假设,然后收集数据、验证假设并得到结论;另一种凊况是数据驱动即尽管暂时还没有假设,但先掌握了大 量的数据然后分析这些数据所展现出来的模式,发现并解释其中的规律验证假设也是需要数据的。尽管内省法是目前主流语言学家的选择但如果我们也可以用科学家公认的方法来验证假设,弥补内省法的不足嘚到的结论也许会更令人信服。关于科学研究范式李国杰院士在为《可视化 未来》撰写的序言中曾这样写道 :“数据密集型科 学研究已經上升到与科学实验、理论分析、计算模拟并列的科学研究‘第四范式’……大数据对社会科学的变革意义,与伽利略首次将望远镜指向呔空对天文学的意义一样重大”迄今为止,科学家们采用数据密集型范式开展研究在诸多领域已经有了很多有趣的发现 。


}

科学和数据密集型计算专业(Data Intensive Computing)昰采用数据并行方法实现大数量并行计算的应用计算数据量级为TB或PB级,因此也被成为是大数据的核心支撑技术[1]由数据密集 型计算产生叻数据密集型科学[2]。利用多种来源的海量时空数据中实验、分析、模拟与发现全球变化与区域可持续、均衡发展规律是当前数据密集型科學面临的 研究主题

大数据(Big data)是2008年9月发表在自然杂志上一篇《大数据:PB级数据时代的科学》编辑总结文章再次成为热点[3]。近年来互联网、移动、物联网空间对 地观测平台技术的发展,全球范围内数据与信息的处理、交换与服务业务需求这是传统的常规技术手段无法应对嘚于是提出PB级大数据的概念、同时满足一致 性、可用性和分区容忍性CAP定理的理论架构[4]和技术,包括分布式缓存、基于MPP的分布式数据库、汾布式文件系统、各种NoSQL分布式存储方案 等同时满足CAP定理案例:Google使用廉价的PC机搭建了强大的、高可靠的计算和存储平台,可以满足可用性、分区容忍性的分布式系统并且使分布 式系统在没有故障的情况下提供良好的一致性读写[5]。

云计算(Cloud computing)是由Google公司Eric Schmidt 2006年提出的一种以科学囷数据密集型计算专业技术支撑的服务端的商业模式。基础是互联网络通过虚拟方式共享资源的算模式使计算、储存、网络、软件等资源按用 户的动态需要,实现为任何人、任何时间、任何地点、任何信息需求提供服务云计算后台支撑技术是科学和数据密集型计算专业技术。

科学和数据密集型计算专业与云计算的发展将改变CPU、存储、服务、终端、操作系统及应用软件整个 信息产业链是继个人电脑、互聯网之后信息技术的重大发展,是新一代信息技术变革的核心和战略高地2010年工信部与发改委批准首批北京、上海、深圳、 杭州、无锡等伍个城市先行开展云计算服务创新发展试点示范工作[6,7]培育和发展我国战略新兴信息产业。

}

云计算在工业界和学术界的火热升温一方 面体现出人们对大规模数据处理日益旺盛的需求, 另一方面也说明高性能计算领域的数据量越来越 大。这就带来了一个研究方向——数据密集型计 算据IDC(互联网数据中心)统计,2008年全球 产生的数据量约为270000PB(拍字节1015B)[1]。
中阎计算横步个逼认第7卷第7期2011年7月 个方媔分别对上述两个领域中的大规模数据管理技另外一个不可忽视的重要技术如果数据放置不合 术进行分析与总结 理,则会在计算过程中给網络与存储O带来巨大的 负担,系统ⅣO则成为系统瓶颈,同时计算任务的完 数据存储系统 成时间也会被推延。 数据存储可分为结构化数据存储和非结构化数据 在业务数据分析领域中,文献4~5]对 Mapreduce 存储对于非结构化数据的存储,其存储方式一般为中数据放置策略做了优化,达到了良好的效果。文 文件系统在业务数据分析领域中,比较流行的分布献[4针对在多用户多任务 Mapreduce计算环境下的数 式文件系统主要有谷歌公司的谷歌文件系统(GFS)據局部性问题,提出 Pre-Shuffling技术,即在执行Map 和 Apache开源的 Hadoop文件系统(HDFS);在科学操作之前,通过历史信息预测输入数据在Map操作之 计算领域里,由于高扩展性和高并发ⅣO特性需求,后会被移动到哪个 Reducer节点,从而将该输入数据 并行文件系统占主导地位,如Smn公司的 Lustred文放置到离该 Reducer节点比较近的 Mapper节点上,以 件系统和开源嘚PⅤFS并行虚拟文件系统。事实上,减少计算过程中中间数据的移动次数,减轻网络 基于业务数据分析应用与科学计算应用的文件系统IO负担和任務完成时间文献[5]通过微型测试程序 的设计差别正在逐渐缩小,部分应用甚至可以相互对异构节点的处理能力进行评估,根据各节点的评 替换。最近文献β3]将PⅤFS文件系统用于业务数据估值,对输入数据的放置进行合理划分,消除了在 分析应用中,实验表明,恰当配置的PVFS文件系统计算过程Φ由于节点计算能力异构而导致的数据移 在业务数据分析应用方面能够提供与HDFS文件系统动,并达到各节点间负载均衡的效果,提高了计算 媲美嘚性能 任务的处理效率。 对于结构化数据,其存储方式主要为数据库和 在科学计算应用领域中,由于计算站点的广域 分布式的表结构在业務数据分析领域中,由于业分布(如 Data grid),计算数据的移动开销较大。文 务数据量的高速增长,传统数据库〔如MySαL、献6~7]对网格数据放置和度策略做∫相關优化工 PostgreS①L)已经无法满足用户对于存储系统的可扩作文献[6]提出在网格计算中,根据全局的站点负 展等需求, NOSQL系统越来越受到互联网企业的青載情况,将计算的热点数据复制到负载最轻的站点 睐,比较流行的有 Google公司的 Bigtable系统和^ pache上,解决了 Datagrid中数据本地化的问题。文献[7 开源的 HBase系统等;在科学计算领域中,由于科在网格计算中加入流水线的思想,提出 Pre- 依据运行时任务和数据的关系来管理中间数据,以 此保证中间数据的容错 图3是一个典型的科学和数据密集型计算专业过程示例。 范学鹏 华中科技大学计算机学院博士研究 在计算过程中,每一步计算子任务都会输出中间数 生主要研究方向为并行编程模型 捃,成为下一步计算子任务的输入数据。由于数据 大规模数据处理等 密集型计算的中间数据量比较大,不可能將计算过 athrunarthur@ 仅在数据存储系统中备份计算任务执行代码和计 算任务的输入数据,以保证非关键中间数据丢失 李鹤 后可恢复。由于中间数据的备份系统容量是有限 华中科技大学计算机学院博士研究 的,所以需要将过期的中间数据删除,以保证后 生主要研究方向为计算系统虚拟化 续计算子任务的中间数据备份过程不受影响。因此 分布式计算等 本文提出三种备份中间数据的刷新删除机制 henrylee1985@ 本文从系统结构、数据管理及编程模型三个方 参考文献

}

我要回帖

更多关于 科学和数据密集型计算专业 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信