毕业设计中,求weka 增量学习中C4.5的使用教程。

weka中文教程75-第2页
上亿文档资料,等你来发现
weka中文教程75-2
2预处理;2.1载入数据;预处理页顶部的前4个按钮用来把数据载入WEKA:;1.Openfile....打开一个对话框,允许;2.OpenURL....请求一个存有数据的UR;3.OpenDB....从数据库中读取数据(注意;4.Generate....从一些数据生成器(D;使用Openfile...按钮可以读取各种格式的;2.2当前关系;载入数据后,预处理
2 预处理 2.1 载入数据预处理页顶部的前4个按钮用来把数据载入WEKA:1. Open file.... 打开一个对话框,允许你浏览本地文件系统上的数据文件。2. Open URL.... 请求一个存有数据的 URL 地址。3. Open DB.... 从数据库中读取数据 (注意,要使之可用,可能需要编辑weka/experiment/ DatabaseUtils.props 中的文件)4. Generate.... 从一些数据生成器(DataGenerators)中生成人造数据。使用 Open file... 按钮可以读取各种格式的文件:WEKA 的 ARFF 格式,CSV 格式,C4.5 格式,或者序列化的实例2格式。ARFF 文件通常扩展名是.arff,CSV 文件扩展名是 .csv,C4.5 文件扩展名是 .data 和 .names ,序列化的实例对象扩展名为 .bsi。2.2 当前关系载入数据后,预处理面板就会显示各种信息。Current relation 一栏(“current relation” 指目前装载的数据,可理解为数据库术语中单独的关系表)有3个条目:1. Relation. 关系的名称,在它装载自的文件中给出。使用筛选器(下文将详述)将修改关系的名称。
2 只有本段文字中的“实例”是 JAVA 语言中实例的概念;而后文中的“实例”都将指数据集中的记录―译注。2. Instances. 数据中的实例(或称数据点/记录) 的个数。3. Attributes. 数据中的属性(或称特征) 的个数。2.3 处理属性在 Current relation 一栏下是 Attributes(属性)栏。有四个按钮,其下是当前关系中的属性列表。该列表有3列:1. No.. 一个数字,用来标识数据文件中指定的各属性的顺序。2. 选择框. 允许勾选关系中呈现的各属性。3. Name. 数据文件中声明的各属性的名称。当点击属性列表中的不同行时,右边 Selected attribute 一栏的内容随之改变。这一栏给出了列表中当前高亮显示的属性的一些描述:1. Name. 属性的名称,和属性列表中给出的相同。2. Type. 属性的类型,最常见的是分类型(Nominal)和数值型(Numeric)。3. Missing. 数据中该属性缺失(或者未指定)的实例的数量(及百分比)。4. Distinct. 数据中该属性包含的不同值的数目。5. Unique. 唯一地拥有某值的实例的数目(及百分比),这些实例每个的取值都和别的不一样。在这些统计量的下面是一个列表,根据属性的不同类型,它显示了关于这个属性中储存的值的更多信息。如果属性是分类型的,列表将包含该属性的每个可能值以及取那个值的实例的数目。如果属性是数值型的,列表将给出四个统计量来描述数据取值的分布―最小值、最大值、平均值和标准差。在这些统计量的下方,有一个彩色的直方图,根据直方图上方一栏所选择的 class 属性来着色。(在点击时,该栏将显示一个可供选择的下拉列表。) 注意仅有分类型的 class 属性才会让直方图出现彩色。最后,若点击 Visualize All 按钮,将在一个单独的窗口中显示数据集中所有属性的直方图。回到属性列表,开始时所有的选择框都是没有被勾选的。可通过逐个点击来勾选/取消。以上的4个按钮也可用于改变选择:1. All. 所有选择框都被勾选。2. None. 所有选择框被取消(没有勾选)。3. Invert. 已勾选的选择框都被取消,反之亦然。4. Pattern. 让用户基于 Perl 5 正则表达式来选择属性。例如,用 *_id 选择所有名称以 _id 结束的属性。选中了想要的属性后,可通过点击属性列表下的 Remove 按钮删除他们。注意可通过点击位于 Preprocess 面板的右上角的 Edit 按钮旁的 Undo 按钮来取消操作。 2.4 使用筛选器3在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要的设置。Filter 一栏的左边是一个 Choose 按钮。点击这个按钮就可选择 WEKA 中的某个筛选器。选定一个筛选器后,它的名字和选项会显示在 Choose 按钮旁边的文本框中。用鼠标左键点击这个框,将出现一个 GenericObjectEditor(通用对象编辑器)对话框。用鼠标右键(或Alt+Shift+左键)点击将出现一个菜单,你可从中选择,要么在 GenericObjectEditor 对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。
3 筛选器的英文原文是 filter,与数据库术语中的筛选有关。但是 WEKA 中的 filter 不仅能提供筛选功能,还涵盖了其他各种数据变换。―译注。 GenericObjectEditor 对话框GenericObjectEditor 对话框可以用来配置一个筛选器。同样的对话框也用于配置其他对象,例如分类器(classifier)和 聚类器(clusterers)(见下文)。窗口中的字段反映了可用的选项。点击它们中间的一个便可改变 filter 的设置。例如,某项设置可能是一串文本字符,这时将字符串输入相应的文本框中即可。或者它可能会给出一个下拉框,列出可供选择的几个状态。也可能是其他一些操作,根据所需的信息而有所区别。如果把将鼠标指针停留在某个字段上,会出现一个小提示来给出相应选项的信息。而有关该筛选器和它的选项的更多信息可通过点击 GenericObjectEditor 窗口顶部 About 面板中的 More 按钮来获得。除了 More 按钮,某些对象也会在关于栏中显示一些有关其功能的简短描述。点击 More 按钮,会出现一个窗口来描述了不同的选项分别起什么作用。有的还另外一个 Capabilities 按钮,它能列出该对象可处理的属性和 class 属性的类型。GenericObjectEditor 对话框的底部有4个按钮。前两个 Open... 和 Save... 允许存储对该对象的配置,以备将来之用。Cancel 按钮用于直接退出,任何已作出的改变都将被忽略。当前选择的对象和设置令人满意后,点击 OK 返回到主 Explorer 窗口。应用筛选器选择并配置好一个筛选器后,就可通过点击 Preprocess 面板的 Filter 拦右边的 Apply 按钮将之应用于数据集上。然后 Preprocess 面板将显示转换过的数据。可点击 Undo 按钮取消改变。你也可使用 Edit... 按钮在一个数据集编辑器中手动修改你的数据。最后,点击 Preprocess 面板右上角的 Save... 按钮将用同样的格式保存当前的关系,以备将来使用。注意:一些筛选器会依据是否设置了 class 属性来做出不同的动作。(点击直方图上方那一栏时,会出现一个可供选择的下拉列表。)特别的,“supervised filters”(监督式筛选器)需要设置一个 class 属性, 而某些“unsupervised attribute filters”(非监督式属性筛选器)将忽略 class 属性。注意也可以将 Class 设成 None,这时没有设置 class 属性。 3 分类4 3.1 选择分类器在 classify 页面的顶部是 Classifier 栏。这一栏中有一个文本框,给出了分类器的名称和它的选项。左键点击文本框会打开一个 GenericObjectEditor,可以像配置筛选器那样配置当前的分类器。右键(或Alt+Shift+左键)点击也可以复制设置字符到剪贴板,或者在 GenericObjectEditor 中显示相关属性。Choose 按钮用来选择 WEKA 中可用的分类器。3.2 测试选项应用选定的分类器后得到的结果会根据 Test Option 一栏中的选择来进行测试。共有四种测试模式:1. Using training set. 根据分类器在用来训练的实例上的预测效果来评价它。2. Supplied test set. 从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set… 按钮将打开一个对话框来选择用来测试的文件。3. Cross-validation. 使用交叉验证来评价分类器,所用的折数填在 Folds 文本框中。
4 WEKA 中的分类和回归都放入了 classify 页面中,相应的工具都叫做分类器(classifier)。参考4.3节。包含各类专业文献、幼儿教育、小学教育、高等教育、生活休闲娱乐、外语学习资料、应用写作文书、专业论文、weka中文教程75等内容。 
 weka入门教程_计算机软件及应用_IT/计算机_专业资料。Weka的全名是怀卡托智能分析...weka实验报告 13页 免费 weka 介绍 7页 免费 WEKA完整中文教程 52页 1下载券...  weka开发文档6 暂无评价 172页 免费 weka开发文档4 暂无评价 111页 免费 weka中文教程 20页 1下载券 weka 介绍 7页 免费 weka开发文档5 暂无评价 68页 免费 ...  WEKA汉化教程_计算机软件及应用_IT/计算机_专业资料。个人汉化进行中,有需要源码...数据挖掘工具(weka教程) 84页 1下载券 WEKA完整中文教程 52页 1下载券 喜欢此...  分类与回归 背景知识 WEKA 把分类(Classification)和回归(Regression)都放在“...weka教程 173页 免费 WEKA入门 20页 免费 WEKA完整中文教程 52页 1下载券...  weka配置教程_计算机软件及应用_IT/计算机_专业资料。最简单weka配置教程一...weka中文教程 20页 1下载券 Weka的安装配置及使用 21页 1下载券 weka使用教程...  喜欢此文档的还喜欢 weka二次开发 60页 1财富值 weka中文教程 20页 免费 WEKA实验教程 30页 免费 weka软件分析解析 87页 免费 Weka开发初步 12页 2财富值...  Weka 相关资料存档 WEKA 开源数据挖掘工作平台 weka 中文网站 http://www.weka...weka软件分析解析 87页 免费 WEKA完整中文教程 52页 1下载券 weka中文教程 20...  95页 免费 weka中文教程 20页 免费 WEKA完整中文教程 52页 2财富值 LINQ表左式中文教程 92页 免费 MyEclipse-8.5汉化教程-原... 45页 2财富值搜...  http://www.cs.waikato.ac.nz/ml/weka/ http://www.cs.waikato.ac.nz/~...weka中文教程 20页 1下载券 WEKA实验教程 30页 免费 WEKA入门 20页 免费 weka...weka软件中是不是有一个包直接实现决策树c4.5算法的?_百度知道
weka软件中是不是有一个包直接实现决策树c4.5算法的?
能把包导出来吗,想知道里面是不是有一个JAR包直接实现了决策树c4,我想看到代码和整个流程.5算法的刚学weka软件?或者看到代码
提问者采纳
j48您可以把整个weka.jar:weka, 解压后得到的就是源码.trees.jar作为外部library导入类似Eclipse这样的开发环境. c4, 大致是这个路径吧,weka是开源的.5在weka里的实现是j48, 这样看源码或者用weka的api进行二次开发都很方便的. 记得我用过的那个版本在安装目录的bin文件夹里有一个weka.classifiers是的
其他类似问题
为您推荐:
您可能关注的推广
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁数据挖掘工具(weka教程)_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
文档贡献者
评价文档:
数据挖掘工具(weka教程)
数​据​挖​掘​工​具​(​w​e​k​a​教​程​)
大小:1.02MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢36037人阅读
2. 数据格式
3.数据准备
4. 关联规则(购物篮分析)
5. 分类与回归
6. 聚类分析
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。
2. 数据格式
巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。
跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。
这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。图1中一共有14个实例,5个属性,关系名称为“weather”。
WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。
需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用这样的字符编辑软件察看ARFF文件的内容。
下面我们来对这个文件的内容进行说明。
识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。
以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。
除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
关系名称在ARFF文件的第一个有效行来定义,格式为
@relation &relation-name&
&relation-name&是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。
属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型。
这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如,“humidity”是第三个被声明的属性,这说明数据部分那些被逗号分开的列中,第三列数据 85 90 86 96 ... 是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。
属性声明的格式为
@attribute &attribute-name& &datatype&
其中&attribute-name&是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。
WEKA支持的&datatype&有四种,分别是
numeric-------------------------数值型
&nominal-specification&-----分类(nominal)型
string----------------------------字符串型
date [&date-format&]--------日期和时间型
其中&nominal-specification& 和&date-format& 将在下面说明。还可以使用两个类型“integer”和“real”,但是WEKA把它们都当作“numeric”看待。注意“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而“relation”“attribute ”和“date”则不区分。
数值属性
数值型属性可以是整数或者实数,但WEKA把它们都当作实数看待。
分类属性由&nominal-specification&列出一系列可能的类别名称并放在花括号中:{&nominal-name1&, &nominal-name2&, &nominal-name3&, ...} 。数据集中该属性的值只能是其中一种类别。
例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。
@attribute outlook {sunny, overcast, rainy}
如果类别名称带有空格,仍需要将之放入引号中。
字符串属性
字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。
@ATTRIBUTE LCC string
日期和时间属性
日期和时间属性统一用“date”类型表示,它的格式是
@attribute &name& date [&date-format&]
其中&name&是这个属性的名称,&date-format&是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。
数据信息部分表达日期的字符串必须符合声明中规定的格式要求(下文有例子)。
数据信息中“@data”标记独占一行,剩下的是各个实例的数据。
每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示,且这个问号不能省略。例如:
sunny,85,85,FALSE,no
?,78,90,?,yes
字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。例如:
@relation LCCvsLCSH
&&@attribute LCC string
&&@attribute LCSH string
&&AG5, 'Encyclopedias and dictionaries.;Twentieth century.'
&&AS262, 'Science -- Soviet Union -- History.'
日期属性的值必须与属性声明中给定的相一致。例如:
@RELATION Timestamps
&&@ATTRIBUTE timestamp DATE &yyyy-MM-dd HH:mm:ss&
&&& 12:12:12&
&&& 12:59:55&
有的时候数据集中含有大量的0值(比如购物篮分析),这个时候用稀疏格式的数据存贮更加省空间。
稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据:
&&0, X, 0, Y, &class A&
&&0, 0, W, 0, &class B&
用稀疏格式表达的话就是
&&{1 X, 3 Y, 4 &class A&}
&&{2 W, 4 &class B&}
每个实例用花括号括起来。实例中每一个非0的属性值用&index& &空格& &value&表示。&index&是属性的序号,从0开始计;&value&是属性值。属性值之间仍用逗号隔开。这里每个实例的数值必须按属性的顺序来写,如 {1 X, 3 Y, 4 &class A&},不能写成{3 Y, 1 X, 4 &class A&}。
注意在稀疏格式中没有注明的属性值不是缺失值,而是0值。若要表示缺失值必须显式的用问号表示出来。
Relational型属性
在WEKA 3.5版中增加了一种属性类型叫做Relational,有了这种类型我们可以像关系型数据库那样处理多个维度了。但是这种类型目前还不见广泛应用,暂不作介绍。
--整理自 和
3.数据准备
使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。
在这一节里,我们先以Excel和Matlab为例,说明如何获得CSV文件。然后我们将知道CSV文件如何转化成ARFF文件,毕竟后者才是WEKA支持得最好的文件格式。面对一个ARFF文件,我们仍有一些预处理要做,才能进行挖掘任务。
.* -& .csv
我们给出一个CSV文件的例子()。用UltraEdit打开它可以看到,这种格式也是一种逗号分割数据的文本文件,储存了一个二维表格。
Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。
在Matlab中的二维表格是一个矩阵,我们通过这条命令把一个矩阵存成CSV格式。
csvwrite('filename',matrixname)
需要注意的是,Matllab给出的CSV文件往往没有属性名(Excel给出的也有可能没有)。而WEKA必须从CSV文件的第一行读取属性名,否则就会把第一行的各属性值读成变量名。因此我们对于Matllab给出的CSV文件需要用UltraEdit打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。
.csv -& .arff
将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。
运行WEKA的主程序,出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上
java weka.core.converters.CSVLoader filename.csv & filename.arff
即可完成转换。
在WEKA 3.5中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。
进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。
“Exploer”界面
我们应该注意到,“Exploer”还提供了很多功能,实际上可以说这是WEKA使用最多的模块。现在我们先来熟悉它的界面,然后利用它对数据进行预处理。
图2显示的是使用3.5版&Exploer&打开&bank-data.csv&的情况。我们根据不同的功能把这个界面分成8个区域。
区域1的几个选项卡是用来切换不同的挖掘任务面板。这一节用到的只有“Preprocess”,其他面板的功能将在以后介绍。
区域2是一些常用按钮。包括打开数据,保存及编辑功能。我们在这里把&bank-data.csv&另存为&bank-data.arff&。
在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。
区域4展示了数据集的一些基本情况。
区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。
在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。
区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。
区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。
bank-data数据各属性的含义如下:
id a unique identification number
age age of customer in years (numeric)
sex MALE / FEMALE
region inner_city/rural/suburban/town
income income of customer (numeric)
married is the customer married (YES/NO)
children number of children (numeric)
car does the customer own a car (YES/NO)
save_acct does the customer have a saving account (YES/NO)
current_acct does the customer have a current account (YES/NO)
mortgage does the customer have a mortgage (YES/NO)
pep did the customer buy a PEP (Personal Equity Plan) after the last mailing (YES/NO)
通常对于数据挖掘任务来说,ID这样的信息是无用的,我们将之删除。在区域5勾选属性“id”,并点击“Remove”。将新的数据集保存一次,并用UltraEdit打开这个ARFF文件。我们发现,在属性声明部分,WEKA已经为每个属性选好了合适的类型。
我们知道,有些算法,只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的,分别是“age”,“income”和“children”。
其中“children”只有4个取值:0,1,2,3。这时我们在UltraEdit中直接修改ARFF文件,把
@attribute children numeric
@attribute children {0,1,2,3}
就可以了。
在“Explorer”中重新打开“bank-data.arff”,看看选中“children”属性后,区域6那里显示的“Type”是不是变成“Nominal”了?
“age”和“income”的离散化我们需要借助WEKA中名为“Discretize”的Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”,点击。若无法关闭这个树,在树之外的地方点击“Explorer”面板即可。
现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 点击这个文本框会弹出新窗口以修改离散化的参数。
我们不打算对所有的属性离散化,只是针对对第1个和第4个属性(见区域5属性名左边的数字),故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段,于是把“bins”改成“3”。其它框里不用更改,关于它们的意思可以点“More”查看。点“OK”回到“Explorer”,可以看到“age”和“income”已经被离散化成分类型的属性。若想放弃离散化可以点区域2的“Undo”。
如果对“&(-inf-34.333333]&”这样晦涩的标识不满,我们可以用UltraEdit打开保存后的ARFF文件,把所有的“'\'(-inf-34.333333]\''”替换成“0_34”。其它标识做类似地手动替换。
经过上述操作得到的数据集我们保存为。
----整理自
4. 关联规则(购物篮分析)
注意:目前,WEKA的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
我们打算对前面的“bank-data”数据作关联规则的分析。用“Explorer”打开“bank-data-final.arff”后,切换到“Associate”选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法,但是点“Choose”右边的文本框修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。
首先我们来温习一下Apriori的有关知识。对于一条关联规则L-&R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。
有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是
Lift(提升度?): P(L,R)/(P(L)P(R))
Lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。
Leverage(不知道怎么翻译):P(L,R)-P(L)P(R)
它和Lift的含义差不多。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。
Conviction(更不知道译了):P(L)P(!R)/P(L,!R) (!R表示R没有发生)
Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。
值得注意的是,用Lift和Leverage作标准时,L和R是对称的,Confidence和Conviction则不然。
现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认即可。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。
下面是挖掘出来的lift排前5的规则。
Best rules found:
1. age=52_max save_act=YES current_act=YES 113 ==& income=43759_max 61 conf:(0.54) & lift:(4.05)& lev:(0.0 [45] conv:(1.85)
&&2. income=43759_max 80 ==& age=52_max save_act=YES current_act=YES 61 conf:(0.76) & lift:(4.05)& lev:(0.0 [45] conv:(3.25)
&&3. income=43759_max current_act=YES 63 ==& age=52_max save_act=YES 61 conf:(0.97) & lift:(3.85)& lev:(0.0 [45] conv:(15.72)
&&4. age=52_max save_act=YES 151 ==& income=43759_max current_act=YES 61 conf:(0.4) & lift:(3.85)& lev:(0.0 [45] conv:(1.49)
&&5. age=52_max save_act=YES 151 ==& income=43759_max 76 conf:(0.5) & lift:(3.77)& lev:(0.09) [55] conv:(1.72)
对于挖掘出的每条规则,WEKA列出了它们关联程度的四项指标。
命令行方式
我们也可以利用命令行来完成挖掘任务,在“Simlpe CLI”模块中输入如下格式的命令:
java weka.associations.Apriori options -t directory-path\bank-data-final.arff
即可完成Apriori算法。注意,“-t”参数后的文件路径中不能含有空格。
在前面我们使用的option为
-N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0
命令行中使用这些参数得到的结果和前面利用GUI得到的一样。
我们还可以加上“- I”参数,得到不同项数的频繁项集。我用的命令如下:
java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:\weka\bank-data-final.arff
挖掘结果在上方显示,应是的样子。
----整理自
5. 分类与回归
WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。
在这两个任务中,都有一个目标属性(输出变量)。我们希望根据一个样本(WEKA中称作实例)的一组特征(输入变量),对目标进行预测。为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。
在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。
这一节中,我们使用C4.5决策树算法对bank-data建立起分类模型。
我们来看原来的“”文件。“ID”属性肯定是不需要的。由于C4.5算法可以处理数值型的属性,我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此,我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在下载;待预测集数据在下载。
我们用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。3.5版的WEKA中,树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型(即只有两个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binary attributes”“Numeric
attributes”和“Binary class”。点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“trees”下的“J48”,这就是我们需要的C4.5算法,还好它没有变红。
点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。
现在来看左中的“Test Option”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-fold cross validation)来选择和评估模型。若不明白交叉验证的含义可以一下。
OK,选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快,用文本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“Classifier output”中。同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“Start”一次,则“Results list”又会多出一项。
我们看到“J48”算法交叉验证的结果之一为
Correctly Classified Instances 206 68.6667 %
也就是说这个模型的准确度只有69%左右。也许我们需要对原属性进行处理,或者修改算法的参数来提高准确度。但这里我们不管它,继续用这个模型。
右键点击“Results list”刚才出现的那一项,弹出菜单中选择“Visualize tree”,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit
to screen”,可以把这个树看清楚些。看完后截图或者关掉
这里我们解释一下“Confusion Matrix”的含义。
=== Confusion Matrix ===
&&a b &-- classified as
&&74 64 | a = YES
&&30 132 | b = NO
这个矩阵是说,原本“pep”是“YES”的实例,有74个被正确的预测为“YES”,有64个错误的预测成了“NO”;原本“pep”是“NO”的实例,有30个被错误的预测为“YES”,有132个正确的预测成了“NO”。74+64+30+132 = 300是实例总数,而(74+132)/300 = 0.68667正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。
在“Test Opion”中选择“Supplied test set”,并且“Set”成你要应用模型的数据集,这里是“bank-new.arff”文件。
现在,右键点击“Result list”中刚产生的那一项,选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的“Visualize classifier errors”,将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“Save”按钮,保存一个Arff文件。打开这个文件可以看到在倒数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。
使用命令行(推荐)
虽然使用图形界面查看结果和设置参数很方便,但是最直接最灵活的建模及应用的办法仍是使用命令行。
打开“Simple CLI”模块,像上面那样使用“J48”算法的命令格式为:
java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-path\bank.arff -d directory-path \bank.model
其中参数“ -C 0.25”和“-M 2”是和图形界面中所设的一样的。“-t ”后面跟着的是训练数据集的完整路径(包括目录和文件名),“-d ”后面跟着的是保存模型的完整路径。注意!这里我们可以把模型保存下来。
输入上述命令后,所得到树模型和误差分析会在“Simple CLI”上方显示,可以复制下来保存在文本文件里。误差是把模型应用到训练集上给出的。
把这个模型应用到“bank-new.arff”所用命令的格式为:
其中“-p 9”说的是模型中的待预测属性的真实值存在第9个(也就是“pep”)属性中,这里它们全部未知因此全部用缺失值代替。“-l”后面是模型的完整路径。“-T”后面是待预测数据集的完整路径。
输入上述命令后,在“Simple CLI”上方会有这样一些结果:
0 YES 0.75 ?
1 NO 0.7273 ?
2 YES 0.95 ?
3 YES 0.3898 ?
4 NO 0.8947 ?
这里的第一列就是我们提到过的“Instance_number”,第二列就是刚才的“predictedpep”,第四列则是“bank-new.arff”中原来的“pep”值(这里都是“?”缺失值)。第三列对预测结果的置信度(confidence )。比如说对于实例0,我们有75%的把握说它的“pep”的值会是“YES”,对实例4我们有84.2%的把握说它的“pep”值会是“NO”。
我们看到,使用命令行至少有两个好处。一个是可以把模型保存下来,这样有新的待预测数据出现时,不用每次重新建模,直接应用保存好的模型即可。另一个是对预测结果给出了置信度,我们可以有选择的采纳预测结果,例如,只考虑那些置信度在85%以上的结果。
----整理自
6. 聚类分析
原理与实现
聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。
现在我们对前面的“bank data”作聚类分析,使用最常见的K均值(K-means)算法。下面我们简单描述一下K均值聚类的步骤。
K均值算法首先随机的指定K个簇中心。然后:1)将每个实例分配到距它最近的簇中心,得到K个簇;2)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复1)和2),直到K个簇中心的位置都固定,簇的分配也固定。
上述K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取&#的属性。WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。因此,对于原始数据“bank-data.csv”,我们所做的预处理只是删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“”,含600条实例。
用“Explorer”打开刚才得到的“bank.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。
选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键,“View in separate window”在新窗口中浏览结果。
首先我们注意到结果中有这么一行:
Within cluster sum of squared errors: 522332
这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结果。例如我让“seed”取100,就得到
Within cluster sum of squared errors: 629218
我该取后面这个。当然再尝试几个seed,这个数值可能会更小。
接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std
最后的“Clustered Instances”是各个簇中实例的数目及百分比。
为了观察可视化的聚类结果,我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。
可以在这里点“Save”把聚类结果保存成ARFF文件。在这个新的ARFF文件中,“instance_number”属性表示某实例的编号,“Cluster”属性表示聚类算法给出的该实例所在的簇。
----整理自
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:677867次
积分:9005
积分:9005
排名:第963名
原创:229篇
转载:36篇
评论:661条
(1)(9)(5)(6)(4)(19)(13)(25)(2)(13)(7)(2)(1)(1)(1)(1)(1)(4)(1)(6)(3)(2)(2)(4)(9)(11)(5)(24)(17)(1)(27)(36)(1)(2)(2)}

我要回帖

更多关于 weka 增量学习 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信