银行全量数据的数据挖掘建模实例如何实现?

一图看史上最完整的数据分析流程
(window.slotbydup=window.slotbydup || []).push({
id: '2611110',
container: s,
size: '240,200',
display: 'inlay-fix'
您当前位置: &
[ 所属分类
作者 红领巾 ]
一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:
1、业务建模。
2、经验分析。
3、数据准备。
4、数据处理。
5、数据分析与展现。
6、专业报告。
7、持续验证与跟踪。
作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。
1.数据采集
了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如:Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。
在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。
当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。
在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。
2.数据存储
无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如:
数据存储系统是、Oracle、SQL Server还是其他系统。
数据仓库结构及各库表如何关联,星型、雪花型还是其他。
生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。
生产数据库面对异常值如何处理,强制转换、留空还是返回错误。
生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。
接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。
数据仓库数据的更新更新机制是什么,全量更新还是增量更新。
不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。
在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。
3.数据提取
数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。
从哪取,数据来源——不同的数据源得到的数据结果未必一致。
何时取,提取时间——不同时间取出来的数据结果未必一致。
如何取,提取规则——不同提取规则下的数据结果很难一致。
在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。
其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。
4.数据挖掘
数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:
没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。
没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。
挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。
在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。
5.数据分析
数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。
6.数据展现
数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下:
工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。
形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。
原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。
场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。
最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。
7.数据应用
数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。
数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。
业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。
项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。
注:[emailprotected],版权及著作权属原创作者所有,数据观整理分享此文并非商业用途,以上内容并不代表数据观观点,如涉著作权等事宜请联系小编更正。
责任编辑:王培
转载请注明本文标题:本站链接:
分享请点击:
1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
阅读(1297)
CodeSecTeam微信公众号
有三种东西必须控制:情绪、语言、行为;有三个问题必须思考:生命、死亡、永恒;有三种品质必须尊敬:坚毅、自尊、仁慈;有三种习惯必须培育:理性、谦逊、好学;
手机客户端【干货】浅谈数据挖掘在银行金融业的应用
数据挖掘(Data
Mining)是一种新的商业信息处理技术,产生于20世纪80年代的美国,首先应用在金融、电信等领域,主要特点是对大量数据进行抽取、转换、分析和模型化处理,从中提取出有助于商业决策的关键性数据。银行信息化的迅速发展,产生了大量的业务数据。从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。如今,数据挖掘已在银行业有了广泛深入的应用。
二、数据挖掘在银行业应用的主要方面
中颢润认为,现阶段,数据挖掘在银行业中的应用,主要可分为以下几个方面。
(一)风险
数据挖掘在银行业的重要应用之一是风险管理,如信用风险评估。可通过构建信用评级模型,评估贷款人或信用卡申请人的风险。一个进行信用风险评估的解决方案,能对银行数据库中所有的账户指定信用评级标准,用若干数据库查询就可以得出信用风险的列表。这种对于高/低风险的评级或分类,是基于每个客户的账户特征,如尚未偿还的贷款、信用调降报告记录、账户类型、收入水平及其他信息等。
对于银行账户的信用评估,可采用直观量化的评分技术。将顾客的海量信息数据以某种权重加以衡量,针对各种目标给出量化的评分。以信用评分为例,通过由数据挖掘模型确定的权重,来给每项申请的各指标打分,加总得到该申请人的信用评分情况。银行根据信用评分来决定是否接受申请,确定信用额度。过去,信用评分的工作由银行信贷员完成,只考虑几个经过测试的变量,如就业情况、收入、年龄、资产、负债等。现在应用数据挖掘的方法,可以增加更多的变量,提高模型的精度,满足信用评价的需求。
中颢润认为,通过数据挖掘,还可以异常的信用卡使用情况,确定极端客户的消费行为。根据历史数据,评定造成信贷风险客户的特征和背景,可能造成风险损失的客户。在对客户的资信和经营预测的基础上,运用系统的方法对信贷风险的类型和原因进行识别、估测,发现引起贷款风险的诱导因素,有效地控制和降低信贷风险的发生。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查分析,预防和控制资金非法流失。
(二)客户管理
中颢润认为,在银行客户管理生命周期的各个阶段,都会用到数据挖掘技术。
1.获取客户
发现和开拓新客户对任何一家银行来说都至关重要。通过探索性的数据挖掘方法,如自动探测聚类和购物篮分析,可以用来找出客户数据库中的特征,预测对于银行活动的响应率。那些被定为有利的特征可以与新的非客户群进行匹配,以增加营销活动的效果。
数据挖掘还可从银行数据库存储的客户信息中,可以根据事先设定的标准找到符合条件的客户群,也可以把客户进行聚类分析让其自然分群,通过对客户的服务收入、风险、等相关因素的分析、预测和优化,找到新的可赢利目标客户。
2.保留客户
通过数据挖掘,在发现流失客户的特征后,银行可以在具有相似特征的客户未流失之前,采取额外增值服务、特殊待遇和激励忠诚度等措施保留客户。比如,使用信用卡损耗模型,可以预测哪些客户将停止使用银行的信用卡,而转用竞争对手的卡,根据数据挖掘结果,银行可以采取措施来保持这些客户的信任。当得出可能流失的客户名单后,可对客户进行关怀访问,争取留住客户。
为留住老客户,防止客户流失,就必须了解客户的需求。数据挖掘,可以识别导致客户转移的关联因子,用模式找出当前客户中相似的可能转移者,通过孤立点分析法可以发现客户的异常行为,从而使银行避免不必要的客户流失。数据挖掘工具,还可以对大量的客户资料进行分析,建立数据模型,确定客户的交易习惯、交易额度和交易频率,分析客户对某个产品的忠诚程度、持久性等,从而为他们提供个性化定制服务,以提高客户忠诚度。
3.优化客户服务
银行业竞争日益激烈,客户服务的质量是关系到银行发展的重要因素。客户是一个可能根据年费、服务、优惠条件等因素而不断流动的团体,为客户提供优质和个性化的服务,是取得客户信任的重要手段。根据二八原则,银行业20%的客户创造了80%的价值,要对这20%的客户实施最优质的服务,前提是发现这20%的重点客户。重点客户的发现通常是由一系列的数据挖掘来实现的。如通过分析客户对产品的应用频率、持续性等指标来判别客户的忠诚度,通过交易数据的详细分析来鉴别哪些是银行希望保持的客户。找到重点客户后,银行就能为客户提供有针对性的服务。
三、数据挖掘在银行业的具体应用
数据挖掘技术在银行业中的应用,其中一个重要前提条件是,必须建立一个统一的中央客户数据库,以提高客户信息的分析能力。中颢润认为,分析开始时,从数据库中收集与客户有关的所有信息、交易记录,进行建模,对数据进行分析,对客户将来的行为进行预测。具体应用分为五个阶段:
(一)加载客户账号信息。这一阶段,主要是进行数据清理,消除现有业务系统中有关客户账户数据不一致的现象,将其整合到中央客户信息库。银行各业务部门对客户有统一的视图,可以进行相关的客户分析,如客户人数,客户分类,基本需求等。
(二)加载客户交易信息阶段。这一阶段主要是把客户与银行分销渠道的所有交易数据,包括柜台,ATM,信用卡,汇款,转账等,加载到中央市场客户信息库。这一阶段完成后,银行可以分析客户使用分销渠道的情况和分销渠道的容量,了解客户,渠道,服务三者之间的关系。
(三)模型评测。这是为客户的每一个账号建立利润评测模型,需要收入和的确定金额,因此需要加载系统的数据到中央数据库。这一阶段完成后,银行可以从组织,用户和产品三个方面分析利润贡献度。如银行可以依客户的利润贡献度安排合适的分销渠道,模拟和预测新产品对银行的利润贡献度等。
(四)优化客户关系。银行应该掌握客户在生活、职业等方面的行为变化及外部的变化,抓住推销新产品和服务的时机。这需要将账号每天发生的交易明细数据,定时加载到中央数据仓库,核对客户行为的变化。如有变化,银行则利用客户的购买倾向模型,渠道喜好模型,利润贡献模型,信用和风险评测模型等,主动与客户取得联系。
(五)风险评估。银行风险管理的对象主要是与资产和负债有关的风险,因此与资产负债有关的业务系统的交易数据要加载到中央数据仓库;然后,银行应按照不同的期间,分析和计算利率敏感性资产和负债之间的缺口,知道银行在不同期间资本比率、资产负债结构、资金情况和净利息收入的变化。
目前,银行业已逐步走向个性化服务和科学决策阶段,数据挖掘具有强大的信息处理和分析能力,可以为银行提供科学的决策依据和技术支持。中颢润认为,在全球化的今天,只有顺应知识经济时代的潮流,充分利用数据挖掘等现代科学技术,才能更好地促进银行业持续、健康的发展。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。【干货】以客户为中心的商业银行数据挖掘技术应用_THU数据派_传送门
【干货】以客户为中心的商业银行数据挖掘技术应用
导读:4月14日下午,数据观-清华大数据“技术·前沿”思享会在北京互联网金融中心成功举办,本期活动主题为“大数据分析与挖掘”。中国民生银行公司业务战略规划部数字化管理中心总经理王彦博发表了主题为“以客户为中心的商业银行数据挖掘技术应用”的演讲。王彦博,英国利物浦大学计算机科学博士、曼彻斯特大学计算机科学博士后,现任职中国民生银行公司业务战略规划部数字化管理中心总经理,从事数据挖掘科研及应用工作十余年,具有丰富的信息化智能分析经验,推行“智慧银行”大数据金融战略。入职民生银行以前,曾任英国国家文本挖掘研究中心副研究员,兼任美国IGI Global出版社《知识社区与社会网络进展》系列丛书副主编、ACM《智能系统与技术》、英国剑桥大学《知识工程回顾》、印度DIVA《数据挖掘与新兴技术》、德国IBAI“业界数据挖掘”、IEEE“计算机应用与系统建模”等国际期刊、学术会议论文审稿专家,并担任IBAI“业界数据挖掘”业界分会场主席。王彦博博士发表著作1部、著作章节3篇、学术论文40余篇、参与编写金融专业书刊2部,获国家专利1项、国家级奖励1项、省部级奖励5项。从题目来看,此次分享所涉及的技术内容是大数据领域中的“数据挖掘”;而在应用层面,我们聚焦于“面向客户的商业银行”应用。首先,我们来看数据挖掘在大数据领域中的定位。● 大数据应用基本框架我们给出一个大数据应用基本框架,从上至下来看:1. 不论任何行业或企业,与客户接触的方式已经从原来的“传统线下业务模式”转化为“互联网业务模式”,甚至还有“O2o2O线上线下相结合模式”,这产生了不同的业务应用场景;2. 随后我们需要对客户市场进行细分,预测客户的需求,掌握客户对产品的响应情况,开展定价分析,激发交叉销售,关注客户的投诉,及时进行客户流失预警及相关风险预测、欺诈识别等;3. 底层是大数据所提供的基础支撑:一是“业务驾驭能力”,或者称为数据与业务的对接能力;二是帮助我们更加直观有效的理解数据所带来的业务洞察,因此我们需要“信息可视化能力”;三是“多类型数据处理能力”,因为我们可能需要涉及对非结构性(文本、图像、音频、视频等各种类型)数据的处理和分析,而不是仅仅专注于结构性(库表类)数据;四是“分布式数据计算能力”,比如我们经常提到的Hadoop框架,主要包含分布式存储和并行计算两部分内容,它可以被看作是开展大数据应用的“加速器”;五是最为关键的“数据挖掘分析能力”,因为即便其他能力均已具备,若缺少有效的数据挖掘模型和算法,就好比“空有体表(业务、可视化)和骨架(多类型数据、分布式并行计算)而缺失灵魂(数据挖掘)”,所以我们说:数据挖掘是大数据应用的核心驱动力。● 商业银行大数据金融四层级框架体系 更进一步,结合金融行业应用实践,尤其是面向商业银行大数据应用,我们提出了四层级框架体系,从下至上来看:1. 所谓“巧妇难为无米之炊”,既然要做大数据金融,肯定得先有大数据以及用以承载大数据的平台,我们称之为“数据基础层”,包括IT基础设施、数据采集、数据存储、数据管控与治理、数据标准化、数据加工处理等内容;2. 往上一层是“数据模型层”,反映了知识探索所通用的四大方法论(逻辑证明、假设检验、仿真模拟、数据挖掘),以及在此基础上数据科学的主要技术展现(固定报表、即席查询、灵活图表、数理统计、分析预测、人工智能、虚拟现实);3. 再往上一层是“业务模型层”,在商业银行应用中,主要会运用经济、金融、市场、管理四大理论体系,用以支撑银行运营中的客户管理、产品管理、渠道管理、营销管理、风险管理、绩效管理、人力资源管理、财务成本管理等方面;4. 最顶端“业务应用层”是按照市场进行划分的公司银行、零售银行、金融市场三大业务板块,以及与客户直接进行接触的分支行营业网点、事业部一线团队、电子银行与直销银行。当这四个层级被完全打通之后,即可实现真正意义上的商业银行大数据金融。在四层级框架体系中,数据挖掘仅为“数据模型层”中的一个重要部分,但有时也可用来泛化理解为整个“数据模型层”,起到了对整体框架体系上下贯穿的重要作用。既然“数据挖掘”在大数据领域中如此重要,下面我们就来剖析一下数据挖掘的理论与内涵。● 数据挖掘的定义经过长时间的学习与实践,我们认为数据的核心思想就是“面向具体业务应用,按照一定的知识发现模式,从海量积累数据中挖掘萃取出一切存在的、有价值的、但人类无法用肉眼识别的各类隐藏规律、规则、趋势等,并加以有效应用,从而达到‘总结过去、预测未来’的智能效果”。尤其从商业银行这个角度来看,我们认为不存在独立于业务的“纯粹”技术,所以一定要面向具体的业务应用来做数据挖掘。数据挖掘的主要任务在数据之中发现潜在的规则,从而更好地描述数据和预测数据。● 数据挖掘标准流程有人说数据挖掘是一门科学,也有人说它美如艺术,但其实每个数据挖掘项目都是一项工程。既然是工程就应该按照标准化的作业流程予以实施,这就需要我们按照“业务理解”、“数据理解”、“数据准备”、“建模”、“评估”、“发布”的流程将数据挖掘落地并实现价值。● 数据挖掘的起源数据挖掘(Data Mining)或称“数据知识发现(Knowledge Discovery in Data,KDD)”这一术语早已让人耳熟能详。然而,作为计算机科学发展中“最年轻”的分支领域,数据挖掘仅有不到30年的发展历史。数据挖掘的概念最早出现在1989年8月于美国底特律召开的第11届国际人工智能联合会议上。在此次国际会议中,召开了一个题为“数据库知识发现(Knowledge Discovery in Databases)”的小型专题研讨会,从此为计算机科学理论研究与应用领域掀开了一个新的篇章。在之后的2-3年中,很多计算机科学家陆续发表多篇论文,对“数据库知识发现”(即“数据挖掘”)概念予以肯定,并投身于数据挖掘科研领域。● 数据挖掘的发展历程在过往的工作和学习中,我们尝试对整个数据挖掘发展历程进行总结归纳,我们认为数据挖掘从最初发展至今经历了五个阶段,分别为:“数据挖掘启蒙阶段”、“知识模式发展阶段”、“数据类型发展阶段”、“应用领域发展阶段”、“大数据发展阶段”。 首先,数据挖掘启蒙阶段(年): 时间重要事件1989美国底特律召开“数据库知识发现”研讨会;1991美国AAAI出版社出版《数据库知识发现》;1992VLDB国际会议发表“数据库知识发现:一个面向字段的方法”;1993提出关联规则挖掘(购物篮分析)模式;提出C4.5决策树分类算法;1994提出Apriori关联规则挖掘算法;1995数据挖掘领域首个国际学术会议“数据知识发现”(ACM KDD)诞生。 第二,知识模式发展阶段(年): 时间重要事件1996提出数量关联规则挖掘模式;提出序列模式挖掘模式;1997提出广义关联规则挖掘模式;提出关联分类挖掘模式;提出聚类关联规则挖掘模式;欧洲PKDD和亚太PAKDD国际学术会议诞生;1998提出CBA关联分类挖掘算法;提出负关联规则挖掘模式;提出加权关联规则挖掘模式;1999“数据仓库与知识发现”(DaWak)国际学术会议诞生;2000截至2000年,数据挖掘将多种技术方法引入自身研究范畴,如:线性、非线性等回归分析,时间序列分析,K-means等聚类分析,贝叶斯、支持向量机、神经网络等分类分析…… 第三,数据类型发展阶段(年): 时间重要事件2001出版《数据挖掘:概念与技术》著作;IEEE-ICDM、IBAI-ICDM、MLDM、SIAM-SDM国际学术会议诞生;探索音乐数据挖掘领域;2002研究图(拓扑图)挖掘领域;探索图像数据挖掘领域;《网络挖掘:分析超文本与半结构化数据》问世;澳洲AusDM国际学术会议成立;2004第一部文本挖掘著作问世,数据挖掘正式进入文本(非结构化)时代;2005“高级数据挖掘与应用”(ADMA)国际学术会议成立;2006《数据挖掘:概念与技术》(第二版)著作中加入流数据挖掘、社交网络挖掘、空间数据挖掘、多媒体数据挖掘等内容;2007提出“独立于语言”的文本分类技术。 第四,应用领域发展阶段(年): 时间重要事件20082008年以前数据挖掘应用主要集中于市场营销、电子商务、生物医药、地理信息等领域;2009《数据挖掘技术:应用实例》中阐述了客户关系管理、市场营销、证券领域、电信领域、产品设计、军事领域等数据挖掘应用;提出股票投资组合应用(基于分配规律挖掘模式);将关联规则(分类)应用于哺乳类动物造骨干细胞分化研究;提出农业数据挖掘;将分类技术用于红酒制造业;提出数据挖掘与基于代理的仿真模拟领域相结合;发表《数据挖掘应用于授权知识社会》,涵盖了诸多社会学应用;2010《知识发现实践与数据挖掘新兴应用》中涵盖DNA微阵列、数字电信系统、商务智能、移动通讯等应用领域;将聚类用于飞机制造业;提出对火星陨石坑影像做数据挖掘分析;2011将分类用于零售银行业客户流失预测;提出数据挖掘在半导体制造业的应用;2012将关联规则挖掘引入酒店业应用;将数据挖掘引入交通与物流行业;开展能源领域数据挖掘…… 第五,大数据时代发展阶段(2013至今): 时间重要事件2013互联网金融元年,为挖掘和分析提供了更广阔的数据源;大数据元年,数据基础层面得到了长足发展(Hadoop、HDFS、MapReduce、Hbase、Hive、Mahout……);在工具层面,R、Python在国内开始广泛流行;探索“深度学习”,并用于人脸识别等人工智能领域;2014Hadoop生态圈中Spark技术在国内广泛推广;基于GPU并行计算的CUDA编程深入推进;2015机器人元年;语音识别、人脸识别、图像识别等人工智能领域得到全面突破;2016虚拟现实元年;AlphaGo实现人工智能领域“划时代”突破…… 以上,我们以点盖面地对整个数据挖掘领域的发展历程做了一个“脉络性”梳理,越是在发展初期阶段,相关内容越容易整理,重要事件也列得比较全,但随着发展进入到应用领域阶段,数据挖掘呈现出“遍地开花”之势,我们梳理的内容可能只是数据挖掘无限广阔应用中的“冰山一角”。此外,当发展进入到下一阶段并不代表上一阶段的发展内容就不再继续了,只是人们所关注的重点发生了转变,比如:进入到“数据类型发展阶段”仍然会有新的知识模式被提出;进入到“应用领域发展阶段”仍然也会探索对新的数据类型进行处理和挖掘。 今天我们已经进入到了大数据时代,所谓“无处不数据”,到处都可以采集、处理、分析和挖掘数据,实现数据的价值。接下来,我们主要针对数据挖掘中的聚类和分类技术进行探讨,其目的不是要阐述数据挖掘能为银行做什么,而是要从根本逻辑上探讨数据挖掘是如何实现银行智能化应用的。● 聚类技术与示例聚类技术基于“物以类聚、人以群分”的朴素思想,依据数据特征属性对数据样本划分类别,实现分群。尤其当不知道数据样本所带有的类别标签时,可以使用聚类技术促使带有相同潜在类别标签的数据样本与其他(标签)的数据样本相分离。聚类是一种“无监督”学习过程。当类别中数据样本的相似性越大,类别间数据样本的差异性越大,聚类的效果就越好。如果一个对象不属于任何类别,那么该对象是基于聚类的离群点。在聚类技术中,K-means算法最为经典,我们选取商业银行客户细分的一个示例,即自动将A-I共9名客户按照他们与银行的往来期(1、1、2、3、4、9、10、12、12个月)分为两群,实际上银行业务层面可能会考虑以“是否开户满6个月”进行划分。我们将K-means算法得到同一结果的计算过程演示如下: ● 分类技术与示例分类技术要解决的问题是为一个数据样本归类,即确定一个特定的样本属于哪一类别。为达成将样本准确归类的目标,我们需要构建一个分类模型(或称“分类器”)。分类模型是通过对已知的历史数据进行学习和训练出来的,所以分类是一种“有监督”学习过程。这里用于建立模型的数据称为学习集(或称“训练集”),通常是已经掌握的历史数据。在学习集中每个数据样本都被赋予一个类别标记,不同的类别具有不同的标记,如“违约”和“不违约”。因此,在已知客户是否违约、是否流失等类标的情况下,通常采用分类技术对客户数据进行挖掘和分析,并对未知类标的(新)客户进行类别预测。在分类技术中,决策树算法最为经典,我们选取商业银行客户信用风险预测的一个示例,即基于14个客户样本,采集客户年龄、性别、月收入、行业信息以及类标信息(是否发生违约),构建决策树用以预测新客户是否存有信用风险。我们将决策树算法的计算过程演示如下: 决策树可以很好地对数据库表进行归纳性描述。未来当面对一名新客户(年龄不高于30岁、男性、月收入高、从事皮具行业)时,我们则先看其月收入信息,如果“高”则再看其行业信息,如果“皮具”则判断他未来会发生“违约”,即预测其存在信用风险。 ● “以客户为中心”的指导原则商业银行大数据金融建设应遵循“以客户为中心”的指导原则。实际上,我们以上给出的两个示例均为“以客户为中心”的银行数据挖掘技术应用,即面向客户采集信息,每个数据样本都表示一名客户,我们对所采集的客户信息进行分析和挖掘,总结归纳相关规律,用以指导银行未来的客户管理工作。 对于商业银行来说,我们总是应该将客户摆在第一位,要充分了解客户的需求,这样才能为客户提供及时有效的产品和服务。接下来,我们需要考虑渠道,即通过什么样的途径与客户接触。当客户、产品、渠道结合在一起就形成了营销管理的概念。但是营销对于商业银行整体业绩来说只是一个方面,因为金融行业还应充分考虑风险,营销创造价值,但同时还要防范风险带来的不确定性和潜在的损失。将营销管理和风险管理结合在一起可以有效评价绩效,将绩效管理分解到每一名员工来进行人力资源管理,同时人力成本也是银行财务与成本管理的一个重要组成部分。而在“平衡计分卡”的逻辑中,财务承接战略。实际上,我们从更细粒度以及逻辑层面阐述了人们较为广泛认知的商业银行大数据应用的四个方面:(1)营销支持(客户管理、产品管理、渠道管理、营销管理),(2)风险管控(风险管理),(3)精细化管理(绩效管理、人力资源管理),(4)决策支持(财务管理)。● 高端客户细分与潜在提升识别关于“以客户为中心”的商业银行数据挖掘技术应用实践,我们介绍如下: ● 面向应用的“混合数据挖掘”在“高端客户细分与潜在提升识别”应用实践过程中,我们通过混合使用聚类技术(K-means算法)和分类技术(决策树算法),实现对目标客户的科学细分,并发掘潜在客户群的业务需求,形成银行的商业机会,与客户实现共赢! 原本在聚类层面我们能够看到每个类别的“类核”,即对每个类别进行群体描述,但类核并不足以帮助我们对每个类别进行丰富的客户特征识别,因此我们在聚类结果的基础上构建决策树分类,开展规则描述,这使我们有能力按照规则对每个(新)客户个体进行类别预测,并阐述判别缘由以便后续制定行动策略。今天,面对日益复杂的应用场景,仅使用单一的数据挖掘技术已经难以满足应用需要,我们将“混合数据挖掘”(Hybrid Data Mining)定义为:面向业务应用场景,将多种数据挖掘模型和算法综合运用,以实现应用价值。关于“混合数据挖掘”我们早期的一些工作可以参阅以下文献:1. Y. J. Wang, Q. Xin, F. Coenen: Hybrid Rule Ordering in Classification Association Rule Mining. Trans. MLDM 1(1): 1-15 (2008)2. Y. J. Wang, F. Coenen, R. Sanderson: A Hybrid Statistical Data Pre-processing Approach for Language-Independent Text Classification. ADMA 93. Y. J. Wang, F. Li, F. Coenen, R. Sanderson, Q. Xin:Hybrid DIAAF/RS: Statistical Textual Feature Selection for Language-Independent Text Classification. ICDM 64. J. Lei, G. Di, F. Coenen, Y. J. Wang: A Hybrid LR/DT Classification Approach for Customer Attrition Risk Prediction in Retail Banking. Industrial Conference on Data Mining - Poster and Industry Proceedings 5. 杨璇:基于数据挖掘的商业银行高端客户细分模型实证研究,硕士论文,对外经贸大学,北京,2015
觉得不错,分享给更多人看到
THU数据派 微信二维码
分享这篇文章
4月22日 22:26
THU数据派 最新头条文章
THU数据派 热门头条文章}

我要回帖

更多关于 数据挖掘建模过程 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信