你能提出一个金融行业哪个领域最好领域中的数据获取的应用案例吗

点击联系发帖人 时间：2020-05-09 14:34

金融行业哪个领域最好

人工智能、区块链、容器技术等噺兴技术的快速演进和发展正在不断地推进企业数字化变革。

人工智能、区块链、容器技术等新兴技术的快速演进和发展正在不断地嶊进企业数字化变革。8月10日由上海市经济和信息化委员会、上海市国有资产监督管理委员会指导，上海市国有资产信息中心、上海市计算机用户协会协办畅享网主办的“颠覆·创新 IT决胜未来——第二届创新技术高峰论坛”在上海掀起了一股关于探讨创新技术发展和实践嘚热潮。百余位CIO、IT专家、学者们莅临本次峰会大会上午探索创新技术发展，下午分享创新技术实践参会嘉宾重新思考“新技术”的落哋路径，共同寻找变革的新机遇打造企业最佳IT应用实践。

会上上海浦东发展总行信息科技部大数据专家陈春宝为我们分享了《大数据與机器学习重塑零售银行业务》，以下为演讲实录畅享网整理。

各位领导各位同仁，大家上午好！很感谢主办方给我们这么好的时间大家可以一边回味上午讲的内容，一边听我聊一聊大数据在银行业的应用首先先做我行的介绍：浦发银行是一家上市银行，关于浦发銀行的信息大家可以在网上搜索我主要是说明两点。第一点是我们浦发银行名字叫上海浦东发展银行但我们全国、全球的业务都做，峩们在国内30个省市自治区设有40家分行在新加坡、香港开设了分行，在伦敦设有代表处未来我们会覆盖更多的国家；第二点我们是一家鉯稳健著称的银行，买过浦发银行股票的会有体会（开个玩笑）

今天我主要分享四部分，第一：总结一下在零售银行业务中大数据正茬重塑的15个应用场景。第二：数字化银行的3个关键技术第三：我行五个比较有代表性的实践案例。最后介绍一下我们近期规划的五个重點任务

大数据正在重塑的15个零售业务场景

按照客户曲线，把大数据在零售业务的主要应用归纳为15个场景第一个在客户获取阶段，有三個场景首先是获客引流，例如外部合作、各类引流模型现在是共享经济的时代，每个客户都是独一无二的但是客户的需求是多元化嘚，各家公司共同合作可以更好的经营客户服务客户，这是大势所趋领域非常重要的一个场景是反欺诈，尤其是申请阶段在这一阶段我们要筑起第一道，把坏人拦截在外面金融蓬勃发展，离不开先进的风控模型其中银行的风险评分卡模型被广泛认可。第一个风控模型是申请评分卡以及相关的信用评分，这两块主要工作是把坏人拦截在门外最近很多银行在与厂商一起做反欺诈，主要有四种技术掱段黑名单、规则、评分模型、关系网络。前三个目前在成熟应用关系网络是未来的发展方向。我们在14年的时候研发了一个社交网絡算法，获得了人民银行的科技发展二等奖未来关系网络产品化并在反欺诈领域定会发挥更大的价值。

客户提升阶段也是三个场景客戶进来，怎么样让客户活跃起来是这个阶段要做的事前。第一个场景是精准营销这也是最成熟的一个领域。精准营销的六大要素怎麼样更精准的把握，非常重要也就是说在客户拓展进来之后，怎么样让客户为我们产生价值我们也要为客户带来价值，做到共赢第彡个就是行为评分模型，狭义上指风控领域的行为评分卡广义上讲金融领域的很多评分模型都可称为行为评分模型。

第三个阶段到了客戶成熟阶段这个阶段怎么样更长久一点，是一个很有挑战性的课题客户维系分为主动的客户维系和被动的客户维系。被动的客户维系昰让客户持有更多的产品提高客户离开的机会成本。主动的客户维系就是做客户细分对客群不断的细分，发现每个客群的需求加载產品，提供服务什么是产品？什么是服务有人说有形的是产品，无形的服务我的理解是，如果我们推荐的产品不是客户需要的就昰销售产品，如果正是客户需要的那就变成了提供服务第三个场景是欺诈侦测，交易阶段的反欺诈坏人已经进来了，怎么样在交易阶段及时发现以便尽早采取措施可以减少损失。

第四阶段是客户衰退阶段人有生老病死，对于大部分客户来说也会面临着衰退、离开峩们怎么样提前预判老客户即将发生的离开、逾期、损失，提前做准备这是预测损失发生的概率，第二个场景是预测损失发生的规模風险一旦发生，危害有多大测算风险敞口。第三是催收评分模型当坏账已经形成，哪些我们自己回收、哪些交给催收公司催收准确判断也可以尽量减少损失。

第五阶段是客户挽留阶段目前也是设置了整个客户生命周期管理的流程。对于高价值的客户我们会提供更优質的服务尽可能的防止或者延缓这个阶段的到来。

数字化银行的3个关键技术

接下来介绍这些业务场景背后的三个支撑技术上午来的时候，同事说我现在再讲大数据太out了别人都讲人工智能了。我想说AI和大数据不是替代关系是不同的发展阶段。大数据意味着更多数据，更多可能我们怎么样全面认识一个客户，依靠更多的数据我举个例子：芝麻信用分的征信评分，这个分数来自于哪里来自于整个阿里庞大的数据板图。阿里这几年在经营一个庞大的产业帝国背后则是一个数据帝国，每一次扩张都为自己的数据拼图增加几块现在佷多人感觉大数据有点过时了，实际上是因为大数据已经变成我们经营当中必不可少的内容未来大数据很有可能像水电煤一样，我们拧開龙头随之即来当然恐怕只有政府有能力做这个事情，除了要有能力汇集、输送全社会的数据还要有足够的公信力。我们也在持续积累大数据建立银行版的用户标签体系，按照业务的层面做了多种划分同时每个标签我们也要按照它的事实层、模型层、预测层做深加笁，这个标签体系未来还会不断的往外扩展

第二是机器学习，数据本身并没有价值也不会产生价值，除非你把数据卖掉怎么样从数據当中获取知识？需要机器学习什么是机器学习？我们每个人都是在不断学习通过看书、参加论坛获得知识。今天大家参加论坛感覺没学到东西，下次就不来了如果觉得今天讲的不错，可能会关注主办方畅享网的官网也可能到百度搜索一下嘉宾，学习嘉宾以前分享的知识这是我们人类的学习。机器学习模式是一样的我讲一个自己的故事，在座的很多都拍过沪牌很难拍，我第一次拍的时候直接就冲进去看了一些规则要在45秒的时候出价，我确实在45秒出价了等到网页打开，手忙脚乱输验证码出错了；第二次又是45秒出价验证碼没打开；第三次我提前5秒钟出价，靠的是我对价格的准确预测一次就中了，因为我多了5秒的时间足够后面的操作机器学习有很多算法，包括人工智能里面有一些算法也是机器学习领域的目前我们在用的这么多算法，我归纳为这么6类、二十几个其中神经网络，尤其昰深度学习大家通常会把它称为人工智能算法。

第三个是移动互联网大数据和机器学习强化了我们的大脑，但是为什么这几年在很哆领域产生的实际价值低于预期？原因就在执行力不够现在人工智能要解决的不仅是思考端，更主要的是执行端我们也有经营的缺陷，以前我们经营局限在中间的小圈里面我们有什么金融产品，老是在这个小圈里做文章最近两年在往外拓展，未来怎么样把我们的金融服务融合到实体产业、大众居民的日常生活当中去是我们要发展的一个趋势。举个例子大家去医院看病，可能花两个小时排队医苼看病花了5分钟，再去花半个小时排队付费再回来看病。如果说医院跟银行合作研发一个便利看病新的业务模式未来很有可能变成你詓医院只要看病就可以了，中间不需要排队、付费银行帮你结算，通过移动互联网这个愿景并不遥远这三个技术加起来促成人工智能嘚应用，人工智能如要真正发挥价值其三个最主要的支撑就是大数据、机器学习和移动互联网，像人一样的学习、思考、执行

浦发银荇数字化实践的5个典型案例

目前人工智能的应有很多，上午介绍的语音识别、智能机器人等等我介绍一下这几年我们五个最经典的案例。阿里有芝麻信用我们也有浦发的信用分，我们自己开发评分的算法对每个客户打上信用分，运用到我们很多场景当中其中有一个消费信贷，由于银行对风控管的很严因为要对客户的资产负责，所以我们之前审贷是很严格的很多客户到了审批环节就被拒掉了，我們用了这个模型之后把风控前置到营销环节，提前发现一些明显评分偏低的、有信用缺陷的客户在营销的时候过滤掉这些客户，可以節省营销资源、改善客户体验目前这款网贷产品的营销拒贷率降为原来的一半，这是信用分的作用这个模型与网贷平台去年获得了人荇科技发展二等奖。

第二我们在做手机银行的“猜你喜欢”网上我们买东西的时候经常会跳出来一些推荐，这个技术已经很成熟这一塊我们起步相对晚一点，目前也开始做我们有很多金融产品，针对每个客户计算对不同产品的喜好度，在手机银行上给每个人展示他朂喜欢的、最感兴趣的产品提升用户的活跃度和使用体验。

第三是最成熟的精准营销精准营销最主要的一个变化，就是由原来的单次、大批量客户的营销模式变成目前的高频次、每一次小批量的客户营销。我举几个代表性的营销案例比如我们有爱客计划，通过模型識别客户的潜在需求推荐感兴趣的产品和服务，我们的成功率接近10%不用模型，用传统的方式则非常低像商旅套餐，结合内外部数据構建模型并开展营销对每一个数据标签做价值评估，作为外部数据合作和采购的依据

第四是平衡风控和营销，我们推出了一个分分钟放款的信贷产品依据经验做营销，营销响应率不足2%我们通过三个模型，一个是营销模型识别客户的需求，一个是信用模型还有一個违约评分模型，通过这三套模型达到营销成功率接近10%审批通过率超过50%，最终落地成功率相比传统模式提升了20倍

第五是为各个业务场景做客户画像，辅助决策我们说大数据，对应着大量的标签当遇到一个问题的时候，究竟应该用哪一个标签针对成千上万个客户标簽，利用我们自己研发的特征识别算法最快几分钟就能算出结果，给每一个场景画客户的脸谱比如三个月内哪些客户有过存取款、半個月内谁在做跨行转帐等等。

近期规划的五个主要任务

最后我介绍一下近期规划我们的目标是让业务更智能、更自动，更便捷第一我們正在构建全域数据的地图，当数据过多的时候使用数据的人会面临一个困惑，我要的数据在哪里哪一个才是我真正想要的数据？这些数据之间有什么关系这个属于数据治理范畴，但却是大数据分析和应用的基础

第二是数据VTM，自助式取数下单联想集团的单总说了┅句话我很认同，技术发展很重要但更重要的是要融入业务，促进业务发展我们数据要用到业务里面去，目前传统企业我相信大部汾企业都是IT是一波人，业务是一波人当业务需要数据的时候提个需求，让IT人帮忙取但是有时候会有问题。比如昨天晚上我们有业务的哃事急需一批数据我们的人员又在忙于其他更重要的事前，业务人员只好自己来写代码这其实也挺好的。因为业务人员掌握一定的技術有助于他提出更合理的数据需求。当然我们也在向业务靠拢会要求技术人员参与到业务中去，另外我们也在积极研发更多数据产品便利业务人员更方便、容易的取到数据。例如我刚刚说的用户脸谱如果给客户经理一个界面，他可以根据算法甄选出来的特征标签自巳去定制、筛选客户清单自助获取数据去开展业务。

第三我们要运用多渠道、自动化的推送机器学习结论把有意义的数据挖掘结论固囮下来，定期生成并推送到决策者、执行者的手机中去让分析报告“活”起来。

第四智能化计算和建模服务于移动互联网终端。传统嘚IT模型建好之后需要开发、变更周期很长。急需更敏捷的投产方式上午建成的模型，下午就能部署、应用与传统方式两条腿走路，朂终的目的是为执行端提供更好的决策支持

第五AI业务架构再造。

通过这张图把我刚才介绍的都串起来，包括数据、算法、工具、产品等促进业务更智能、自动、便捷的开展。

最后如果大家对我介绍的内容感兴趣欢迎参阅《大数据与机器学习：实践方法与行业案例》這本书，谢谢各位

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理

}

摘要：编者按：相对于官员腐败金融领域腐败的危害更大，可能造成更大的国资流失如果不深入开展金融反腐，则会对经济命脉造成巨大影响金融反腐，是我国深叺反腐的重要领域是反腐败的重中之重。本期结合案例和相关通报对金融领域腐败形式进行深度剖析，希望大家结合实际举一反三，汲取教训自觉自醒、警钟长鸣。

中国邮政储蓄银行原行长陶礼明腐败案追踪

中国邮政储蓄银行原行长陶礼明涉嫌受贿、挪用公款被判刑5年内，陶礼明与他人合谋多次恶意超发数亿元国债将其中约3.4亿元国债资金挪用于炒股、投资理财，供个人牟利其手法之专业、规模之巨大十分罕见。

“明星行长”超发国债获利　手法专业多年未被发现

　　生于1953年8月的陶礼明曾任国家邮政局邮政储汇局局长。2007年3月由原邮政储蓄体系改制成立的中国邮政储蓄银行正式挂牌，陶礼明担任第一任行长直至2012年6月，被披露因涉嫌经济问题被查

　　一些知情人士在表达惋惜的同时，坦言原行长堪称“能人”作为一家新成立的银行，邮储银行依靠覆盖全国城乡的网点以小额贷款、对农貸款为特色，成为后起之秀从邮储银行公告来看，挂牌成立至今其资产规模增长了两倍多。截至2013年底其资产规模居中国银行业第七位，仅次于工农中建交和国开行

　　检察机关指控，2000年至2004年的5年间陶礼明与两名同事、下属合谋，先后8次超发凭证式国债累计超发國债共计4.2亿多元。超发国债资金中的3.436亿元被陆续转出为私人牟利。

　　上海财经大学公共经济与管理学院副教授郑春荣等专家介绍我國的凭证式国债由商业银行代理财政部发行，各银行发行规模均是定额的银行如果操作不当引起超发，超出定额的部分通常要自己消化處理“原则上超发资金需妥善返还给认购者”。

　　检察机关调查发现早在2000年凭证式第一期国债发行过程中，邮储银行无意中超发了1253.64萬元下属向其汇报后，陶礼明决定将超发的国债资金用于对外投资随后，陶礼明等三人将投资所得的90余万元予以私分

　　偶然尝到“甜头”的陶礼明，从此将超发国债当做了“挣外快”的门道经陶礼明同意，此后中邮储7次故意操作超发国债“实质就是把广大投资鍺认购的超发国债，当成了‘私产’牟利是明显的违规做法。”上海一家股份制商业银行的债券交易员说由于案件中的手法十分专业，以致挪用后多年未被发觉

　　贵为行长热衷“小钱”　操纵上百亿涉农贷款捞“好处费”

　　记者调查了解到，为了填补其投资亏损嘚窟窿陶礼明或其同伙还挪用其他国有资产，并收取各种“好处费”一些腐败行为涉及的贷款资金规模甚至达到了上百亿元。

　　——利用国有资产、券商资金填补“窟窿”起诉书显示，在陶礼明等人合伙挪用的超发国债资金中有多次直接汇入证券营业部用于炒股，或汇入北京华融投资管理公司、东正投资公司、远望创业投资公司等进行委托投资截至案发，中邮储国债专户中尚有4271.8万元资金未归還。

　　为填补投资亏损带来的“窟窿”与邮储银行同属邮政金融系统旗下的中邮证券公司的资金多次被套取。检察机关指控经与陶禮明合谋超发国债的中邮证券公司原总经理李春太多次安排，仅在2011年就分三次将套取的800万元归还其挪用的国债资金。

　　——贵为行长存折印刷、广告装修也要“揩一层油”。检察机关还查明陶礼明为他人谋取利益，非法收受贿赂款共计人民币1534万元、美元99万元、欧元1萬元从不起眼的存折印刷、广告业务，到大楼装修、软件合作这位掌握上万亿金融资产的银行行长不放过任何一个可以“揩油”的机會。

　　仅在2002年4月至2011年9月浙江温州一家印务公司为承揽中国邮储银行的存折印刷业务，就向陶礼明分10次提供了550万元“好处费”

　　——操纵上百亿新农村贷款，贷款好处费动辄百万起诉书显示，陶礼明收取的贷款“好处费”涉及多家上市公司、地方政府融资平台2008年4朤至2012年4月，湖南高速、丹阳城投、江苏交通及其子公司宁沪高速等6家企业获得融资109.5亿元陶礼明团伙从这6家企业得到“好处费”、“回扣”、“提成”共计7864万余元，陶礼明从中分得230万元对此，陶礼明在法庭上供认不讳

　　记者了解到，上述多数融资是通过监管机构批准開展的“新农村基础设施建设专项融资业务”进行的专业人士介绍，这是国家为了改善农村生产生活条件而开展的低息专项贷款业务這类贷款竟也被“运作”演化为个人牟利的黑色利益链——即在明知不符合项目要求的情况下，为了分得“好处费”仍审批同意放贷。

　　国企高管“能人腐败”　留下诸多“制度性问号”

多位银行业人士表示“明星银行家”陶礼明的落马，警示了国企高管的“能人腐敗”现象近日中央巡视组在反馈中表示，一些地方权力寻租机会较多、空间较大“能人腐败”问题突出。“一边是骄人业绩一边是巨额受贿。”中国社会科学院中国廉政研究中心副秘书长高波指出应从改革国企高管考评机制入手，提高其违纪违法成本

　　——类姒陶礼明等人超发凭证式国债的漏洞要如何封堵，怎样让国债资金安全不再形同虚设上海一家大型券商债券部董事透露，目前在凭证式國债的发行过程中记录分散在各网点，而且大部分采取手工方式“所以超发国债便于操作，难以发现亟待封堵漏洞。”

　　——为支持农村建设设立的专项贷款为何成为行贿寻租的“方便之门”？上海交通大学中国金融研究院副院长费方域等专家认为与市场上的囻间贷款利率相比，目前银行利率较低国家批准的专项融资贷款更是利率低、周期长。即使支付高额贿赂行贿企业和经办人仍然“划算”。“信贷腐败挤压了正常的贷款空间扰乱了市场秩序。连大企业拿贷款也要送钱中小企业想尽办法都难以拿到贷款。”

　　——僅靠陶礼明一个人的一支笔就能决定上百亿的资金去向，这样的国企高管“一支笔”现象如何约束“目前很多金融高管其实都是官员，不用对出的问题负责没有职业经理人的问责制度。”上海财经大学金融学院副院长奚君羊认为改革还是要走市场化道路，分散贷款審批的权力不能再让一个人说了算。

金融反腐撕开潜藏腐败网络

--中纪委通报查处金融领域领导干部

据中纪委网站的公开信息不完全统计自十八大以来，金融领域涉嫌违规违纪被调查的金融监管人员和金融机构人员至少有近50个其中不乏“大老虎”。

2017年4月保监会主席项俊波被调查。

2015年11月中国证监会原党委委员、副主席姚刚涉嫌严重违纪被组织调查。

2014年7月证监会山西监管局原副巡视员贾岷岫利用丈夫職务之便为他人谋取不正当利益，收受贿赂被“双开”

2014年12月，证监会投保局原局长李量因受贿被调查

2015年6月，中国证监会发行部处长李誌玲因配偶违规买卖股票受到行政开除处分，同时也涉嫌职务犯罪；同年9月中国证监会主席助理张育军涉嫌严重违纪接受组织调查，11朤则是姚刚的落马

2017年2月，人保集团党委副书记、副董事长、总裁王银成涉嫌严重违纪接受组织审查；2015年11月中国出口信用保险公司首席審计官、审计部总经理、监事会办公室主任马仑涉嫌严重违纪，接受调查；同一天中国出口信用保险公司党委办公室主任胡正明也因干擾中央巡视组对公司专项巡视工作的开展，构成违反中央巡视工作纪律和党的政治纪律错误被调离党委办公室、办公室主任岗位；而在2013姩12月，中国出口信用保险公司原副总经理戴春宁同他人贪污巨额公款利用职务上的便利为有关公司或个人谋取利益，单独或伙同他人收受巨额贿赂也被开除党籍。

2015年11月银行业协会原党委书记王岩岫，因长期隐瞒其配偶加入美国国籍的事实多次未经批准出席有关论坛、会议，违反中央八项规定精神违反党的组织纪律；违规收取报酬，并超标准接受接待被撤销党内职务、行政降级处分。相隔一天遼宁银监局原党委书记、局长李林也因履职不到位，对干部任职相关程序性规定不落实负有领导责任导致不良后果，违反党的组织纪律受到党内警告处分

2017年2月，交通银行原党委委员、首席风险官杨东平也因违反政治纪律对抗组织审查；违反廉洁纪律，利用职权和职务仩的影响为私营企业主获取贷款提供帮助本人和亲属从中谋取私利，被开除党籍和公职

2016年9月，国开行原党委副书记、监事长姚中民也洇顶风违纪收受礼金、礼品，搞权色、钱色交易利用职务上的便利为他人谋取利益并收受财物，涉嫌受贿犯罪等被开除党籍和公职

┅场金融业“不留死角”的全面检查大幕已经拉开，横向上从债市领域开始延伸到基金、银行等领域，纵向上从“80后”的明星基金经悝，到行业元老机构高管。诚如中国纪检监察报的观点“对腐败而言，尽管腐败形式多种多样但其利益输送多离不开金融这一载体與纽带。因此做好金融反腐，不仅是金融行业哪个领域最好健康发展的内在需要也是反腐败这一系统工程的重要组成部分。”

金融腐敗是指金融机构及其从业人员在经营管理及其他活动中为谋取私利，利用掌握的资金资源及其他相关资源违反国家法律及金融政策、規定，侵害国家、公众及本组织利益的行为或现象金融反腐是重中之重，如果不深入整治腐败可能对国家的经济命脉有直接的影响。為增强系统预防效果我们对此类案件进行了综合分析，着重从以下五个环节加以注意

一是滥用权力。如滥用审批特权，管理部门通過拒绝、提高准入门槛或增加不合理要求故意刁难，谋求腐败利益有些金融机构高管，利用手中权力为企业发放贷款、逃废债务等提供方便，例如在对融资风险把握不大或者明知风险较大的情况下向关系方提供利率低、还贷期限长、放宽额度等优惠贷款，为企业和咾板牟取非法利益

二是利用职务便利。有些金融机构高级管理人员及重要岗位人员利用其职责范围内主管、经手、管理公共财产的职权所形成的便利条件通过假借执行职务，侵吞、窃取、骗取本机构的公共财产或通过非规范交易收受经营者以手续费、劳务费、佣金等洺义给付的现金或实物。有的伪造单据假借户头，凭空转汇私吞资金透支储户存款、利息，收入不入帐贪污、挪用公款，为自己的親属、朋友经商办企业提供资金和财产上的便利等等

三是泄露重大信息。一方面我国对金融的管控严格一方面金融市场的竞争日趋激烮，这就是导致核心机密的市场价格昂贵一些人为了谋取不当利益，不惜以重大的金融决策机密以种种不正当的途径泄露为代价

四是咴色商业贿赂和单位犯罪多发。在有些情况下商业贿赂并不是直接贿赂给本人，而是某一个集体导致单位内部的小团体性犯罪。银行業不正当交易和商业贿赂行为主要发生在存贷款业务、票据承兑贴现业务、出具信用证（保函、资信证明）、信用卡等授信（授权）管悝、结算、不良资产处置等业务领域和基建工作、营业用房装修、商业广告制作和大宗物品采购以及科技设备购置等业务环节。

五是参与洗钱等金融犯罪活动境内外犯罪分子已经开始拉拢、腐蚀我国金融从业人员，已有银行工作人员协助了国际洗钱活动另外，驻外中资銀行工作人员可能成为职务犯罪高发人群

}

分享嘉宾：李渔熵简科技联合创始人

导读： 在数字化浪潮的大背景下金融资管行业的先行者正在积极探索将人工智能、大数据等先进技术用于构建面向未来的智能化投資研究平台。本文将从金融资管领域对于数据智能的需求入手详细介绍自然语言处理技术在金融资管领域的典型落地实践。针对海量文夲的信息挖掘场景我们利用 Transformer、CNN 等最新研究成果以及团队自研的 tag2vec 等技术，构建了端到端的文本大数据分析系统包含了从海量文本智能化采集、文本数据结构化到辅助投资决策的全流程，实现千万级文本数据的采集和快速分析进而帮助客户进行快速精准的行业分析和投资決策。针对少样本下的文本数据监控场景我们基于熵简 NLP 技术中台所提供的分层技术架构，利用文本增强技术、少样本学习、迁移学习等思想在少样本场景下构建高效能的金融舆情监控系统，帮助金融资管客户实现从数据负债到数据资产的跨越从中获取前瞻的商业洞察，赢得先机

端到端的招标文本分析系统
少样本场景下的金融舆情监控系统

1. 非结构化数据快速增长

信息不对称是金融行业哪个领域最好的夲质特征与竞争焦点。如上图是一张来自 IDC 的报告，表明最近几年全球新增的数据有 80% 来自非结构化数据所以大量及时有效的信息分布在非结构化的文本数据中，如研报、新闻资讯、Twitter 中金融机构需要借助自然语言处理技术从中高效、准确地挖掘出结构化信息，从中获取前瞻的商业洞察

我们团队运用迁移学习、少样本学习、无监督学习等人工智能领域最新思想和技术，已经构建起完善的自然语言处理技术架构提供端到端的海量文本分析和监控系统，帮助金融资管客户跨越非结构化文本到结构化数据的鸿沟进而辅助客户进行快速的行业汾析、投资决策。

接下来我们看下 NLP 技术如何嵌入到行业分析和投资决策的：

智能化的投研流程包括：

数据层：这一阶段的核心任务是数据嘚获取包括结构化和非结构化数据两大类，其中非结构化数据包括如研究报告、新闻资讯等等
数据中台：这一阶段的核心任务是将原始数据转化为投资研究可以直接用的指标类数据。一方面系统利用 NLP 技术，将非结构化的文本数据转化为结构化的数据在此基础上，系統利用大数据、机器学习等技术将 NLP 结构化之后的数据以及其他原本就是结构化的数据进行建模分析，进一步将数据淬炼为知识
知识图譜：这一阶段的核心任务是将上一步得到的知识和事实，转变为投资建议机器利用已经沉淀了分析师投研框架的知识图谱，通过逻辑推悝、风险控制等方式将上一阶段获取的大量知识进行分析和推理，最终形成具有决策参考价值的投研情报

最终这三个阶段形成了一个唍整的从数据获取-> 数据处理-> 数据建模-> 逻辑推理的链条。这个链条构成了一个完全自动化、工业化、24 小时不停机的智能化投研系统

为了实現智能投研系统的目标，我们来看下自然语言处理技术的架构是什么样的：

3. 自然语言处理技术架构

我们的自然语言处理技术架构分为：应鼡层、组件层和预料层

应用层：直接对接业务逻辑，目前熵简科技 30+ 端到端文本分析系统服务于 20+ 金融资管和咨询领域的机构，累计 30+ 业务應用场景

组件层：提供自然语言处理中的基础算法组件，包括智能分词组件、词性标注、依存语法分析、词向量、语义相似度、命名实體识别组件

语料层：语料层提供基础层中各算法组件、应用层中各算法模块的训练和测试语料。

基础组件的通用语料如通用文本语料、通用命名实体识别语料等；
领域相关的语料，如金融词典库、研报分类库、上市公司信息库等

通过这种方式构建的自然语言处理架构囿两个显而易见的好处：

我们把共用的组件单独抽离出来，可以快速的构建上层的业务系统
层次分明各个组件各司其职，对于技术和业務同学都比较友好容易上手

接下来介绍两个比较典型的应用场景：招投标文本分析系统和金融舆情监控系统。

招投标文本分析系统的特點是端到端和海量的文本
金融舆情监控系统对应的场景主要是少样本的场景

通过这两个典型的金融应用场景来分享我们在实际实践的过程中遇到的一些问题和解决思路。

02 端到端的招投标文本分析系统

公司在采购软硬件时一般会发布一个招标公告，供应商看到公告后撰寫并提交自己的投标书，甲方评估后发布中标公告告知大家谁中标。

招投标数据为什么重要

对于一家上市公司而言，如果主营业务是 toB 嘚模式我们可以通过招投标的数据来预测公司的营业收入，比如一家公司中标了一个大单我们可以通过招投标数据提前预知。

左边是┅家公司披露的中标公告中标金额 6.5 亿，公告的发布时间是 17 年的 10 月 17 日；中间是我们在互联网公开数据中采集到的中标公告无论是项目名稱、中标单位、中标金额，都和左边的内容是一致的唯一不同的是时间，我们采集到数据的时间比公司披露的时间早了 16 天，这就可以幫助我们在获得关键信息上占有优势

1. 招投标大数据分析系统技术架构图

为了实现全网的招投标数据监控，我们研发了端到端的智能化招投标文本分析系统实现了千万级招投标文本的流式处理。主要包括：智能化网页抽取系统、招投标文本分析服务和数据展示首先我们嘚招投标文本分析系统会从外部海量的招投标网站上采集最原始的招投标标书，接下来用招投标文本分析服务对标书进行结构化的处理紦其中最关键的信息提取出来，最终利用数据展示、分析面板对数据进行二次的分析和展示方便业务人员使用。

下面为大家介绍其中最核心的两个算法组件智能网页抽取系统和招投标信息抽取模型。

2. 智能网页抽取系统

常规的数据采集步骤包括：

对页面采集规则进行撰写
根据规则把内容抽取出来

由于需要采集的网站非常多需要大量的人力，导致成本非常高效率低下。所以我们需要一套智能化的信息抽取引擎可以从海量网页类文本数据中自动化地抽取出特定区域、特定用途的文本片段，即从招投标网页数据中抽取标书标题、标书正文

国内的资讯网站 10 万 + ，网页类型种类繁多模板不计其数，无法通过统一化的规则处理；
网页内容基于 HTML 标签以树的方式进行组织和布局(二維)而传统文本是一维序列。

每一个网页可以等价成带有各类信息的树新闻正文的文本、图片、超链接 分布在树上的各个红色节点， 因此需要剔除无关节点再按照节点位置信息进行序列化，这里的难点是如何高精度的剔除无关节点

我们首先要解决的问题是把网页中的 HTML 編码的标签和属性进行数值化的表示。针对这个问题受到 word2vec 的 Skip-gram 思想启发，我们提出了 tag embedding 的算法模型目标函数如上。其关键思想是用当前节點的 tag 去预测父节点的 tag 和子节点的 tag

可在大规模数据集上进行无监督训练，学习出 tag 与 tag 之间的语义关联、主次关系等
1000 万 + 原始网页数据参与训练
顯著提高后续分类模型的泛化能力
显著降低分类模型对于标注数据量的需求仅需几万标注数据即可达到很高准确率

基于全连接网络的二汾类器：

有了 Tag embedding 之后，我们进一步提出了基于三层前馈神经网络的二分类器主要用来判断节点是否保留。

如上图输入特征主要包括：父節点的标签信息、子节点的标签信息、当前节点的标签信息，以及当前节点在其它方面的特征比如当前节点包含文本的长度是多少、超鏈接的数目是多少。

训练数据量：4 万标注数据来自 100 个招投标网站
在 1000 个网站上进行了测试，标题提取准确率 98%正文提取准确率 96%

使用相对简單的三层前馈神经网络的原因，主要是：

我们的应用场景要求实时处理海量的网页资料所以对计算效率要求是很高的
受到前面 Tag embedding 的好处，巳经在进行无监督的大规模训练三层的神经网络已经可以达到很好的性能

同时，这种模型的思想还可以推广到其它任务：

网页类型判定：目录页、正文页、广告页、图片页
其他关键信息：目录链接抽取、作者信息抽取等

目前我们已经实现了海量招投标文本的采集，接下來我们需要把文本数据进行结构化得到我们想要的数据字段。

3. 招投标信息抽取模型

我们招投标信息提取模型的目标是从海量的招投标标書中提取关键信息，如招标单位、中标单位、中标金额、产品类型等等

这其中的难点是招投标文件完全由撰写人来拟定，没有规范统┅的格式无法通过统一化的规则处理：

中标单位的表述多种多样：承建商、供应商等；
招标单位出现在标题中；

② 特定实体类抽取方案：

我们把这个任务抽象之后，跟命名实体识别非常类似在我们的处理框架中，把它定义为特定实体类抽取其结构包括：预处理层、实體提取层、实体判别层、选举决策层。这里重点介绍下实体提取层和实体判别层：

实体提取层：集成了基于外部实体库的提取器、命名实體识别组件、正则实体提取器来提取机构、金额两类实体，最终得到实体集合及上下文特征
实体判别层：根据其上下文特征判断该实體是否为目标实体，这里我们集成了基于人工规则的实体判断、基于关键词匹配的实体判断以及基于卷积神经网络的实体判断

通过这种兩阶段处理，多模型融合第一阶段不依赖于领域语料，采用通用命名实体识别语料训练第二阶段在少量招投标专业语料训练即可。同時实现了高召回和高精度

接下来详细介绍下这两阶段中的核心模块，通用命名实体识别和 CNN 判别器

对于通用命名实体识别组件，我们团隊先后迭代了几个版本目前最新的方案参考了复旦大学邱老师团队在 19 年提出的模型。在这个模型中我们主要是以改进的 Transformer 模型为主要的特征提取器再结合 CRF 层，引入全局约束信息来实现命名实体识别任务左图为整个方案的结构图，右图为原生的 Transformer 结构用来做对比。

我们的方案相对于原生的 Transformer 主要做了两个方面改进：

Embedding 层：原生 Transformer 只采用了 token embedding而在我们的方案中同时采用了单个字的嵌入和 bigram embedding，有效的增加了输入文本的表达能力目前已经有很多文献表明，bi-gram embedding 一般可以提高命名实体识别模型的表现详细的实验，大家可以参考上图中 18 年的文章
改进了 Transformer 结构原有的自注意力层，通过调整原生结构位置的坐标点可以同时捕捉到方向信息和相对位置信息的特征。

④ 基于卷积神经网络的实体判决

這里我们采用 TextCNN 作为核心组件整个网络由 Embedding 层、卷积层和前向网络层构成。

卷积层：在卷积层我们采用了不同大小的卷积窗口来捕捉不同距离的特征；同时我们把最大池化改成了 top k pooling，通过保留一些模型弱的特征来保证模型的鲁棒性。

招投标信息抽取模型的测试结果：

我们在 5000 條招投标数据上的测试结果如上简单总结如下：

本文版权归作者和共有，欢迎转载但未经作者同意必须保留此段声明，且在文章页面奣显位置给出

高召回实体提取器：采用基于 TENER 的命名实体识别 + 基于外部信息库的实体提取 + 消歧模型的混合架构使得三类实体的平均召回率為 0.97。
**高精度实体判别器：**基于 CNN + 人工规则 + 关键词匹配的联邦竞选架构实现高鲁棒性，平均精确率为 0.96
并行计算，模型轻量计算效率高。仳 BERT 模型 F1 值高两个百分点同等硬件条件下，预测速率是 BERT 的 20 倍计算效率很高。

4. 端到端招投标大数据分析系统

基于前面的成果我们可以构建起招投标大数据分析系统，这一系统包含了从海量标书智能化采集、文本数据结构化到辅助投资决策的全流程实现千万级文本数据的采集和快速分析，帮助客户预测跟踪 toB 行业与公司的发展状况及竞争格局

海量标书智能采集：覆盖 700+ 招投标网站，5000+ 万份标书其中 60% 为政府网站，20% 为央企及国企网站20% 为医院、学校等事业单位及细分行业招投标公示平台。
文本数据结构化：对于海量标书进行实时处理从中提取 Φ标金额、招标单位、中标单位等关键信息，提供客户、地域、时间等多维度分析

5. 招投标大数据分析系统部分功能展示

这里展示了如何運用招投标数据对海康威视进行公司发展状况分析和业绩预测。比如通过历史数据回测，我们发现中标数据与公司定期公布的季度收入高度相关因此这一数据可以作为未来业绩预测的一项重要参考基准。另外利用地域分析，我们可以了解到海康威视在不同地区的竞争格局和营收状况从而更深入地了解这家公司的经营状况。

提出了一种 Tag embedding 的算法实现了 HTML 标签的分布式表示。在此基础上结合网页其他特征，我们构建了一种基于 前馈神经网络 的网页内容自动化抽取系统 实现了 700+ 招投标网站、千万级标书的
构建了一种两阶段思想的招投标信息提取系统。在第一阶段以改进的 Transformer 网络为核心实现了 F1 达到 0.97 的实体提取。在第二阶段以带有 Position embedding 的 CNN 网络为核心，最终实现了 F1 值接近 0.96 的整体系統表现
构建了一种以网页内容自动化抽取、招投标信息提取模型为核心的端到端招投标大数据分析系统，实现了 5000 万 + 文本数据的采集和快速分析可帮助客户预测跟踪 to B 行业与公司的发展状况及竞争格局。

03 少样本场景下的金融舆情监控系统

1. 金融舆情监控系统

在金融领域存在兩类机构，一类是买方一类是卖方。买方一般直接操作股票的买卖如公募基金、私募基金等；卖方主要进行股票的分析和研究，为买方提供咨询和建议主要包括券商和独立的研究机构等。通常一家买方机构往往会对接多家卖方机构为其服务。我们知道微信已经成為了一个工作平台，因此微信群成了卖方服务的重要场景一个分析师往往会有几十个卖方服务群，每时每刻都可能收到来自这些群的信息轰炸这一场景主要面临的痛点有：

消息遗漏：微信群数量众多，无法及时查看消息一些文件超过有效期无法查看
噪音过多：群内消息类型各异，信息噪音过多寻找有用信息困难
信息零散：无法汇总全部信息，了解卖方观点的全局趋势

针对这些痛点我们提出了金融輿情监控系统的解决方案，可以做到：

无遗漏：自动汇总卖方群中的全部研究资料包括各类调研邀请、文章分享、微信消息和 PDF 文件
高效率：可进行行业、公司、消息类别在内的多维筛选，精准定位有用信息
可持续：能够按照微信群或发言人的方式进行信息订阅持续关注特定券商、特定团队的信息
可分析：聚合特定时段的全部信息，进行多维度热点分析为用户推送热门信息

金融舆情监控系统的流程：

首先把微信群中的信息，如文本信息、链接、文件等抽取成公司、行业、机构等 3 类标签然后进行业务分类，目前有 4 个大类11 个小类，同时峩们的系统还会把结构化的文本提取出来如文章作者、会议时间等等。这样就可以做很多有价值的应用：如热点追踪、分类汇总、报告檢索、事件发现、投研日历等等

2. 金融舆情监控系统技术架构图

金融舆情监控系统技术架构包括 3 层服务：金融舆情文本分析服务、数据清洗服务、展示服务。

其中金融舆情文本分析服务最关键的三个组件是：信息类型分类、一级行业分类和特定实体提取。

在实践中很多與金融领域内的问题都与特定的场景相关，金融公司通常面临的少样本困境主要包括：

数据搜集成本高：与业务场景相关可搜集的数据量少，数据搜集的时间成本很高
数据标注难度高：金融领域的问题，需要业务人员甚至金融分析师参与标注

针对少样本困境，常用的蕗径有：迁移学习、数据增强、无监督学习、半监督学习接下来，我们通过介绍金融舆情中两类主要算法组件的实现方式来分享我们解决少样本问题的思路。

4. 微信信息分类模型

微信信息分类模型的目标：对微信群里的文本信息、文件、链接消息等消息进行分类分为公司深度、公司点评、行业深度、行业点评、宏观策略报告、固收报告、调研纪要、会议纪要、调研邀请、会议邀请及其他，共 11 个类别

整個模型是以 TextCNN 网络和 Fasttext 作为两个基本模型，再通过 XGBoost 将两个模型集成起来这里用到的 TextCNN 网络与前面的招投标网络基本是一致的，除了在 Embedding 层我们紦位置向量去掉了。其好处有：

高鲁棒性：采用 XGBoost 将多层 CNN 网络和 Fasttext 网络集成融合深层模型与浅层模型的长处，提供算法鲁棒
模型轻量，计算效率高

文本增强技术是一类低成本的数据杠杆，可以在不引入新数据下有效撬动模型性能，尤其在少样本场景下

少样本场景：扩充原始样本集，性价比高又快又省。
样本不均衡：扩充小比例类别平衡样本集，提升模型性能
提高鲁棒性：在训练集中引入噪声，提升模型鲁棒性
半监督训练：用于无标签数据，构造半监督训练的样本对

总的来说，由于文本增强技术可以提高模型的鲁棒性除非數据量非常丰富，通常可以采用文本增强技术进行尝试一般都有正向的效果。

典型的文本增强技术有：

EDA：基本思想 是对原始文本进行四類随机操作分别包括同义词替换、随机插入、随机交换 和随机删除。
非核心词替换：基本思想 是利用 TF-IDF 评估句子中每个单词的重要性用詞典中非核心词去替换句子中的不重要词。

关于文本增强技术的详细介绍可参考我们团队之前的一篇文章：

6. 数据增强的实验结果

样本集： 数据集共包含约 2200 条有效样本。其中公司点评类样本最多，约 500 条固收报告和调研邀请最少，在 150~200 条之间
测试集： 随机选择各类别约 100 条數据，共约 900 条
训练集： 除测试集外的剩余样本数据共约 1300 条，各类别样本约 150 条

实验结果见右图总结如下：

数据杠杆： 采用回译、EDA、非核惢词替换等多维度文本数据增强方法，三类技术均可以带来 6~9 个百分点的提升
小样本场景下效果显著： 在 20% 的小样本下（各类样本平均 30 条），文本增强技术效果最为显著可以实现约 9 个百分点的提升。
三类方法效果相近 ：三类方法均可以有效提升模型性能在全数据集下，三類方法均可以提升 **5 **个百分点左右

最终的实验结果见上图，通过本文增强技术以及一些其它方法我们基本解决了少样本问题。

文本增强技术为什么可以在没有引入额外数据的情况下起到这么好的效果？

这里给大家分享下我们的思考：

正则化： 本质上都是设计者表达了一種模型偏好或者对于模型的分布施加了较强的先验分布假设。例如EDA 表达的偏好是，模型应该对于文本局部噪声不敏感
迁移学习： 回譯的有效性来源于外部预训练好的翻译模型。可以理解为将外部预训练好的模型从其他地方所学习到的信息或者知识迁移到了当前的任务Φ提高了整体数据的信息容量，进而更好地指导当前模型的学习
提高模型鲁棒性： EDA、非核心词替换等技术除了可以从语义层面的噪声來看待，同时还可以看作是对于输入数据施加一般化噪声（与具体任务无关的）实现类似于 dropout 层的功能，而这一思路已经被各个研究证明可以一定程度提高模型的鲁棒性。
流形：根据流形分布定律同一类标签的文本，往往集中在高维文本空间上某一个低维流形上，因此有效的文本增强技术应该保证新生成的文本仍然是该流形上的一点

7. 微信行业分类模型

模型目标： 对微信群里的 文本信息、文件、链接 消息等消息进行行业分类，以中信一级行业分类作为分类基准包括餐饮旅游、商贸零售、纺织服装、农林牧渔、建筑、石油石化、通信、计算机等 29 个行业类别。这里我们仍然以 TextCNN 作为 baseline 尝试解决只要样本足够，就能得到很好的效果

但是问题恰恰是样本量太少了：

样本集： 數据集共包含约 1200 条有效样本
测试集： 随机选择 600 条，各类别在 10~30 条之间
训练集： 除测试集外的剩余样本数据共约 600 条，各类别在 10~25 条之间

对这个問题我们提出了三阶段训练的模型优化算法。整个流程如下：

Step1： 词向量预训练在数十亿级海量语料上预训练，在 10 万研报数据上进行二佽训练提升领域相关词汇的 embedding 分布。
Step2： 在原始样本上训练初版模型利用这个模型对 10 万研报数据进行行业分类，保留类别置信度大于某个閾值的研报样本用这些研报样本二次训练模型。多次迭代这个过程
Step3： 将 step2 中的模型参数作为初始值，在原始样本上进行训练获得最终模型。

整个过程可以类比为：第一阶段是高中学习主要掌握通识知识。第二阶段是大学本科主要掌握专业内的基础知识。第三阶段是研究生学习主要解决专业领域内某一类细分问题。

其中的核心思想是通过这种三阶段训练的方式，将外部海量研报中关于行业类别的汾布信息迁移到微信这个任务中

实验结果见上图右边部分：

三阶段训练法效果显著： 三阶段训练法有效提升模型性能，尤其在在小样本尛（约每个类别 5~8 条）得益于迁移学习，可以提升模型 F1 值 48 个百分点
有效降低样本需求： 即使在数据量只有 60% 的情况，模型的表现超过 100% 数据丅的 baseline 3 个百分点

既然 3 阶段的训练方式是有效的，我们是不是可以把从外部研报学习到的知识用网络单独固化下来基于这样的一种想法，峩们提出了行业记忆网络结构与 TextCNN 网络一起构成了混合模型。对于输入的文本一方面会进行卷积运算和特征提取，另一方面会送入记忆網络中这个网络首先对原始的文本用网络中学到的 industry embedding 进行编码，运用多层注意力机制有效捕获文本中的行业属性，最终在 30 种不同领域的樣本集下训练捕获了同一个词汇在多种场景下的行业特性。

整个混合模型的迁移学习思想包括：

采用海量通用语料预训练的 word embedding学习到词嘚共现信息，即词义信息

基本思想是运用外部海量语料学习词汇的行业领域信息：

Step1：将 10 万的研报语料库按照行业特性，分成 29 个 样本集烸个样本集包含 1 类行业研报，作为正例其他 28 类研报随机采样，构成反例

Step2：针对 29 个样本集，训练 29 个 SVM 模型目标任务是对研报进行二分类，判断是否属于目标行业

降维之后的可视化的效果。最下面红圈中的词汇包含了海天、啤酒、食品饮料经常下厨房的同学都知道，海忝是国内知名的调味料生产企业在行业属性上确实应该与啤酒、食品饮料同属一个行业。从这个可视化结果可以看来industry embedding 的算法已经学习箌词汇的行业信息。

行业记忆网络的实验结果：

最后我们综合运用了行业记忆网络和文本增强这两项技术，其中的细节如下：

样本集： 數据集共包含约 1200 条有效样本
测试集： 随机选择 600 条各类别在 10~30 条之间
训练集： 除测试集外的剩余样本数据，共约 600 条各类别在 10~25 条之间

行业记憶网络效果显著： 行业记忆网络可以有效提升模型性能，尤其在在小样本小（约每个类别 5~8 条）结合数据增强技术，可以提升模型 F1 值 50 个百汾点
有效降低样本需求： 结合行业记忆网络和数据增强技术，即使在数据量只有 60% 的情况模型的表现超过 100% 数据下的 baseline 6 个百分点
并行计算，模型轻量计算效率高： 模型由 CNN 网络和行业记忆网络构成。其中CNN 网络和行业记忆网络均支持并行运算，且模型轻量因此计算效率高。

徝得一提的是相对于前面的三阶段训练算法，行业记忆网络的一个优势是这个网络是与具体任务无关的。由于它本质上是存储了词汇嘚行业信息因此它可以很方便地用到其他涉及到行业分析相关的自然语言处理任务中。

8. 特定实体提取模型

这里的特定实体提取模型和前媔招投标的实体提取模型基本是一致的唯一不同的是我们在实体提取层引入了实体消歧模块。

9. 金融舆情监控系统功能展示

最后简单展礻一下金融舆情监控系统的一些功能，如热点追踪和列表视图在热点追踪页面，用户可以第一时间获取机构的关注焦点了解卖方的研究热点和公司线索。在列表视图页面我们可以按照事件、公司、行业、消息类型等等，多维度的查看历史信息

提出了一种基于行业记憶网络的迁移学习算法，实现了词汇行业信息的分布式表示该算法帮助微信行业分类模型在仅有 200 条数据的少样本场景下，实现了 **25 **个百分點的提升
提出了一种三阶段模型优化算法，完成了行业知识从外部海量研报到微信行业分类任务的迁移在仅有 120 条少样本场景下，实现叻 **48 **个百分点的提升
回顾了当前几类典型的文本增强技术，证明了文本增强技术是一类低成本的数据杠杆可以在原有数据集的基础上有效提升模型性能。基于文本增强技术我们实现了微信类型分类模型 **6~~9 **个百分点的提升，微信行业分类模型 **3~~30 **个百分点的提升
基于熵简 NLP 的层佽化技术架构，我们构建了一种金融舆情监控系统用于对卖方微信群消息进行多维度的信息提取和分析，可帮助金融资管客户实现从数據负债到数据资产的跨越获取前瞻的商业洞察，赢得先机

信息不对称是金融业的竞争焦点。大量及时有效的信息都隐藏在非结构化的攵本中金融机构需运用 NLP 技术理解内容、挖掘信息，从而赢取在关键信息上的竞争优势
自然语言处理属于认知层面的技术，更是人工智能领域的明珠目前，这一领域还有很多关键问题和理论没有突破远远达不到人们期望的水平。我们的经验是当前的 NLP 技术不适合做成泛化的工具。技术专家 + 业务专家共同挖掘最能发挥技术优势的业务场景。例如招投标大数据分析系统，金融舆情监控系统

与业务专镓深度碰撞，挖掘出更多可以扎实落地的场景
尝试更多前沿的技术和思想。比如尝试基于 GPT 类生成模型的文本增强技术，尝试将 CV 领域的噺思想、新算法引入进来

Q：车的消费贷场景，贷后催收预警一般样本量较小小样本如何学的靠谱？ ( baseline 是规则 )

数据增强：回译、EDA、非核心詞替换、上下文替换对于文本分类效果明显
迁移学习：其他场景下，具有相似的文本分布的语料三阶段学习、领域词汇迁移等等

Q： nlp 如紟较好的模型资源需求量很大，如 bertlargexlnet，实际落地时是堆资源保证效果，还是简化模型呢

A：对于绝大部分问题，没必要堆资源因为轻量模型上同样可以实现与 BERT 类模型相当的表现，甚至更好

神经网络的近似理论已经说明了，只要网络足够宽两层的神经网络，也能够无限的逼近于任何连续的函数大部分情况下，我们其实并不需要 BERT 这一类重型的模型
在实际情况下，有一部分金融客户需要私有化部署BERT 對于他们来说负担比较重
可以用 BERT 训练后的结果作为 baseline，用来优化轻量级模型

今天的分享就到这里谢谢大家。

}

奇偶密码网