如何用Rstudio中的quantmod包手机随机数字抽奖器产生三支股票数据？

点击联系发帖人 时间：2018-06-05 00:43

随机数字生成

73924 条评论分享收藏感谢收起赞同 61064 条评论分享收藏感谢收起&p&今天折腾了一天，终于在windows电脑上把Y叔的clusterProfiler这个R包安装上了（linux平台上的反而还没装上）。终于体会到为啥说生物信息也是坑了。各种硬件兼容问题，各种软件安装问题，各种R更新，各种R包的依赖，除了不用跑来跑去，其实比做湿实验轻松不了多少。&/p&&p&但是兵来将挡，水来土掩，办法总比问题多。&/p&&p&只要学会手动安装各种R包，安装的问题就都能解决。不过我本来希望利用conda来自动配置R包的各种依赖关系，但是尝试之后发现conda总是在报冲突，而且不同channel的R包软件版本太多，比手动安装更费劲。以后有机会会写写其中的经历。&/p&&p&今天第一篇给出的是R的基本安装，可以作为备忘录存在电子笔记中，随时查找。&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ0xImtO13hAnc2A2beo3FFQ31& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&fbb84b26.wiz03.com/shar&/span&&span class=&invisible&&e/s/3XK4IC0cm4CL22pU-r1HPcQQ0xImtO13hAnc2A2beo3FFQ31&/span&&span class=&ellipsis&&&/span&&/a&&/p&
今天折腾了一天，终于在windows电脑上把Y叔的clusterProfiler这个R包安装上了（linux平台上的反而还没装上）。终于体会到为啥说生物信息也是坑了。各种硬件兼容问题，各种软件安装问题，各种R更新，各种R包的依赖，除了不用跑来跑去，其实比做湿实验轻松不…
&p&&b&很久以前我觉得这样很笨，但后来我发现这是最聪明的入门办法！&/b&&/p&&p&这样做最开始是我前前前老板教我的，当时还不是学编码，而是研究开源方案。大家都知道开源方案稍微好点都会有自己的架构图的，老板要求我们不能拷贝粘贴，而是要用画图软件自己重新画。&/p&&p&我们当时很不理解啊，对着重画一遍有什么卵用，还不是一样的架构啊，画的还那么丑！&/p&&p&但老板坚持要我们这样做，那也没办法啊，试试吧，毕竟老板决定了给你加多少工资啊：）&/p&&p&画了之后我们才发现，&b&尼玛真是绝招啊&/b&，拷贝粘贴和自己画，理解完全不一样，为何这样说呢？&/p&&p&我们举个最简单的例子，以下是MySQL官方的架构图：&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-cdeb6b7e5fa60e534f0c8b905b3ab14a_b.jpg& data-caption=&& data-rawwidth=&1494& data-rawheight=&972& class=&origin_image zh-lightbox-thumb& width=&1494& data-original=&https://pic3.zhimg.com/50/v2-cdeb6b7e5fa60e534f0c8b905b3ab14a_r.jpg&&&/figure&&p&这个图很清晰，很整洁是不是，一眼看过去就感觉一下子对mysql的架构就了解了，只需要不到20秒就掌握了MySQL架构，很爽吧？&/p&&p&然而，如果你自己对照画一遍，会有什么不一样呢？&/p&&ul&&li&&b&看图的时候一般人主要看结构和模块，不会详细关注每个细节，自己画图必须每个地方都覆盖到&/b&，包括图中的小字，这就强迫自己认真去看图。例如图中Parser和Optimizer的分工，看小字才能深度掌握。&/li&&li&&b&看图的时候会认为图的结构是理所当然的，但自己画的时候就会想为什么这样画&/b&，好像那样画也可以啊，这就有了更多思考和理解。例如图中的Enterprise Management Services & Utilities，为何是放在存储引擎上面，而不是放在存储引擎下面，或者纵向再延长一些？Pluggable Storage Engines为何有的图标是插头形状，有的是“+”形状？&/li&&li&&b&看图的时候主要关注结构，画图的时候会思考流程&/b&。例如你自己画这个架构图的时候，脑海中自然会想起你写过的sql语句，每个语句对应或者涉及哪些块。&/li&&/ul&&p&回到学习编程的时候，道理也是基本类似的，我以我最近学tensorflow的例子来说明吧。&/p&&p&这是原始代码（仅仅截取一部分）：&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-900adbe8d669e18b2876bff_b.jpg& data-caption=&& data-rawwidth=&2872& data-rawheight=&1492& class=&origin_image zh-lightbox-thumb& width=&2872& data-original=&https://pic3.zhimg.com/50/v2-900adbe8d669e18b2876bff_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/50/v2-c6f5a76eed4_b.jpg& data-caption=&& data-rawwidth=&2516& data-rawheight=&1324& class=&origin_image zh-lightbox-thumb& width=&2516& data-original=&https://pic4.zhimg.com/50/v2-c6f5a76eed4_r.jpg&&&/figure&&p&当你看这段代码的时候，是不是重点只看到了几个函数，例如inference、loss、inputs、train，每个函数的实现也只是过一下，看到调用了哪些api ？&b&但实际上理解这段代码，除了单个函数外，函数之间的关系才是关键，如果只是看代码，是很难形成这种理解的，只有真正敲代码-&运行代码-&尝试修改代码，才能真正理解&/b&。另外，一直说的梯度下降算法好像没看到，只看到一个什么“梯度下降优化器”，什么情况？&/p&&p&下面是我敲了代码并且运行之后自己的注释：&/p&&figure&&img src=&https://pic1.zhimg.com/50/v2-3ac42d3fa6fd0b53bab537c4_b.jpg& data-caption=&& data-rawwidth=&2880& data-rawheight=&1800& class=&origin_image zh-lightbox-thumb& width=&2880& data-original=&https://pic1.zhimg.com/50/v2-3ac42d3fa6fd0b53bab537c4_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/50/v2-75edbfbdd3_b.jpg& data-caption=&& data-rawwidth=&2880& data-rawheight=&1800& class=&origin_image zh-lightbox-thumb& width=&2880& data-original=&https://pic4.zhimg.com/50/v2-75edbfbdd3_r.jpg&&&/figure&&p&因此，入门的时候，一字一句一行的照着例子打，看起来是效率最低，实际上是效率最高的方式，虽然花费了时间，但这个时间的投入产出比是最高的，因为这样做迫使自己去思考、去理解。&/p&&p&当然，入门后就不要这样做了，因为里面的原理、逻辑、细节里都清楚了，那就没必要这样做了。&/p&
很久以前我觉得这样很笨，但后来我发现这是最聪明的入门办法！这样做最开始是我前前前老板教我的，当时还不是学编码，而是研究开源方案。大家都知道开源方案稍微好点都会有自己的架构图的，老板要求我们不能拷贝粘贴，而是要用画图软件自己重新画。我们当时…
&figure&&img src=&https://pic3.zhimg.com/v2-17a9228259fec0f5fc8ec_b.jpg& data-rawwidth=&1600& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&1600& data-original=&https://pic3.zhimg.com/v2-17a9228259fec0f5fc8ec_r.jpg&&&/figure&&p&此前发过一文，《&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&大屏做成这样，领导不重用你都难！&/a&》，不知大家是否还有印象？&/p&&p&小编陆续收到很多私信和留言，问及如何制作？可视化如何设计？数据哪里来等等问题。&/p&&p&其实小编想说，只要掌握背后制作的工具——FineReport，就已经成功了80%。&/p&&p&但finereport又不只只是大屏软件，它的本质是一个通用的报表制作和数据可视化工具。就好比Excel，小到可以存储统计数据、制作各式各样的图表、dashboard，大到制作财务报表、开发进销存系统。&/p&&p&但在企业应用中，企业/组织/团体一旦成规模时，数据量是数以万计的，无论数据还是报表都需要协同管理不断更新。面对各大OA\ERP\CRM系统的数据，部门提交的各种的需求，领导厌恶的表格报表，这时候懂IT的朋友们可能知道，Excel是hold不住的，需要开放的报表工具，FineReport就是其中之一。&/p&&p&FineReport 可以说是全球最好用的商用报表软件：&/p&&ul&&li&可以快速灵活地制作报表，搭建统一的数据决策和管理平台，让更多的数据用于业务经营和决策；&/li&&li&可以快速开发报表，能做到和各类系统的无缝集成，加快项目的开发，节约了开发的人力和成本。&/li&&/ul&&figure&&img src=&https://pic3.zhimg.com/v2-ce6b2055743cbadb9a7f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&705& data-rawheight=&402& class=&origin_image zh-lightbox-thumb& width=&705& data-original=&https://pic3.zhimg.com/v2-ce6b2055743cbadb9a7f_r.jpg&&&/figure&&p&千言万语汇成一句话：&/p&&p&FineReport，一款良心神器，简直无所不能。受到“互联网+”的启发，于是我们提出了“FineReport+”的概念。&/p&&h2&&b&FineReport+，是一种价值主张&/b&&/h2&&p&我们要连接并解决更多有关数据的应用场景，让数据成为生产力。“+”后面可以是业务系统如OA、ERP、CRM，可以是Qlikview、Cognos、FineBI、Tableau等BI系统，可以是部分业务需求，如帆软自己就是使用FIneReport搭建的CRM系统，笔者还见到一些番薯开发了考勤系统，进销存系统、考试系统、小型财务系统等。&/p&&p&&b&一、FineReport+业务系统&/b&&/p&&p&一般业务系统自带的报表能力很弱，难以满足企业数据化分析和管理的需求。以OA系统为例，随着企业应用的发展，OA软件越来越重视数据分析与利用，不仅仅数据分析可以形成对信息与流程的管理，更实现对企业数据的有效管理与利用，所以报表应用已经越来越成为企业办公自动化软件（协同办公软件）的一个重要组成部分。但是OA自身报表存在多种先天缺陷：&/p&&p&&b&a.&/b& 其数据全部来自于OA系统，而且报表也从属于OA的功能。比如，统计各部门收、发文的数量，统计员工的出勤日等等，无论是从格式还是统计的内容，都相对比较简单而且是固定的，无法从综合的角度体现各类数据的相关性分析。&/p&&p&&b&b.&/b& 厂商或服务商在实施时为用户做的报表。用户可能会提出要求，实施服务商负责完成报表的开发。虽然这种方式能比较好地满足用户的需求，但灵活性还远远不够，不能针对后续业务的发展做到随需而动。&/p&&p&所以产品型软件公司在遇到有报表需求的客户时，常会选择和帆软合作，比如用友、金蝶、泛微、致远、万户、蓝凌、神州数码、浪潮，而和FineReport集成的业务系统产品，有OA、ERP、MIS、CRM、TMS、WMS、BPM、EHR、考勤等。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-a8fbf8e7f8daabadbb52c5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&372& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic1.zhimg.com/v2-a8fbf8e7f8daabadbb52c5_r.jpg&&&/figure&&p&对最终用户而言，使用FineReport可以快速灵活地制作报表，可以搭建统一的数据决策和管理平台，让更多的数据用于业务经营和决策，让业务系统发挥更大的价值。&/p&&p&一般而言，FIneReport 可解决如下问题：&/p&&ul&&li&市场环境和业务需求多变，无法快速满足变化的报表需求&/li&&li&传统SQL+Excel 的方式整合数据做报表，效率低准确性差&/li&&li&业务系统数据过于分散形成数据孤岛，难以有效利用&/li&&li&缺乏统一的报表管理门户，无法形成全局数据视野，辅助决策&/li&&/ul&&p&&b&二、FineReport+BI系统&/b&&/p&&p&报表和BI本来就界限不明，又如何搭配适用呢？举两个例子。&/p&&p&东北证券的数据平台建设完毕之后，结构化数据初步实现了统一归集，数据报表和图表可视化均可以通过Cognos工具实现。但是，由于Cognos使用繁琐、开发复杂，数据小组一直无法接手该工具，而新需求不断出现，亟需通过系统保存工作中产生的结构化数据，取代excel记录和上报数据的模式。所以，东北证券最后上了FineReport，较为完善的解决了当前数据填报和其他分析需求。&/p&&p&大华技术股份公司用Qlikview搭建了数据分析平台，但是当他们报表需求爆发时，QlikView根本解决不了问题。最后的解决方式是引入finereport，与QlikView并行使用。领导层几个人用QlikView，中间管理层都使用finereport制作的报表。FineReport是专门的报表软件，在易用性、快捷性和对复杂报表的响应要远胜于QlikView。&/p&&p&所以，FineReport+BI系统，赢在开发效率，赢在面向中层、面向固定式、面向复杂报表的定位。无论是传统BI如SAP BO、Cognos、 Oracle BIEE等，还是新型自助式BI如Tableau、FineBI、Qlikview、PowerBI等，都用可以FineReport“+”起来。&/p&&p&&b&三、FineReport+场景需求&/b&&/p&&p&信息化系统的本质是录入和展示，恰巧FineReport天然支持这两块功能，本身就是一个可视化的系统DIY工具。所以很多使用者直接应用FineReport开发了一些业务系统，如简易出入库系统、项目周报管理系统、酒店客房收入数据系统、考试分析系统、会员管理系统、刷卡考勤系统、报餐系统、微信小秘书等。&/p&&p&现在大屏数据展示的需求越来越多，一般应用于行业博览中心、实时监控中心、集团会议中心、战略指挥中心等场景，视觉效果要求也越来越高。无须专门定制开发，使用FineReport就能轻松制作出酷炫的管理驾驶舱，支持发布到多场景的数据大屏上进行可视化集中管控。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-238ec2de67b13b75cb6dba8d454c032e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1265& data-rawheight=&675& class=&origin_image zh-lightbox-thumb& width=&1265& data-original=&https://pic4.zhimg.com/v2-238ec2de67b13b75cb6dba8d454c032e_r.jpg&&&/figure&&h2&&b&FineReport+，是一种发展理念&/b&&/h2&&p&我们要用开放的思维，构建生态体系的方式，打造具有极强生命力的产品。“+”后面连接的是插件开发者、第三方软件公司，通过需求的指引，利益的共享，开发更多功能插件，集成更多第三方成熟的技术。当然，FineReport插件化开发模式由来已久，我们也积累了上百个插件，单月的插件下载量达到1.7万次，有不少开发者赚的瓢满钵满。&/p&&p&即将发布的FineReport 9.0有着三大特性——&b&开放、共享、智能&/b&，是“FineReport+”理念的充分体现。&/p&&p&开放，马化腾在分享腾讯创业经验时提到一点，“关键领域砸下去，其他放手，我们聚焦在核心业务上，其他的让生态合作伙伴来做”，9.0我们将更关注核心业务，其他通过开放的姿态与其他厂商合作，迅速做到场景互补，让我们的用户享受更好的整体化方案。&/p&&p&共享，正如牛顿所说“如果我比别人看得远，那是因为我站在巨人的肩膀上”，其实引申到搭建数据平台同样适用，别人千辛万苦根据错误总结出的方案，可以直接拿来用；别人通宵达旦开发的插件，可以直接拿来用；别人绞尽脑汁做出的好看的报表组件，也可以直接拿来用。通过云中心问题库、应用中心的插件和共享组件，我们就能在不需要代码能力，不需要专业美工的基础上更好更快的搭建起数据平台了。&/p&&p&智能，用《人类简史》的作者尤瓦尔·赫拉利的一句话可以概括为“机器比你更了解自己”。因此我们希望通过引入人工智能，从信息部门、业务部门、系统管理人员三个角色出发，让机器更好的帮助用户去做报表、用报表和管理报表。&/p&&p&&b&以上便是小编想要说的FineReport+工具 &“FineReport+”。&/b&&/p&&p&&b&产品下载地址：&a href=&https://link.zhihu.com/?target=http%3A//www.finereport.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&FineReport报表&/a&&/b&&/p&&p&&b&Demo演示：&a href=&https://link.zhihu.com/?target=http%3A//www.finereporthelp.com%3A8889/demo/ReportServer%3Fop%3Dfs_load%26cmd%3Dfs_signin%26pid%3Dcom.fr.plugin.fresh.login%26_%3D1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据决策系统&/a&（建议PC端浏览）&/b&&/p&&p&&b&------------------------------&/b&&/p&&p&最后，我们最近开了一场知乎Live，关于数据分析！&/p&&h2&Live地址：&a href=&https://www.zhihu.com/lives/455424& class=&internal&&如何成为企业需要的数据分析人才？&/a&&/h2&&p&?29只是代表这场live的价值，如果大家觉得不想负担的话，可以私信小编，小编会免费给有诚意听课的同学奉上“live礼券”！&/p&
此前发过一文，《》，不知大家是否还有印象？小编陆续收到很多私信和留言，问及如何制作？可视化如何设计？数据哪里来等等问题。其实小编想说，只要掌握背后制作的工具——FineReport，就已经成功了80%。但finereport又不…
&p&我来说两个计量经济学领域的吧。虽然不算非常「新兴」，但是按照经济学奖的习惯，一个理论提出很久之后才能拿奖几乎是肯定的。&/p&&p&熟悉计量经济学的同仁应该都知道，计量经济学有两大「门派」：简约式（reduced form）和结构式（structural form）。在过去的二三十年间，这两大门派蓬勃发展，方法论上对立、解决的问题统一，已经成为了几乎每一个实证经济学家绕不开的工具。&/p&&p&这其中，两大门派的掌门人自然是获得诺奖的热门人选。&/p&&p&先说简约式吧，Angrist 和Imbens显然是这个领域的最热门人选。在他们的积极推进下，「拟实验（quasi-experement）」-反事实（counterfacturals）的框架已经被广泛接受并且海量应用在经济学的各个领域研究里面。常用的方法比如匹配法（Matching）、双重差分和双重变化（DID/CIC）、局部平均处理效应（LATE）等等都有其重要贡献。所以我想如果这个领域拿奖，那么这两个人是逃不开的。&/p&&p&诺奖有的时候会同时颁发给观点相反的两个人，比如有效市场和行为金融，以示不偏不倚。如果在这个领域也按照这么来做的话，那么很尴尬的事情是，跟他们有激烈争论的Heckman早在2000年就拿奖了，所以不会出现Angrist和Heckman共同拿奖的情况出现了。&/p&&p&当然，虽然他们经常吵来吵去，但是从数学上来看其实并没有那么严重的分歧，比如Heckman所主张的边际处理效应MTE可以用Angrist主张的LATE来motivate，所以单纯从数学上好像没必要争论。如果数学上有好坏，早就不用争论了，最怕的就是数学上大家都没错，而是理念上的不同，这种争论是很难彻底解决的。&/p&&p&如果说Heckman是劳动经济学等领域的结构派先驱的话，那么在产业组织理论（IO）里面，就不得不提另外一个人了，就是Ariel Pakes。在IO最传统的两个领域：消费和生产领域，Pakes都做出了不可替代的贡献：在消费领域，发展了BLP模型；在生产领域，发展了OP模型。跟Heckman一起获奖的McFadden因为在离散选择模型的贡献获奖了，而BLP则是在离散选择上的复杂一点的拓展；至于生产领域的OP，现在不做structrual form的学者都要用，足以见其贡献之大了。&/p&&p&不过稍微有点遗憾的是，前年Deaton因为在研究消费行为领域的贡献而获奖，Deaton的研究是连续的消费系统（Demand system），而Pakes没能跟他一起拿奖，不知道是不是会单独给他一个？当然，Pakes的贡献实在太多，不仅仅以上这两个贡献，所以个人感觉Pakes完全够格单独拿一个的。&/p&&p&当然，以上说的这些东西算是比较老，但是真正大规模应用，特别是在国内大规模应用，也不算是多么老的东西。不过如果只是算前途无量、可能获诺奖这两条标准，应该是够格的。&/p&
我来说两个计量经济学领域的吧。虽然不算非常「新兴」，但是按照经济学奖的习惯，一个理论提出很久之后才能拿奖几乎是肯定的。熟悉计量经济学的同仁应该都知道，计量经济学有两大「门派」：简约式（reduced form）和结构式（structural form）。在过去的二…
本人曾是一名大数据工程师，项目数据50T，日均数据增长20G左右。&br&&br&个人是从Java后端开发，经过3个月的业余自学成功转型大数据工程师。&br&&br&背景介绍完毕，开始正式一本正经回答问题:&br&&br&本回答目录:&br&一.大数据方向工作介绍&br&二.大数据工程师的技能要求&br&三.大数据学习路径&br&四.学习资源推荐（书籍、博客、网站）&br&&br&&br&一.大数据方向工作介绍&br&&br&大数据方向的工作目前分为三个主要方向:&br&01.大数据工程师&br&02.数据分析师&br&03.大数据科学家&br&04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）&br&&br&二.大数据工程师的技能要求&br&&br&附上二份比较权威的大数据工程师技能图（图侵删）&br&&figure&&img data-rawheight=&1058& src=&https://pic3.zhimg.com/50/v2-2712bddb7af89fb828271e_b.jpg& data-rawwidth=&720& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/50/v2-2712bddb7af89fb828271e_r.jpg&&&/figure&&br&&figure&&img data-rawheight=&1058& src=&https://pic2.zhimg.com/50/v2-4ab509dd3cf9cf2a571665_b.jpg& data-rawwidth=&720& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/50/v2-4ab509dd3cf9cf2a571665_r.jpg&&&/figure&&br&总结如下:&br&&br&必须技能10条:&br&01.Java高级(虚拟机、并发)&br&02.Linux 基本操作&br&03.Hadoop（此处为侠义概念单指HDFS+MapReduce+Yarn ）&br&04.HBase（JavaAPI操作+Phoenix ）&br&05.Hive(Hql基本操作和原理理解）&br&06.Kafka &br&07.Storm&br&08.Scala需要&br&09.Python&br&10.Spark (Core+sparksql+Spark streaming ）&br&11.一些小工具(Sqoop等)&br&&br&高阶技能6条:&br&11.机器学习算法以及mahout库加MLlib&br&12.R语言&br&13.Lambda 架构&br&14.Kappa架构&br&15.Kylin&br&16.Aluxio&br&&br&三.学习路径&br&&br&由于本人是从Java开发通过大概3个月的自学转到大数据开发的。所以我主要分享一下自己的学习路劲。&br&&br&第一阶段:&br&01.Linux学习（跟鸟哥学就ok了）&br&02.Java 高级学习（《深入理解Java虚拟机》、《Java高并发实战》）&br&&br&第二阶段:&br&03.Hadoop （董西成的书）&br&04.HBase（《HBase权威指南》）&br&05.Hive（《Hive开发指南》）&br&06.Scala（《快学Scala》）&br&07.Spark （《Spark 快速大数据分析》）&br&08.Python （跟着廖雪峰的博客学习就ok了）&br&&br&第三阶段:&br&对应技能需求，到网上多搜集一些资料就ok了，我把最重要的事情(要学什么告诉你了)，&br&剩下的就是你去搜集对应的资料学习就ok了&br&&br&当然如果你觉得自己看书效率太慢，你可以网上搜集一些课程，跟着课程走也OK 。这个完全根据自己情况决定。如果看书效率不高就很网课，相反的话就自己看书。&br&&br&四.学习资源推荐:&br&&br&01.Apache 官网&br&02.Stackoverflow&br&04.github&br&03.Cloudra官网&br&04.Databrick官网&br&05.过往的记忆（技术博客）&br&06.CSDN，51CTO &br&07.至于书籍当当一搜会有很多，其实内容都差不多。&br&&br&最后但却很重要一点:要多关注技术动向，持续学习。&br&&figure&&img data-rawheight=&297& src=&https://pic3.zhimg.com/50/v2-7f5d05b625_b.jpg& data-rawwidth=&477& class=&origin_image zh-lightbox-thumb& width=&477& data-original=&https://pic3.zhimg.com/50/v2-7f5d05b625_r.jpg&&&/figure&
本人曾是一名大数据工程师，项目数据50T，日均数据增长20G左右。个人是从Java后端开发，经过3个月的业余自学成功转型大数据工程师。背景介绍完毕，开始正式一本正经回答问题: 本回答目录: 一.大数据方向工作介绍二.大数据工程师的技能要求三.大数据学习…
&figure&&img src=&https://pic3.zhimg.com/v2-d7cc36ebd691b3_b.jpg& data-rawwidth=&600& data-rawheight=&419& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic3.zhimg.com/v2-d7cc36ebd691b3_r.jpg&&&/figure&&p&&b&写在前面的话&/b&&/p&&p&终于开始用R语言进行我一直感兴趣的股票投资实践，真是激动人心、心潮澎湃啊。^_^^_^^_^&/p&&p&动手开始实践之前，先谈谈我对A股投资的几点看法。系统学习股票投资一段时间以来，我是坚持认为股票投资是目前国内理财方式中比较不错的理财方式。但前提是你必须学习学习再学习，具备相关理财知识后再进入该领域。你开个饭店，还要学习经营管理，甚至研究厨艺；某宝买个衣服还要货比三家，而股市中真金白银的买来买去，仅仅靠感觉吗？当然不行，必须的有理财知识和风险意识。一定要建立自己的交易系统，否则还是谨慎进入。这是忠告，也是我的血的教训。&/p&&p&提到交易系统，再多说几句。所谓自己的交易系统，就是要选择适合自己的投资方式。选择腾讯、谷歌这样的高成长性公司，长期持有其股票是交易系统，靠的是耐心；股市里低买高卖，频繁操作获取利差，也是交易系统，靠的是对技术指标的熟练应用；研究国家政策和行业特点，对ST的国企分析其改革重组的机率，获取高额的回报，也是交易系统，靠的是对宏观政策的敏锐解读和企业基本面的独特研究；持有交通银行这样的巨无霸股票，吃股息和分红收益，同时进行无风险的打新策略，也是交易系统，靠的是稳定的心态。仁者见仁智者见智，交易系统没有优劣，只有适合与否。巴菲特靠价值投资闻名于世，无数后人追捧；而索罗斯靠市场投机同样挣的盆满钵满，孰对孰错呢？&/p&&p&股票交易是零和游戏不假，你挣的钱肯定是某个人或某些人亏的钱。但它完全不同于赌博，股票买卖想要实现盈利就是控制好风险，持续做大概率事件，而不是靠运气。从逻辑上分析，买入成长性的公司并长期持有，大概率是会挣钱的，这点毋庸置疑。&br&但在具体操作层面，股票操作还是很考验人性的，能有一笔十年不动的资金放那、能够买入后半年甚至一年关注下股价，能够容忍自己买入股票后两年还是当初的价格甚至更低（巴菲特还经常买入后被套好几年）…………大家可以扪心自问下，当遇到这些情况时你是不是会有卖掉不做的冲动。就好比减肥，谁都知道少吃多运动就会瘦，可现实生活中做到的人比例却是极低。&/p&&p&在这里我想说的是，买入成长性公司并长期持有，这是“道”的层面，属宏观指导；具体投资还需掌握基本面分析、量价关系、左侧和右侧的不同趋势交易、甚至K线等等“术”的层面知识，要会制定微观操作策略。“道”与“术”相结合，采用定投等策略，最好投资美股（政策性影响较小，你懂的）。这是我的一点投资心得，也是我正努力的方向。与大家共勉。&/p&&p&废话不叙，现在开始我的R语言实践之旅：&b&在R语言中用Quantmod金融包分析股票波动及长期持有的收益&/b&。&/p&&p&&b&1、选择标的&/b&&/p&&p&选取A股中能够称得上价值投资的品种贵州茅台（600159），机械类龙头三一重工（600031）和养殖概念股正邦科技（002157）。时间跨度从2007年1月至2017年8月底，看看一直持有这三只股票收益会如何。同时这十年也是房价狂飙突进的十年，对比下收益，看看能有什么结果。&/p&&p&&i&说明：正邦科技是从日上市，时间稍稍短一点。&/i&&/p&&p&&b&2、计算持有三支股票10年的收益&/b&&/p&&p&（1）读入股票数据并存盘&/p&&p&在R语言中运用quantmod包读取三只股票数据，下载的股票数据当然的存盘了。代码如下：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&###读取股票数据并存盘
library(quantmod)
library(dplyr)
library(stringr)
data1 &- getSymbols(&600519.ss&,src=&yahoo&,from=&&,to=&&,auto.assign = FALSE)
#chartSeries(`600519.SS`)
data2 &- getSymbols(&600031.ss&,src=&yahoo&,from=&&,to=&&,auto.assign = FALSE)
data3 &- getSymbols(&002157.sz&,src=&yahoo&,from=&&,to=&&,auto.assign = FALSE)
write.csv(data1,file = &G:/统计概率学习实践/第三关实践作业/data/600519.csv&)
write.csv(data1,file = &G:/统计概率学习实践/第三关实践作业/data/600031.csv&)
write.csv(data1,file = &G:/统计概率学习实践/第三关实践作业/data/002157.csv&)
&/code&&/pre&&/div&&p&（2）持有这些股票10年的收益如何&/p&&p&股票投资中，收益率的计算公式为：&/p&&p&收益率=净利润/成本={（卖价-买价）*股份-手续费} /（买价*股份+买时费用）&/p&&p&假设我们买入后持有10年不动，假设股份没有变化，在不考虑手续费时，计算公式可简化为：&/p&&p&收益率=净利润/成本=（卖价-买价）/买价&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&###(1)用收盘价计算十年来收益率
#首先转化为周数据
MT &- to.weekly(data1)
SY &- to.weekly(data2)
ZB &- to.weekly(data3)
MTclose &- Cl(MT)
MTrate10 &- (as.numeric(MTclose[546,1]) - as.numeric(MTclose[1,1]))*100/as.numeric(MTclose[1,1])
MTrate10 &- round(MTrate10,2)
SYclose &- Cl(SY)
SYrate10 &- (as.numeric(SYclose[546,]) - as.numeric(SYclose[1,]))*100/as.numeric(SYclose[1,])
SYrate10 &- round(SYrate10,2)
ZBclose &- Cl(ZB)
ZBrate10 &- (as.numeric(ZBclose[515,]) - as.numeric(ZBclose[1,]))*100/as.numeric(ZBclose[1,])
ZBrate10 &- round(ZBrate10,2)
&/code&&/pre&&/div&&p&用日的收盘价来计算三只股票的十年收益，分别为：茅台是657.76%，三一是180.61%，正邦是109.87%。 &/p&&p&&b&&i&特别申明&/i&&/b&：以上收益只是以下载的数据进行简单计算，可能会跟实际有出入（&i&这个数据没有经过除权&/i&）。因为茅台有股息分红，十年时间跨度来衡量的话收益会更高；正邦在2016年9月有过高送转，相当于总股本数会增多，实际收益也远比109.87%高。三一不太了解，不多评述。&/p&&p&总的来说，2007年1月投资这三只股票并持有超过十年的话，投资资金至少会翻倍，买入茅台的话收益会在6倍以上。大家可以对比下自己所在城市的房价涨幅，如果十年前投资房产收益又如何呢？反正我所在中部城市房价这十年也就是翻一倍而已，单从投资角度来看股票投资还是很划算的。毕竟房子是大笔资金，如果分期的话还得计算还银行的利息。北上广深房价涨幅大，可能投资房产收益会高些。&/p&&p&（3）股价波动告诉我们的投资策略&/p&&p&用quantmod包的chart_series()函数分别绘制三只股票的收盘价波动曲线图。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&###(2)绘制周线的图形并分析波动规律
chart_Series(Cl(MT),name = &贵州茅台&)
chart_Series(Cl(SY),name = &三一重工&)
chart_Series(Cl(ZB),name = &正邦科技&)
&/code&&/pre&&/div&&figure&&img src=&https://pic1.zhimg.com/v2-f2f2a92419f4aaddb2c88a1d250d28ae_b.jpg& data-rawwidth=&451& data-rawheight=&287& class=&origin_image zh-lightbox-thumb& width=&451& data-original=&https://pic1.zhimg.com/v2-f2f2a92419f4aaddb2c88a1d250d28ae_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-0df7ddac1d2_b.jpg& data-rawwidth=&453& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&453& data-original=&https://pic4.zhimg.com/v2-0df7ddac1d2_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-c7c13abae378ac1719170_b.jpg& data-rawwidth=&453& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&453& data-original=&https://pic2.zhimg.com/v2-c7c13abae378ac1719170_r.jpg&&&/figure&&p&由图可以看出，从10年投资跨度来看，贵州茅台投资价值最高，正邦科技次之，三一重工最差。简单分析其原因是因为三一重工属于工程基建行业，而基建投资跟国家的经济周期有很大关系，随着经济周期的波动其业绩也会有波动，反映在股市中就是股价起伏波动较大。相信有色和煤炭类的股票这种波动性更大。&/p&&p&由此得出的一点粗浅结论就是：如果长期持有投资的话，应避开周期类股票，尽量选择消费类或成长类的白马股票。&/p&&p&&b&3、分析10年内三支股票的波动规律&/b&&/p&&p&（1）绘制月K线图&/p&&p&把三只股票日交易数据转化成月数据，在R语言中用chartSeries（）函数绘制包含最高、最低、开盘和收盘四个价格的月K线图，看其波动情况。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-6f675afa988fbe7e713823_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic4.zhimg.com/v2-6f675afa988fbe7e713823_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-39afbe18e7edb36478b28eefc00dd31c_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic3.zhimg.com/v2-39afbe18e7edb36478b28eefc00dd31c_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-e31a8cfe49_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic3.zhimg.com/v2-e31a8cfe49_r.jpg&&&/figure&&p&（2）分别用ATR和ADX指标进行分析&/p&&p&采用ATR和ADX指标进行分析股价波动大小和趋势强弱。&/p&&p&ATR是“真实波动浮动均值”。常态时，ATR波幅围绕均线上下波动，极端行情时波幅上下幅度剧烈加大。一般认为，ATR指标越高，价格趋势逆转的几率越大。作为一个波动性的指标，ATR只提供波动性启示，无法预测股价方向。&/p&&p&ADX是平均趋向指标。它是另一种常用的趋势衡量指标。它无法告诉你趋势的发展方向，但如果趋势存在可以衡量趋势的强度。百度相关资料是这么表述的。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-e3a0ddbe410b3e2f5cf39a4c_b.jpg& data-rawwidth=&487& data-rawheight=&116& class=&origin_image zh-lightbox-thumb& width=&487& data-original=&https://pic2.zhimg.com/v2-e3a0ddbe410b3e2f5cf39a4c_r.jpg&&&/figure&&p&添加ATR线和ADX线的月K线图。代码如下：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&chartSeries(to.monthly(data1),name = &贵州茅台&,theme = &white&)
chartSeries(to.monthly(data2),name = &三一重工&,theme = &white&)
chartSeries(to.monthly(data3),name = &正邦科技&,theme = &white&)
&/code&&/pre&&/div&&p&三支股票添加ATR线和ADX线的月K线图分别如下：&/p&&figure&&img src=&https://pic3.zhimg.com/v2-7ae259b6b67e25f50ee4ec_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic3.zhimg.com/v2-7ae259b6b67e25f50ee4ec_r.jpg&&&/figure&&p&贵州茅台的ATR指标基本反映股票的波动大小。但在年和2016年下半年，ATR波动较股价大，有所失真。&/p&&p&ADX指标基本反映贵州茅台股票的趋势，但在年和年上半年，两个时间段股价相似，但前后两个时间段趋势强弱却不同。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-01b6e856fa4fcd35618f4afcee22da9c_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic4.zhimg.com/v2-01b6e856fa4fcd35618f4afcee22da9c_r.jpg&&&/figure&&p&三一重工的ATR指标跟股价波动大小非常吻合。但ADX指标在2015年上半年有所失真，指标大小表示的趋势强度远没实际股价走势强劲。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-e54d1fd5cc0a_b.jpg& data-rawwidth=&554& data-rawheight=&351& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic2.zhimg.com/v2-e54d1fd5cc0a_r.jpg&&&/figure&&p&正邦科技的ATR指标和ADX指标都跟股价比较吻合。&/p&&p&&i&粗浅结论是&/i&：长线投资来看，ATR和ADX指标只是起参考作用，不适合作为实际操作依据。长线来说，简单的定投即可。&/p&&p&此外，还可以添加addMA，addMACD等等指标，这些功能常规券商软件都可查看使用。普通投资者了解这些技术指标后，能够对基金等理财产品加以判断，选择更好的产品即可，没必要纠结于技术本身。很多理财产品的投资组合都是对数据提取和线性规划求解后，做出相应的投资组合。我们只要“知其然”就可以了，不必追求“其所以然”。&/p&&p&&b&4、三只股票间以及与上证指数的相关性分析&/b&&/p&&p&股票市场中投资，虽然会有不同板块轮动、大盘下跌某些股票仍然逆市上涨等现象。但从十年时间跨度来说，三支股票的涨跌彼此之间以及它们与上证指数之间有无相关性呢？&/p&&p&10年（日至日）时间段内，用R语言对三只股票和上证指数（000001）的日调整数据进行了相关性分析。采用psych包的corr.test（）函数进行积差相关关系的分析。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&###(3)分析三支股票和上证指数日调整价格的相关性
ss &- getSymbols(c(&000001.ss&,&600519.ss&,&600031.ss&,&002157.sz&),src=&yahoo&,from=&&,to=&&)
AD &- cbind(Ad(`000001.SS`),Ad(`600519.SS`),Ad(`600031.SS`),Ad(`002157.SZ`))
AD &- as.data.frame(AD)
library(psych)
corr.test(AD)
&/code&&/pre&&/div&&figure&&img src=&https://pic3.zhimg.com/v2-fa2dc319c7eea_b.jpg& data-rawwidth=&527& data-rawheight=&74& class=&origin_image zh-lightbox-thumb& width=&527& data-original=&https://pic3.zhimg.com/v2-fa2dc319c7eea_r.jpg&&&/figure&&p&由结果可知：与上证指数相比，贵州茅台和正邦科技相关系数分别为0.22和0.25，有一定的相关性；而三一重工跟上证指数相关系数为0.06，基本没相关性。&/p&&p&与贵州茅台相比，正邦科技的相关系数为0.76，二者相关性较好；三一重工跟它倆都没啥相关性。究其原因，贵州茅台和正邦科技虽然不属于同一板块，但都是与人们生活消费相关的股票，其业绩跟消费能力有关，背后增长逻辑有一定相似性。而三一重工的业绩增长跟它们俩的逻辑就不同。&/p&&p&&i&粗浅结论&/i&：从长期来看，不是所有股票都跟上证指数有相关性的。长期投资的关键是选好标的，首选有成长性、有业绩支撑的公司，一定要有背后逻辑支撑其股价长期上涨才行。这也是我本次实践时新的感悟。&/p&&p&&b&几点说明和思考&/b&&/p&&p&（1）分析中用的数据未经除权处理，仅作为编程实践使用。实际上贵州茅台加上分红的收入的话已远超股价成本，复权后初期股价已经成负值了。&/p&&p&（2）股票案例分析重在R语言编程实践，不作为投资建议。投资理念倒是有借鉴之处。&/p&&p&（3）Quantmod包主要是抓数据和图形显示等技术分析。如果只是用这些技术指标作为投资参考，建议选用各大券商软件，功能齐全、数据准确。毕竟想喝牛奶不用非得自己养头牛嘛。&/p&&p&（4）如果想建立自己的投资量化模型或优化投资组合，Quantmod包是远远不够的，还需不同的包来配合。感觉这是属于金融领域范畴知识了。&/p&&p&（5）应用Quantmod包后感觉推开了另一扇门，进入了量化交易的领域。但埋头赶路不要忘了抬头看路，千万别进入盲目学习的误区。为了用而学，而不是为了学而学。金融包Quantmod也是如此，了解其功能后当做使用工具即可。&i&因为价值投资、技术分析、量化交易分属不同门派，孰好孰坏投资领域已经争论百年，且没有定论，关键的关键是研究后不一定能挣钱&/i&。&/p&&p&（6）投资一定要关注背后的逻辑，然后坚守自己的逻辑并不断修正。而现实却是大部分人根本就没有自己的逻辑。&/p&&p&本次实践最让我感到欣慰，也是最大的收获是：金融包Quantmod把大数据编程和股票投资联系起来了，两个我原来觉得不太相关的领域，中间的门打通了。两个不同的维度找到了交叉点，甚喜、甚喜、甚喜！！！&/p&
写在前面的话终于开始用R语言进行我一直感兴趣的股票投资实践，真是激动人心、心潮澎湃啊。^_^^_^^_^动手开始实践之前，先谈谈我对A股投资的几点看法。系统学习股票投资一段时间以来，我是坚持认为股票投资是目前国内理财方式中比较不错的理财方式。但前提…
&figure&&img src=&https://pic2.zhimg.com/v2-71c5ad259ac_b.jpg& data-rawwidth=&614& data-rawheight=&341& class=&origin_image zh-lightbox-thumb& width=&614& data-original=&https://pic2.zhimg.com/v2-71c5ad259ac_r.jpg&&&/figure&&p&金秋九月，丹桂飘香，在这秋高气爽，阳光灿烂的收获季节里，我们送走了一个个暑假余额耗尽哭着走向校园的孩子们，又即将迎来一年一度伟大祖国母亲的生日趴体(无心上班，迫不及待想为祖国母亲庆生)。&/p&&p&那么问题来了，去哪儿玩呢?百度输了个“国庆”，出来的第一条居然是“去哪里旅游人少”……emmmmmmm，因缺思厅。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-c45cb7c427c46a6d20eb029df6c140de_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&105& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-c45cb7c427c46a6d20eb029df6c140de_r.jpg&&&/figure&&p&&br&&/p&&p&于是我萌生了通过旅游网站的景点销量来判断近期各景点流量情况的想法(这个想法很危险啊)。&/p&&p&所以这次的目标呢，是爬去哪儿网景点页面，并得到景点的信息，大家可以先思考下大概需要几步。&/p&&p&本文建议有一定 Python 基础和前端(html，js)基础的朋友阅读。&/p&&h2&&b&百度的地图 API 和 echarts&/b&&/h2&&p&因为前几次爬虫都是爬一些文本信息，做一下词云之类的，我觉得：没!意!思!了!这次正好爬的是数据，我决定用数据的好基友——图表来输出我爬取的数据，也就是说我要用爬取的景点销量以及景点的具体位置来生成一些可视化数据。&/p&&p&安利一下百度的地图 API 和 echarts，前者是专门提供地图 API 的工具，听说好多 APP 都在用它，后者是数据处理居家旅行的好伙伴，用了之后，它好，我也好(隐约觉得哪里不对)。&/p&&p&API 是什么，API 是应用程序的编程接口，就好像插头与插座一样，我们的程序需要电(这是什么程序?)，插座中提供了电，我们只需要在程序中写一个与插座匹配的插头接口，就可以使用电来做我们想做的事情，而不需要知道电是如何产生的。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-b7febced4c661e02c4e60_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&877& data-rawheight=&676& class=&origin_image zh-lightbox-thumb& width=&877& data-original=&https://pic4.zhimg.com/v2-b7febced4c661e02c4e60_r.jpg&&&/figure&&h2&引入数据后的百度热力图&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-ee0d55d4e24e1b65cb3af030d1cac26f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&235& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-ee0d55d4e24e1b65cb3af030d1cac26f_r.jpg&&&/figure&&p&通过 API 对接的开发者与服务商&/p&&p&&b&确定输出文件&/b&&/p&&p&有人可能说，我已经懂了 API 是啥意思了，可是咋个用呢。关于这一点，我很负责任的告诉你：我也不会。&/p&&p&但是!百度地图提供了很多 API 使用示例，有 html 基础，大致可以看懂，有 js 基础就可以尝试改函数了(不会 js 的，我默默地复制源代码)，仔细观察源代码，可以知道热力图生成的主要数据都存放在 points 这个变量中。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-a067cfccfa43ba8df690f61_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&490& data-rawheight=&286& class=&origin_image zh-lightbox-thumb& width=&490& data-original=&https://pic4.zhimg.com/v2-a067cfccfa43ba8df690f61_r.jpg&&&/figure&&p&&br&&/p&&p&这种[{x:x,x:x},{x:x,x:x}]格式的数据，是一种 json 格式的数据，由于具有自我描述性，所以比较通俗易懂，大概可以知道这里的三个值，前两个是经纬度，最后一个应该是权重(我猜的)。&/p&&p&也就是说，如果我希望将景点的热门程度生成为热力图，我需要得到景点的经纬度，以及它的权重，景点的销量可以作为权重，并且这个数据应该是 json 格式的呈现方式。&/p&&p&echarts 也是一样滴(*^__^*)。&/p&&h2&&b&爬取数据&/b&&/h2&&p&这次的爬虫部分是比较简单的。分析网址(去哪儿景点)→爬取分页中信息(景点经纬度、销量)→转为 json 文件。&/p&&p&分析去哪儿景点页的网址，可得出结构：&a href=&https://link.zhihu.com/?target=http%3A//piao.qunar.com/ticket/list.htm%3Fkeyword%3D& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&piao.qunar.com/ticket/l&/span&&span class=&invisible&&ist.htm?keyword=&/span&&span class=&ellipsis&&&/span&&/a&搜索地点(R)ion=&from=mpl_search_suggest&page=页数&/p&&p&这次没有用正则来匹配内容，而使用了 xpath 匹配，非常好用。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-f259dfec5a0a4aaa817a9f4d9b71a8ed_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&688& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&688& data-original=&https://pic2.zhimg.com/v2-f259dfec5a0a4aaa817a9f4d9b71a8ed_r.jpg&&&/figure&&p&&br&&/p&&p&这里把每个景点的所有信息都爬下来了(其实是为了练习使用 xpath……)。&/p&&p&使用了 while 循环，for 循环的 break 的方式是发现无销量时给 i 值赋零，这样 while 循环也会同时结束。&/p&&p&地址的匹配使用 re.sub() 函数去除了 n 多复杂信息，这点后面解释。&/p&&h2&&b&输出本地文本&/b&&/h2&&p&为了防止代码运行错误，维护代码运行的和平，将输出的信息列表存入到 excel 文件中了，方便日后查阅，很简单的代码，需要了解 pandas 的用法。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-f97d986d107fb6b85f34f79c4dfe8104_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&617& data-rawheight=&81& class=&origin_image zh-lightbox-thumb& width=&617& data-original=&https://pic4.zhimg.com/v2-f97d986d107fb6b85f34f79c4dfe8104_r.jpg&&&/figure&&h2&&b&百度经纬度 API&/b&&/h2&&p&非常悲伤的，(?﹏?)我没找到去哪儿景点的经纬度，以为这次学(zhuang)习(bi)计划要就此流产了。(如果有人知道景点经纬度在哪里请告诉我)&/p&&p&但是，enhahhahahaha，我怎么会放弃呢，我又找到了百度经纬度 API。&/p&&p&网址：&a href=&https://link.zhihu.com/?target=http%3A//api.map.baidu.com/geocoder/v2/%3Faddress%3D& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&api.map.baidu.com/geoco&/span&&span class=&invisible&&der/v2/?address=&/span&&span class=&ellipsis&&&/span&&/a&地址&output=json&ak=百度密钥，修改网址里的“地址”和“百度密钥”，在浏览器打开，就可以看到经纬度的 json 信息。&/p&&p&#上海市东方明珠的经纬度信息 {&status&:0,&result&:{&location&:{&lng&:121.7,&lat&:31.675},&precise&:1,&confidence&:70,&level&:&UNKNOWN&}}&/p&&p&百度密钥申请方法：&a href=&https://link.zhihu.com/?target=http%3A//jingyan.baidu.com/article/363872eccdaf4e.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&jingyan.baidu.com/artic&/span&&span class=&invisible&&le/363872eccdaf4e.html&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&这样我就可以根据爬到的景点地址，查到对应的经纬度辣!Python 获取经纬度 json 数据的代码如下：&/p&&figure&&img src=&https://pic4.zhimg.com/v2-e20c689b9aa483a0bd198d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&551& data-rawheight=&183& class=&origin_image zh-lightbox-thumb& width=&551& data-original=&https://pic4.zhimg.com/v2-e20c689b9aa483a0bd198d_r.jpg&&&/figure&&p&观察获取的 json 文件，location 中的数据和百度 API 所需要的 json 格式基本是一样，还需要将景点销量加入到 json 文件中，这里可以了解一下 json 的浅拷贝和深拷贝知识，最后将整理好的 json 文件输出到本地文件中。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-bfebf1b87bfef7ec1d11e2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&700& data-rawheight=&731& class=&origin_image zh-lightbox-thumb& width=&700& data-original=&https://pic3.zhimg.com/v2-bfebf1b87bfef7ec1d11e2_r.jpg&&&/figure&&p&在设置获取经纬度的地址时，为了匹配到更准确的经纬度，我选择了匹配景点地址，然而，景点地址里有各种神奇的地址，带括号解释在 XX 对面的，说一堆你应该左拐右拐各种拐就能到的，还有英文的……&/p&&p&于是就有了第三章中复杂的去除信息(我终于圆回来了!)。&/p&&p&然而，就算去掉了复杂信息，还有一些匹配不到的景点地址，于是我使用了嵌套 try，如果景点地址匹配不到;就匹配景点名称，如果景点名称匹配不到;就匹配景点所在区域，如果依然匹配不到，那我……那我就……那我就跳过ㄒ_ㄒ……&/p&&p&身为一个景点，你怎么能，这么难找呢!不要你了!&/p&&p&这里生成的三个 json 文件，一个是给百度地图 API 引入用的，另两个是给 echarts 引入用的。&/p&&h2&&b&网页读取 json 文件&/b&&/h2&&p&将第二章中所述的百度地图 API 示例中的源代码复制到解释器中，添加密钥，保存为 html 文件，打开就可以看到和官网上一样的显示效果。&/p&&p&echarts 需要在实例页面，点击页面右上角的 EN 切换到英文版，然后点击 download demo 下载完整源代码。&/p&&p&根据 html 导入 json 文件修改网页源码，导入 json 文件。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-da86b18a47aac81c13fcc22a1cfd3528_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&454& data-rawheight=&177& class=&origin_image zh-lightbox-thumb& width=&454& data-original=&https://pic1.zhimg.com/v2-da86b18a47aac81c13fcc22a1cfd3528_r.jpg&&&/figure&&p&这里使用了 jQuery 之后，即使网页调试成功了，在本地打开也无法显示网页了，在 chrome 中右键检查，发现报错提示是需要在服务器上显示，可是，服务器是什么呢?&/p&&p&百度了一下，可以在本地创建一个服务器，在终端进入到 html 文件所在文件夹，输入 python -m SimpleHTTPServer，再在浏览器中打开 &a href=&https://link.zhihu.com/?target=http%3A//127.0.0.1%3A8000/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&127.0.0.1:8000/&/span&&span class=&invisible&&&/span&&/a&，记得要将 html 文件名设置成 index.html 哦!&/p&&figure&&img src=&https://pic4.zhimg.com/v2-acfc35ee441f7ebfa243212c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&501& data-rawheight=&45& class=&origin_image zh-lightbox-thumb& width=&501& data-original=&https://pic4.zhimg.com/v2-acfc35ee441f7ebfa243212c_r.jpg&&&/figure&&h2&&b&后记&/b&&/h2&&p&因为注册但没有认证开发者账号，所以每天只能获取 6K 个经纬度 API(这是一个很好的偷懒理由)，所以我选择了热门景点中前 400 页(每页 15 个)的景点。&/p&&p&结果可想而知，(?﹏?)为了调试因为数据增多出现的额外 Bug，最终的获取的景点数据大概在 4500 条左右(爬取时间为 2017 年 9 月 10 日，爬取关键词：热门景点，仅代表当时销量)。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-b7febced4c661e02c4e60_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&877& data-rawheight=&676& class=&origin_image zh-lightbox-thumb& width=&877& data-original=&https://pic4.zhimg.com/v2-b7febced4c661e02c4e60_r.jpg&&&/figure&&h2&热门景点热力图&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-08afc6fd22f9ada397b2679_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&870& data-rawheight=&559& class=&origin_image zh-lightbox-thumb& width=&870& data-original=&https://pic4.zhimg.com/v2-08afc6fd22f9ada397b2679_r.jpg&&&/figure&&h2&热门景点示意图&/h2&&p&这些地图上很火爆的区域，我想在国庆大概是这样的&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ceae89fb017a639c91b1d13d0b75fb1a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1000& data-rawheight=&604& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&https://pic3.zhimg.com/v2-ceae89fb017a639c91b1d13d0b75fb1a_r.jpg&&&/figure&&p&这样的&/p&&figure&&img src=&https://pic3.zhimg.com/v2-c8da2ec700edf4aaf108_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&896& data-rawheight=&508& class=&origin_image zh-lightbox-thumb& width=&896& data-original=&https://pic3.zhimg.com/v2-c8da2ec700edf4aaf108_r.jpg&&&/figure&&p&还有这样的&/p&&figure&&img src=&https://pic3.zhimg.com/v2-dd75629feff7f311a9bef741_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1600& data-rawheight=&1066& class=&origin_image zh-lightbox-thumb& width=&1600& data-original=&https://pic3.zhimg.com/v2-dd75629feff7f311a9bef741_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-2cfe9f09b1ef26fb1ec38a213e287724_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&899& data-rawheight=&510& class=&origin_image zh-lightbox-thumb& width=&899& data-original=&https://pic1.zhimg.com/v2-2cfe9f09b1ef26fb1ec38a213e287724_r.jpg&&&/figure&&p&将地图上热门景点的销量 Top20 提取出来，大多数都是耳熟能详的地点，帝都的故宫排在了第一位，而大四川则占据了 Top5 中的三位，排在 Top20 中四川省景点就占了 6 位。&/p&&p&如果不是因为地震，我想还会有更多的火爆的景点进入排行榜的~这样看来如果你这次国庆打算去四川的话，可以脑补到的场景就是：人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人人……&/p&&figure&&img src=&https://pic4.zhimg.com/v2-9e06fde2d9bd9956b89fee_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-9e06fde2d9bd9956b89fee_r.jpg&&&/figure&&p&&br&&/p&&p&热门景点销量Top20&/p&&p&于是我又做了一个各城市包含热门景点数目的排行，没想到在 4 千多个热门景点中，数目最多的竟是我大浙江，是第二个城市的 1.5 倍，而北京作为首都也……可以说是景点数/总面积的第一位了。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-1d3d1c9ed26ff4c4dddd857_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&485& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-1d3d1c9ed26ff4c4dddd857_r.jpg&&&/figure&&p&主要城市热门景点数&/p&&p&这些城市有辣么多热门景点，都是些什么级别的景点呢?由下图看来，各城市的各级别景点基本与城市总热门景点呈正相关，而且主要由 4A 景区贡献而来。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ad0c7a9c53bc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&482& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-ad0c7a9c53bc_r.jpg&&&/figure&&h2&主要城市热门景点级别&/h2&&p&既然去哪些地方人多，去哪里景多都已经知道了，那再看看去哪些地方烧得钱最多吧。&/p&&p&下图是由各城市景点销售起步价的最大值-最小值扇形组成的圆，其中湖北以单景点销售起步价 600 占据首位。&/p&&p&但也可以看到，湖北的景点销售均价并不高(在红色扇形中的藏蓝色线条)。而如果国庆去香港玩，请做好钱包减肥的心理和生理准备(o?ωo?)?。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7b3e12fe2a507fad140297a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&477& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-7b3e12fe2a507fad140297a_r.jpg&&&/figure&&p&各省旅游景点销售起步价&/p&&p&好啦分析完啦，ヾ(*ΦωΦ)ツ大家可要好好玩呀。&/p&&p&PS：写了个网页，展示百度地图的热力图效果和 echarts 的景点排行榜，方便大家查看。&/p&&p&热力度效果：&a href=&https://link.zhihu.com/?target=http%3A//easyinfo.online/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&http://easyinfo.online&/a&&/p&&p&gayhub源码：&a href=&https://link.zhihu.com/?target=https%3A//github.com/otakurice/notravellist/tree/master& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&github.com/otakurice/no&/span&&span class=&invisible&&travellist/tree/master&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&写完这篇文的时候发现 echarts 有针对 Python 的模块可以引入，所以打算去学一下 Django、Flask 之类的 Web 框架，最近会更一些纯理论的意识流文，大家一起进步吧~&/p&&p&&b&参考资料：&/b&&/p&&p&1.地图API：&a href=&https://link.zhihu.com/?target=http%3A//developer.baidu.com/map/reference/index.php& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&developer.baidu.com/map&/span&&span class=&invisible&&/reference/index.php&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&2.echarts：&a href=&https://link.zhihu.com/?target=http%3A//echarts.baidu.com/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&echarts.baidu.com/&/span&&span class=&invisible&&&/span&&/a&&/p&&p&3.API使用示例：&a href=&https://link.zhihu.com/?target=http%3A//developer.baidu.com/map/jsdemo.htm%23c1_15& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&developer.baidu.com/map&/span&&span class=&invisible&&/jsdemo.htm#c1_15&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&4.json：&a href=&https://link.zhihu.com/?target=http%3A//www.runoob.com/json/json-tutorial.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&runoob.com/json/json-tu&/span&&span class=&invisible&&torial.html&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&5.xpath：&a href=&https://link.zhihu.com/?target=http%3A//www.runoob.com/xpath/xpath-tutorial.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&runoob.com/xpath/xpath-&/span&&span class=&invisible&&tutorial.html&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&6.pandas：&a href=&https://link.zhihu.com/?target=http%3A//python.jobbole.com/84416/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&python.jobbole.com/8441&/span&&span class=&invisible&&6/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&7.百度经纬度api：&a href=&https://link.zhihu.com/?target=http%3A//lbsyun.baidu.com/index.php%3Ftitle%3Dwebapi/guide/webservice-geocoding& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&lbsyun.baidu.com/index.&/span&&span class=&invisible&&php?title=webapi/guide/webservice-geocoding&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&8.浅拷贝和深拷贝：&a href=&https://link.zhihu.com/?target=http%3A//python.jobbole.com/82294/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&python.jobbole.com/8229&/span&&span class=&invisible&&4/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//www.jb51.net/article/36678.htm& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&jb51.net/article/36678.&/span&&span class=&invisible&&htm&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&来源：51CTO技术栈作者：大吉大利小米酱 &/p&&hr&&p&你想更深入了解学习Python知识体系，你可以看一下我们花费了一个多月整理了上百小时的几百个知识点体系内容：&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//www.magedu.com/73198.html/%3FPython_wenzhang_zhihu_xiujiang_pythongaoxinxunlianying_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【超全整理】《Python自动化全能开发从入门到精通》笔记全放送&/a&&/p&&p&为了方便大家学习，我建立了一个Python交流群，目前群内已经有2000多个小伙伴，学习寂寞的小伙伴不妨一起来玩~群号：&/p&
金秋九月，丹桂飘香，在这秋高气爽，阳光灿烂的收获季节里，我们送走了一个个暑假余额耗尽哭着走向校园的孩子们，又即将迎来一年一度伟大祖国母亲的生日趴体(无心上班，迫不及待想为祖国母亲庆生)。那么问题来了，去哪儿玩呢?百度输了个“国庆”，出来的第…
&p&入行之后，我才发现数据分析其实可以分为两种：一种类似产品经理、一种偏向数据挖掘，类似产品经理向更加注重业务，对业务能力要求比较高；数据挖掘向更加注重技术，对算法代码能力要求比较高。&/p&&p&&br&&/p&&p&首先我说说这两种方向共同需要的技术面，当然以下只是按照数据分析入门的标准来写：&/p&&p&&br&&/p&&p&1. SQL（数据库），我们都知道数据分析师每天都会处理海量的数据，这些数据来源于数据库，那么怎么从数据库取数据？如何建立两表、三表之间的关系？怎么取到自己想要的特定的数据？等等这些数据选择问题就是你首要考虑的问题，而这些问题都是通过SQL解决的，所以SQL是数据分析的最基础的技能，零基础学习SQL可以阅读这里：&a href=&//link.zhihu.com/?target=https%3A//www.w3cschool.cn/sql/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SQL教程_w3cschool&/a&&/p&&p&2. 统计学基础，数据分析的前提要对数据有感知，数据如何收集？数据整体分布是怎样的？如果有时间维度的话随着时间的变化是怎样的？数据的平均值是什么？数据的最大值最小值指什么？数据相关与回归、时间序列分析和预测等等，这些在网易公开课上倒是有不错的教程：&a href=&//link.zhihu.com/?target=http%3A//open.163.com/special/opencourse/statistics.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&哈里斯堡社区大学公开课：统计学入门_全24集_网易公开课&/a&&/p&&p&3.Python或者R的基础，这一点是必备项也是加分项，在数据挖掘方向是必备项，语言相比较工具更加灵活也更加实用。至于学习资料：R语言我不太清楚，Python方向可以在廖雪峰廖老师的博客里看Python教程，面向零基础。&/p&&p&&br&&/p&&p&再说说两者有区别的技能树：&/p&&p&1.数据挖掘向&/p&&p&我先打个前哨，想要在一两个月内快速成为数据挖掘向的数据分析师基本不可能，做数据挖掘必须要底子深基础牢，编程语言基础、算法、数据结构、统计学知识样样不能少，而这些不是你自习一两个月就能完全掌握的。&/p&&p&所以想做数据挖掘方向的，一定要花时间把软件工程专业学习的计算机基础课程看完，这些课程包括：数据结构、算法，可以在这里一探究竟：&a href=&https://www.zhihu.com/question/& class=&internal&&如何学习数据结构？&/a&&/p&&p&在此之后你可以动手用Python去尝试实现数据挖掘的十八大算法：&a href=&//link.zhihu.com/?target=https%3A//github.com/linyiqun/DataMiningAlgorithm& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据挖掘18大算法实现以及其他相关经典DM算法&/a&&/p&&p&&br&&/p&&p&2.产品经理向&/p&&p&产品经理向需要你对业务感知能力强，对数据十分敏感，掌握常用的一些业务分析模型套路，企业经常招聘的岗位是：商业分析、数据运营、用户研究、策略分析等等。这方面的学习书籍就很多，看得越多掌握的方法越多，我说几本我看过的或者很多人推荐的书籍：《增长黑客》、《网站分析实战》、《精益数据分析》、《深入浅出数据分析》、《啤酒与尿布》、《数据之魅》、《Storytelling with Data》&/p&&p&&br&&/p&&p&总之一百个人眼中有一百个哈姆雷特，一百个数据分析师对快速入门有一百种方法，但是万变不离其中，以上是我的愚见，希望能对你有所启发，&b&所以收藏的话不如点个赞啦！&/b&&/p&&p&&br&&/p&&p&&b&PS：我把一年多的学习经验、书籍资源、面视经验整理成了一本电子书，主要囊括Python入门、Python爬虫入门、Python爬虫进阶部分，在微信公众号“一个程序员的日常”后台回复关键词“1”可以获得这本精华电子书。&/b&&/p&
入行之后，我才发现数据分析其实可以分为两种：一种类似产品经理、一种偏向数据挖掘，类似产品经理向更加注重业务，对业务能力要求比较高；数据挖掘向更加注重技术，对算法代码能力要求比较高。首先我说说这两种方向共同需要的技术面，当然以下只是按照数…
&p&说来我正式接触数据分析也快一年，对速成还是有一些心得。优秀的数据分析师是不能速成的，但是零经验也有零经验的捷径。&/p&&p&&br&&/p&&p&以上的前提针对入门，目的是达到数据分析师的门槛，顺利拿到一份offer，不涉及数据挖掘等高级技巧。我的方法倾向互联网领域，不论是分析师这个职位，还是运营、产品的能力发展都是适用的。其他领域就仁者见仁了。&/p&&p&&br&&/p&&p&市面上有《七周七数据库》，《七周七编程语言》。今天我们就《七周七学习成为数据分析师》。&/p&&p&&br&&/p&&p&没错，七周。&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&第一周：Excel学习掌握&/b&&/p&&p&&br&&/p&&p&如果Excel玩的顺溜，你可以略过这一周。不过介于我入行时也不会vlookup，所以有必要讲下。&/p&&p&&br&&/p&&p&重点是了解各种函数，包括但不限于sum，count，sumif，countif，find，if，left/right，时间转换等。&/p&&p&&br&&/p&&p&Excel函数不需要学全，&b&重要的是学会搜索&/b&。即如何将遇到的问题在搜索引擎上描述清楚。&/p&&p&&br&&/p&&p&我认为掌握vlookup和数据透视表足够，是最具性价比的两个技巧。
学会vlookup，SQL中的join，Python中的merge很容易理解。
学会数据透视表，SQL中的group，Python中的pivot_table也是同理。
&/p&&p&&br&&/p&&p&这两个搞定，基本10万条以内的数据统计没啥难度，80%的办公室白领都能秒杀。&/p&&p&&br&&/p&&p&Excel是熟能生巧，多找练习题。还有需要养成好习惯，不要合并单元格，不要过于花哨。表格按照原始数据（sheet1）、加工数据（sheet2），图表（sheet3）的类型管理。&/p&&p&&br&&/p&&p&专栏上写了三篇Excel的文章，比较简单，大体介绍了Excel应用，可以作为职场新人的指南。&/p&&p&&br&&/p&&p&第一篇&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据分析—函数篇&/a&。主要简单讲解常用的函数，以及与之对应的SQL/Python函数。&/p&&p&&br&&/p&&p&第二篇&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据分析—技巧篇&/a&。主要简单讲解我认为很有新价比的功能，提高工作效率。&/p&&p&&br&&/p&&p&第三篇&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据分析—实战篇&/a&。主要将前两篇的内容以实战方式进行，简单地进行了一次数据分析。数据源采用了真实的爬虫数据，是5000行数据分析师岗位数据。&/p&&p&&br&&/p&&p&下面是为了以后更好的基础而附加的学习任务。&/p&&p&&br&&/p&&p&了解单元格格式，后期的数据类型包括各类timestamp，date，string，int，bigint，char，factor，float等。&/p&&p&&br&&/p&&p&了解数组，以及怎么用（excel的数组挺难用），Python和R也会涉及到 list。&/p&&p&&br&&/p&&p&了解函数和参数，当进阶为编程型的数据分析师时，会让你更快的掌握。&/p&&p&&br&&/p&&p&了解中文编码，UTF8和ASCII，包括CSV的delimiter等，以后你会回来感谢我的。&/p&&p&&br&&/p&&p&养成一个好习惯，不要合并单元格，不要过于花哨。表格按照原始数据、加工数据，图表的类型管理。&/p&&p&&br&&/p&&p&如果时间还有剩余，可以看&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&大数据时代 (豆瓣)&/a&，培养职业兴趣。&/p&&p&&br&&/p&&p&再来一道练习题，我给你1000个身份证号码，告诉我里面有多少男女，各省市人口的分布，这些人的年龄和星座。（身份证号码规律可以网上搜索）&/p&&figure&&img src=&https://pic2.zhimg.com/50/e48d25ababf941e4afacc1_b.jpg& data-rawwidth=&425& data-rawheight=&247& class=&origin_image zh-lightbox-thumb& width=&425& data-original=&https://pic2.zhimg.com/50/e48d25ababf941e4afacc1_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&&b&第二周：数据可视化&/b&&/p&&p&&br&&/p&&p&数据分析界有一句经典名言，字不如表，表不如图。数据可视化是数据分析的主要方向之一。除掉数据挖掘这类高级分析，不少数据分析就是监控数据观察数据。&/p&&p&&br&&/p&&p&数据分析的最终都是要兜售自己的观点和结论的。兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。如果没人认同分析结果，那么分析也不会被改进和优化，不落地的数据分析价值又在哪里？&/p&&p&&br&&/p&&p&首先要了解常用的图表：&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-15e812e7de4c1ddd26cf0_b.jpg& data-rawwidth=&1280& data-rawheight=&959& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic2.zhimg.com/50/v2-15e812e7de4c1ddd26cf0_r.jpg&&&/figure&&p&&br&&/p&&p&各类图表的详细介绍可以查看第四篇文章：&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据可视化：你想知道的经典图表全在这&/a&&/p&&p&&br&&/p&&p&了解图表后，还应该学会报表制作，这里准备了第五篇：&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据可视化：打造高端的数据报表&/a&。将教会大家Excel的高级图表用法。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-90e7cf2f3977c66c6821e_b.jpg& data-rawwidth=&950& data-rawheight=&1118& class=&origin_image zh-lightbox-thumb& width=&950& data-original=&https://pic4.zhimg.com/50/v2-90e7cf2f3977c66c6821e_r.jpg&&&/figure&&p&&br&&/p&&p&如果还不过瘾，我们得掌握信息图和BI，下图就是微软的Power BI：&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-f79c7d413fd311e4dc105b7f_b.jpg& data-rawwidth=&600& data-rawheight=&350& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic4.zhimg.com/50/v2-f79c7d413fd311e4dc105b7f_r.jpg&&&/figure&&p&&br&&/p&&p&BI（商业智能）和图表的区别在于BI擅长交互和报表，更擅长解释已经发生和正在发生的数据。将要发生的数据是数据挖掘的方向。&/p&&p&&br&&/p&&p&BI的好处在于很大程度解放数据分析师的工作，推动全部门的数据意识，另外降低其他部门的数据需求（万恶的导数据）。&/p&&p&&br&&/p&&p&BI市面上的产品很多，基本都是建立仪表盘Dashboard，通过维度的联动和钻取，获得可视化的分析。第六篇：&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&数据可视化：深入浅出BI&/a& 将以第一周的实战数据学习BI，上图的就是学习后的成果。&/p&&p&&br&&/p&&p&数据可视化的学习就是三个过程，了解数据（图表），整合数据（BI），展示数据（信息化）。&/p&&p&&br&&/p&&p&可视化也和审美息息相关，很多直男代表并不擅长做图，没关系，抽空可以看书：&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据之美 (豆瓣)&/a&&/p&&p&&br&&/p&&p&PPT也别落下，Excel作图多练习，不会有坏处的。&/p&&p&&br&&/p&&p&&a href=&https://www.zhihu.com/topic//hot& class=&internal&&PPT - 热门问答&/a&&/p&&p&&br&&/p&&p&&a href=&https://www.zhihu.com/topic//hot& class=&internal&&Excel 图表绘制 - 热门问答&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&第三周：分析思维的训练&/b&&/p&&p&&br&&/p&&p&这周我们轻松一下，学学理论知识。&/p&&p&&br&&/p&&p&分析思维首推大名鼎鼎的&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&金字塔原理 (豆瓣)&/a&，帮助数据分析师结构化思维。如果金字塔原理让你醍醐灌顶，那么就可以学思维导图，下载一个&a href=&//link.zhihu.com/?target=http%3A//www.xmindchina.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&XMind中文网站&/a&，或者在线用百度脑图（百度难得不被骂的产品）。&/p&&p&&br&&/p&&p&如果不想看金字塔原理，那么就看第七篇文章：&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&如何培养麦肯锡式的分析思维&/a&。将书本的内容提炼了大部分。&/p&&p&&br&&/p&&p&再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。这些框架都是大巧不工的经典。你要快速成为数据分析师，思考方式也得跟着改变。网上搜咨询公司的面试题，搜Case Book。题目用新学的思维导图做，先套那些经典框架，做一遍，然后去看答案对比。&/p&&p&&br&&/p&&p&等思维框架建立好，我们应该往里面塞点数据分析的思维了，&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&如何建立数据分析的思维框架&/a&。两篇文章相结合，就能出师了。&/p&&p&&br&&/p&&p&这里送三条金句：&/p&&p&&br&&/p&&p&一个业务没有指标，则不能增长和分析&/p&&p&&br&&/p&&p&好的指标应该是比率或比例&/p&&p&&br&&/p&&p&好的分析应该对比或关联。&/p&&p&&br&&/p&&p&举一个例子：我告诉你一家超市今天有1000人的客流量，你会怎么分析？&/p&&p&&br&&/p&&p&这1000人的数量，和附件其他超市比是多是少？（对比）&/p&&p&&br&&/p&&p&这1000人的数量比昨天多还是少？（对比）&/p&&p&&br&&/p&&p&1000人有多少产生了实际购买？（转化比例）&/p&&p&&br&&/p&&p&路过超市，超市外的人流是多少？（转化比例）&/p&&p&&br&&/p&&p&这是一个快速搭建分析框架的方法。如果只看1000人，是看不出分析不出任何结果。&/p&&p&&br&&/p&&p&优秀的数据分析师会拷问别人的数据，而他本身的分析也是经得起拷问，这就是分析思维能力。需要确切明白的是，一周时间锻炼不出数据思维，只能做到了解。&b&数据思维是不断练习的结果&/b&，我只是尽量缩短这个过程。&/p&&p&&br&&/p&&p&&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject/5257905/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深入浅出数据分析 (豆瓣)&/a&&/p&&p&这本书太啰嗦了，我看到一半放弃了…但推荐人不少，可以快速翻看一下。&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&第四周：数据库学习&/b&&/p&&p&&br&&/p&&p&Excel对十万条以内的数据处理起来没有问题，但是互联网行业就是不缺数据。但凡产品有一点规模，数据都是百万起。这时候就需要学习数据库。&/p&&p&&br&&/p&&p&数据库入门看这篇文章：&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&写给新人的数据库指南&/a&&/p&&p&&br&&/p&&p&越来越多的产品和运营岗位，会在招聘条件中，将会SQL作为优先的加分项。&/p&&p&&br&&/p&&p&SQL是数据分析的核心技能之一，从Excel到SQL绝对是数据处理效率的一大进步。&/p&&p&&br&&/p&&p&学习围绕Select展开。增删改、约束、索引、数据库范式均可以跳过。SQL学习不需要买书，W3C学习就行了，&a href=&//link.zhihu.com/?target=http%3A//www.w3school.com.cn/sql/index.asp& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SQL 教程&/a&。大多数互联网公司都是MySQL，我也建议学，性价比最高。&/p&&p&&br&&/p&&p&主要了解where，group by，order by，having，like，count，sum，min，max，distinct，if，join，left join，limit，and和or的逻辑，时间转换函数等。&/p&&p&&br&&/p&&p&如果想要跟进一步，可以学习row_number，substr，convert，contact等。另外不同数据平台的函数会有差异，例如Presto和phpMyAdmin。&/p&&p&&br&&/p&&p&你看，和Excel的函数都差不多。按照&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&SQL，从入门到熟练&/a&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&SQL，从熟练到掌握&/a&这两篇的内容学习。虽然没有实战的打磨，但是了解一个大概够了。&/p&&p&&br&&/p&&p&期间你不需要考虑优化和写法丑陋，查询几秒和几分钟对数据分析师没区别，跑数据时喝杯咖啡呗，以后你跑个SVM都能去吃饭了。&/p&&p&&br&&/p&&p&网上也能搜索SQL相关的练习题，刷一遍就行。也能自己下载数据库管理工具，找些数据练习。我用的是Sequel Pro。&/p&&p&&br&&/p&&p&&b&附加学习：&/b&&/p&&p&如果这周的学习充裕，可以了解MapReduce原理。&/p&&p&&br&&/p&&p&来一道练习题，表A是用户的注册时间表，表B是用户所在地，写出各地区每月新注册用户的查询SQL。掌握到这个程度，基本够用，虽然往后工作中会有更多变态数据需求。&/p&&figure&&img src=&https://pic2.zhimg.com/50/a52ede0cd1c809d9dba0cf_b.jpg& data-rawwidth=&428& data-rawheight=&196& class=&origin_image zh-lightbox-thumb& width=&428& data-original=&https://pic2.zhimg.com/50/a52ede0cd1c809d9dba0cf_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&&b&第五周：统计知识学习&/b&&/p&&p&很遗憾，统计知识是我最薄弱的地方，也是数据分析的基础之一。&/p&&p&&br&&/p&&p&统计知识会要求我们以另一个角度看待数据。当你知道AB两组的差异用平均值看是多傻的事情，你的分析技巧也会显著提高。&/p&&p&&br&&/p&&p&这一周努力掌握描述性统计，包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。详细的数学推导不用细看，谁让我们是速成呢，只要看到数据，知道不能怎么样，而是应该这样分析即可。&/p&&p&&br&&/p&&p&Excel中有一个分析工具库，简单强大。对列1的各名词做到了解。如果是多变量多样本，学会各种检验。&/p&&figure&&img src=&https://pic2.zhimg.com/50/9cce8bdc0d228dd77822e_b.jpg& data-rawwidth=&475& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&475& data-original=&https://pic2.zhimg.com/50/9cce8bdc0d228dd77822e_r.jpg&&&/figure&&p&&br&&/p&&p&（图片网上找来的）&/p&&p&&br&&/p&&p&&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject/3595095/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&统计数字会撒谎 (豆瓣)&/a&&/p&&p&休闲读物，有趣的案例可以让我们避免很多数据陷阱。&/p&&p&&br&&/p&&p&&a href=&//link.zhihu.com/?target=https%3A//book.douban.com/subject/7056708/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深入浅出统计学 (豆瓣)&/a&&/p&&p&还是经典的HeadFirst系列，适应它一贯的啰嗦吧。&/p&&p&&br&&/p&&p&多说一句，老板和非分析师不会有兴趣知道背后的统计学原理，通常要的是分析后的是与否，二元答案。不要告诉他们P值什么的，告诉他们活动有效果，或者没效果。&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&第六周：业务学习（用户行为、产品、运营）&/b&&/p&&p&&br&&/p&&p&这一周需要了解业务。对于数据分析师来说，&b&业务的了解比数据方法论更重要。&/b&当然很遗憾，业务学习没有捷径。&/p&&p&&br&&/p&&p&我举一个数据沙龙上的例子，一家O2O配送公司发现在重庆地区，外卖员的送货效率低于其他城市，导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因，都没有找出来问题。后来在访谈中发觉，因为重庆是山城，路面高低落差比较夸张，很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。&/p&&p&&br&&/p&&p&这个案例中，我们只知道送货员的送货水平距离，数据上根本不可能知}

奇偶密码网