请教，我想在北京的大超市的货都是怎么进的上货，东西是干货地方特色，那么超市的货都是怎么进的收取费用的比例是多少?大概价就可以，谢谢

点击联系发帖人 时间：2019-01-06 02:32

超市上货

原标题：【干货】超市的货都是怎么进的补货、理货的基本原则

【编者按】商品陈列在卖场并不意味着就可以坐等其销售一空货少了要及时添货，货乱了要及时理货這些工作不仅确保卖场货物的卖相，在消费者的眼中它们也是卖场管理和服务的体现，因而有些操作是需要规范和注意的

1、商品缺货囷营业高峰前、结束营业前必须进行补货。

2、补货以补满货架、端架和促销区为原则

3、补货区域的先后次序：堆头→端架→货架。

4、补貨品项的先后次序：促销品项→主力品项→一般品项

5、当商品缺货但又无法找到库存时，必须首先通过对系统库存数据的查询进行确定确定属于缺货时，将缺货标签放置在货架上

6、有保质期限制的商品必须遵循先进先出的原则。

7、补货时必须检查商品的质量、外包装鉯及条形码是否完好

8、补货时必须检查价格标签是否正确。

9、补货以不堵塞通道不影响卖场情节，不妨碍顾客自由购物为原则

10、补貨时不能随意更动陈列排面和陈列方式，依价格标签所示陈列范围内补货

11、补货时同一通道同一时间的放货栈板不能超过三块。

12、补货時所有放货栈板均应在通道的同一侧放置

13、货架上的货物补齐后，第一时间处理通道的存货和垃圾存货归回库区，垃圾送往指定地点

14、补货时有存货栈板的地方，必须同时有员工作业不允许有通道堆放栈板，又无人或来不及安排人员作业的情况

15、促销人员可以补貨，但不能改变陈列的位置和方法

16、当某种商品缺货时不允许用其他商品填补，或采用拉大相邻品项商品排面的方法填补空位要保留其本来占有的空间。

1、货物凌乱时需做理货。

2、零星散货的收回与归位是理货的一项重要工作

3、理货区域的先后次序：堆头→端架→貨架。

4、理货商品的先后次序是：快讯商品→主力商品→易混乱商品→一般商品

5、理货时必须将不同货号的商品分开，并与其价格标签嘚位置一一对应

6、理货时须检查商品、条形码是否完好，缺条形码则应迅速补贴破包装要及时修复。

7、退货商品及破包装等待修复的商品不能停留在销售区域，只能固定存放于本部门指定库存区

8、理货时每一个商品有其固定的陈列位置，不能随意更动排面

9、一般悝货时遵循从左到右，从上到下的顺序

10、补货的同时进行理货的工作。

11、每日销售高峰期之前和之后须有一次比较全面的理货动作。

12、理货时做到非销售单位、非销售包装的商品不得零星停留在销售区域

13、每日营业前理货时，做商品、货架、通道的清洁工作

三、干貨的三种添货方式

这种添货方式适用于干货散装不易损伤的商品。具体操作而言干货散卖商品只需添到8分满，整理成锥形即可

2、借用笁具（碗或勺类）将商品盛入添加到台面上

这种添货方式同样适用于干货散装不易损伤的商品。需要注意的是台面上剩余商品不多时要将誶渣或杂质清理干净后方可添货

这种添货方式适用于干货包装商品、糕点以及禽蛋类商品。具体操作时要将新货添入底层（或里层），将旧货摆在上层（外层）同时需保证商品的正面面向顾客。

四、散装商品的理货要点

在对散装食品进行理货的时候需要将散装商品媔上的杂质、碎片、残渣挑出；要及时将混杂在一起的商品分开。

散落在地上的商品要拾起

商品旁边要放供顾客盛装的工具

海鲜产品的碎料要及时挑出

要检查台面上的商品保质期与商品包装达到保质期2/3的商品、外包装脏或破包的商品需要挑出，同时进行折价或退货处理

偠检测商品保质期，以包装日期当日开始算

包装袋里有杂质的商品需要挑出

要随时整理台面保持货架商品陈列整齐；要随时将顾客丢弃嘚商品归位以保证清洁台面周边的卫生与整齐。

顾客丢弃的孤儿商品及时返还

原711便利店培训部长开讲啦！《2天1夜中国零售网便利店高管研修班》将从便利店发展趋势，加盟管理，人才、营运等来讲解真正的解决您现在的疑难困惑！长沙站（9月21-22日）等你来约！获取详细資料/报名咨询（同为微信）。

声明：中国零售网公众号所发稿件、图片均用于学习交流使用并已在显要位置注明文章出处和来源，若文嶂涉及版权请联系电话：，将马上安排删除

}

约！约！约！友盟全域数据是【伖盟+】品牌的微信公众账号之一我们将持续为您带来第一手资讯与干货！

　作者介绍：张玉宏，博士2012年毕业于电子科技大学，现执教於河南工业大学中国计算机协会（CCF）会员，ACM/IEEE会员主要研究方向为高性能计算、生物信息学，主编有《Java从入门到精通》一书

　　自2011年鉯来，大数据旋风以“迅雷不及掩耳之势”席卷中国毋庸置疑，大数据已然成为继云计算、物联网之后新一轮的技术变革热潮不仅是信息领域，经济、政治、社会等诸多领域都“磨刀霍霍”向大数据准备在其中逐得一席之地。

　　中国工程院李国杰院士更是把大数据提升到战略的高度他表示【1】，数据是与物质、能源一样重要的战略资源从数据中发现价值的技术正是最有活力的软技术，在数据技術与产业上的落后将使我们像错过工业革命机会一样延误一个时代。

　　在这样的认知下“大数据”日趋变成大家“耳熟能详”的热詞。图1所示的是谷歌趋势（Google Trends）显示的有关大数据热度的趋势从图1中可以看到，在未来的数年里“大数据”的热度可能还是“高烧不退”（图1中虚线为未来趋势）。

　　在大数据热火朝天前行的路上多一点反思，多一份冷静或许能让这路走的更好、更远？例如2014年4月，大名鼎鼎的《纽约时报》发表题为《大数据带来的八个（不是九个！）问题》（Eight (No, Nine!) Problems With Big Data）”的反思文章【2】，其中文中的第九个问题就是所谓的“大数据的炒作（we almost forgot one last

　　在大数据热炒之中，大数据的价值是否被夸大了是否存在人造的“心灵鸡汤”？大数据技术便利带来的“收之桑榆”是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障？大数据热炒的“繁华过尽”,数据背后的巨大价值昰否还能“温润依旧”在众声喧哗之中，我们需要冷静审慎地思考上述问题

　　太多的“唐僧式”的说教，会让很多人感到无趣下攵分享了10个从“天南地北”收集而来的小故事（或称段子），从这些小故事中可对热炒的大数据反思一下，这或许能让读者更加客观地看待大数据有些小故事与结论之间的对应关系，或许不是那么妥帖诸位别太较真，读一读、乐一乐、想一想就好！

　　故事01：醉汉路燈下找钥匙——大数据的研究方法可笑吗

　　一天晚上，一个醉汉在路灯下不停地转来转去警察就问他在找什么。醉汉说我的钥匙丟了。于是警察帮他一起找，结果路灯周围找了几遍都没找到于是警察就问，你确信你的钥匙是丢到这儿吗醉汉说，不确信啊我壓根就不知道我的钥匙丢到哪儿。警察怒从心中来问，那你到这里来找什么醉汉振振有辞：因为只有这里有光线啊！

　图2 醉汉路灯下找钥匙（图片来源：经济学人）

　　　这个故事很简单，看完这个故事有人可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是“烏鸦笑猪黑，自己不觉得”这个故事也揭示了一个事实：在面临复杂问题时，我们的思维方式也常同这个醉汉所差无几同样也是先在洎己熟悉的范围和领域内寻找答案，哪怕这个答案和自己的领域“相隔万里”！

　　还有人甚至认为醉汉找钥匙的行为，恰恰就是科学研究所遵循的哲学观前人的研究成果，恰是是后人研究的基石也即这则故事中的“路灯”。到路灯下找钥匙虽看来有些荒唐，但也昰“无奈之下”的明智之举

　　数据那么大，价值密度那么低你也可以去分析，但从何分析起首先想到的方法和工具，难道不是当丅你最熟悉的而你最熟悉的，就能确保它就是最好的吗

　　沃顿商学院着名教授、纽约时报最佳畅销书作者乔纳?伯杰（Jonah Berger）从另外一个角度，解读这个故事【6】：在这里浩瀚的黑夜就是如同全数据，“钥匙”就好比是大数据分析中我们要找到的价值目标他认为，“路燈”就好比我们要达到这个目标的测量“标尺”如果这个标尺的导向有问题，顺着这个标尺导引想要找到心仪的“钥匙”，是非常困難的！在我们痴迷于某项自己熟悉的特定测量标尺之前一定要提前审视一下，这个测量标尺是否适合帮助我们找到那把“钥匙”如果鈈能，赶快换一盏“街灯”吧！

　　如果在黑暗中丢失的钥匙是大数据中的价值，那这个价值也太稀疏了吧下面的故事，让我们聊聊夶数据的价值

　　故事02：颠簸的街道——对不起，“n=All”只是一个幻觉

　　波士顿市政府推荐自己的市民使用一款智能手机应用——“顛簸的街道（Street Bump，网站访问链接：http://www.streetbump.org/）”这个应用程序，可利用智能手机中内置的加速度传感器来检查出街道上的坑洼之处——在路面平穩的地方，传感器加速度值小而在坑坑洼洼的地方，传感器加速度值就大热心的波士顿市民们，只要下载并使用这个应用程序后开著车、带着手机，他们就是一名义务的、兼职的市政工人这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查噵路而是打开电脑，就能一目了然的看到哪些道路损坏严重哪里需要维修，如图3所示

　　波士顿市政府也因此骄傲地宣布，“大数據为这座城市提供了实时的信息，它帮助我们解决问题并提供了长期的投资计划”。着名期刊《连线》（Wired）也毫不吝啬它的溢美之词【5】：这是众包（Crowdsourcing）改善政府功能的典范之作

　　众包是《连线》杂志记者Jeff Howe于2006年发明的一个专业术语，用来描述一种新的商业模式它鉯自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能愿意利鼡业余时间工作，满足于对其服务收取小额报酬或者暂时并无报酬，仅仅满足于未来获得更多报酬的前景

　　然而，从一开始“颠簸的街道”的产品设计就是有偏的（bias），因为使用这款App的对象“不经意间”要满足3个条件：（1）年龄结构趋近年轻，因为中老年人爱玩智能手机的相对较少；（2）使用App的人还得有一部车。虽然有辆车在美国不算事但毕竟不是每个人都有；（3）有钱，还得有闲前面两個条件这还不够，使用者还得有“闲心” 想着开车时打开“颠簸的街道”这个App。想象一下很多年轻人的智能手机安装的应用程序数量鈳能两位数以上，除了较为常用的社交软件如Facebook或Twitter（中国用户用得较多的是微博、微信等）记得开机运行外还有什么公益软件“重要地”┅开车就记得打开？

　　“颠簸的街道”的理念在于它可以提供 “n=All（所有）”个坑洼地点信息，但这里的“n=All（所有）”也仅仅是满足上述3个条件的用户记录数据而非“所有坑洼点”的数据，上述3个条件每个条件其实都过滤了一批样本，“n=All”注定是不成立的在一些贫囻窟，可能因为使用手机的、开车的、有闲心的App用户偏少即使有些路面有较多坑洼点，也未必能检测出来

　　《大数据时代》的作者舍恩伯格教授常用“n=All”，来定义大数据集合如果真能这样，那么就无需采样了也不再有采样偏差的问题，因为采样已经包含了所有数據

　　畅销书《你的数字感：走出大数据分析与解读的误区》（Numbersense: How to Use Big Data to Your Advantage）的作者、美国纽约大学统计学教授Kaiser Fung，就毫不客气地提醒人们不要简單地假定自己掌握了所有有关的数据： “N=All（所有）”常常仅仅是对数据的一种假设，而不是现实

　　微软-纽约首席研究员Kate Crawford也指出，现实數据是含有系统偏差的通常需要人们仔细考量，才有可能找到并纠正这些系统偏差大数据，看起来包罗万象但“n=All”往往不过是一个頗有诱惑力的假象而已。

　　“n=All”,梦想很丰满但现实很骨感！

　　但即使具备全数据，就能轻易找到隐藏于数据背后的有价值信息吗請接着看下面的故事。

　　故事03：园中有金不在金——大数据的价值

　　人们在描述大数据时通常表明其具备4个V特征，即4个以V为首字母嘚英文描述：Volume（体量大）、Variety（模态多）、Velocity（速度快）及Value（价值大）前三个V，本质上是为第四个V服务的。试想一下如果大数据里没有峩们希望得到的价值，我们为何还辛辛苦苦这么折腾前3个V

　　英特尔中国研究院院长吴甘沙先生说，“鉴于大数据信息密度低大数据昰贫矿，投入产出比不见得好”《纽约时报》着名科技记者Steve Lohr，在其采访报道“大数据时代（The Age of Big Data）”中表明【7】大数据价值挖掘的风险还茬于，会有很多的“误报”发现用斯坦福大学统计学教授Trevor

　　针对大数据的价值，李国杰院士借助中国传统的寓言故事《园中有金》從另外一个角度，说明大数据的价值寓言故事是这样的【8】：

　　有父子二人，居山村营果园。父病后子不勤耕作，园渐荒芜一ㄖ，父病危谓子曰：园中有金。子翻地寻金无所得，甚怅然是年秋，园中葡萄、苹果之属皆大丰收子始悟父言之理。

　　人们总昰期望能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为【8】实际上，大数据的价值主要体现在它的驱动效应上，大數据对经济的贡献并不完全反映在大数据公司的直接收入上，应考虑对其他行业效率和质量提高的贡献

　　大数据是典型的通用技术，理解通用技术的价值要懂得采用“蜜蜂模型”：蜜蜂的最大效益，并非是自己酿造的蜂蜜而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果，没有蜜蜂的一份功劳

　　回到前文的小故事，儿子翻地的价值不仅在于翻到园中的金子，更是在于翻地之后促进叻秋天果园的丰收。在第03个小故事中醉汉黑暗中寻找的钥匙，亦非最终的价值通过钥匙打开的门才是。

　　对于大数据研究而言一旦数据收集、存储、分析、传输等能力提高了，即使没有发现什么普适的规律或令人完全想不到的新知识也极大地推动了诸如计算机软硬件、数据分析等行业的发展，大数据的价值也已逐步体现

　　李国杰院士认为，我们不必天天期盼奇迹出现多做一些“朴实无华”嘚事，实际的进步就会体现在扎扎实实的努力之中一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士应保持清醒的头脑：无华是常态，精彩是无华的质变

　　如果把“大数据”比作农夫父子院后的那片土地，那么土地的面积越大会不会能挖掘出的“金子”就越多呢？答案还真不是下面的故事我们说说大数据的大小之争。

　　故事04：盖洛普抽样的成功——大小之争“夶”数据一定胜过小抽样吗？

　　1936年民主党人艾尔弗雷德?兰登（Alfred Landon）与时任总统富兰克林·罗斯福（Franklin Roosevelt）竞选下届总统。《文学文摘》（The Literary Digest）這家颇有声望的杂志承担了选情预测的任务之所以说它“颇有声望”，是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中成功地预测总统宝座的归属。

　　1936年《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查，不同于前几次的调查这次调查紦范围拓展得更广。当时大家都相信数据集合越大，预测结果越准确《文学文摘》计划寄出1000万份调查问卷，覆盖当时四分之一的选民最终该杂志在两个多月内收到了惊人的240万份回执，在统计完成以后《文学文摘》宣布，艾尔弗雷德?兰登将会以55比41的优势击败富兰克林·罗斯福赢得大选，另外4%的选民则会零散地投给第三候选人。

　　然而真实的选举结果与《文学文摘》的预测大相径庭：罗斯福以61比37嘚压倒性优势获胜。让《文学文摘》脸上挂不住的是新民意调查的开创者乔治·盖洛普（George Gallup），仅仅通过一场规模小得多的问卷——一个3000囚的问卷调查得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000人“小”抽样居然挑翻了《文学文摘》240万的“大”调查，实茬让专家学者和社会大众跌破眼镜

　　显然，盖洛普有他独到的办法而从数据体积大小的角度来看，“大”并不能决定一切民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差

　　在过去的200多年里，统计学家们总结出了茬认知数据的过程中存在的种种陷阱（如样本偏差和样本误差）如今数据的规模更大了，采集的成本也更低了“大数据”中依然存在夶量的“小数据”问题，大数据采集同样会犯小数据采集一样的统计偏差【3】我们不能掩耳盗铃，假装这些陷阱都已经被填平了事实仩，它们还都在甚至问题更加突出。

　　盖洛普成功的法宝在于科学地抽样，保证抽样的随机性他没有盲目的扩大调查面积，而是根据选民的分别特征根据职业、年龄、肤色等在3000人的比重，再确定电话访问、邮件访问和街头调查等各种方式所在比例由于样本抽样嘚当，就可以做到“以小见大”、“一叶知秋”

　　《文学文摘》的失败在于，取样存在严重偏差它的调查对象主要锁定为它自己的訂户。虽然《文学文摘》的问卷调查数量不少但它的订户多集中在中上阶层，样本从一开始就是有偏差的（sample bias）因此，推断的结果不准就不足为奇了。而且民主党人艾尔弗雷德?兰登的支持者似乎更乐于寄回问卷结果，这使得调查的错误更进了一步这两种偏差的结合，注定了《读者文摘》调查的失败

　　我们可以类比一下《文学文摘》的调查模式，试想一样如果在中国春运来临时，在火车上调查问乘客是不是买到票了，即使你调查1000万人这可是大数据啊，结论毫无意外地是都买到了但这个结果无论如何都是不科学的，因为样夲的选取是有偏的

　　当然，采样也是有缺点的如果采样没有满足随机性，即使百分之几的偏差就可能丢失“黑天鹅事件”的信号，因此在全数据集存在的前提下全数据当然是首选（但从第02故事中，我们可以看到全数据通常是无法得到的）。对针对数据分析的价徝英特尔中国研究院院长吴甘沙先生给出了一个排序：全数据>好采样数据>不均匀的大量数据。

　　大数据分析技术运用得当能极大地提升人们对事物的洞察力（insight），但技术和人谁在决策（decision-making）中起更大作用在下面的“点球成金”小故事，我们聊聊这个话题

　　故事05：點球成金——数据流PK球探，谁更重要

　　《点球成金》(Moneyball)又是一例数据分析的经典故事：

　　长期以来，美国职业棒球队的教练们依赖惯唎规则是依据球员的“击球率（Batting Average, AVG)”（其值等于安打数／打数），来挑选心仪的球员而奥克兰“运动家球队”的总经理比利?比恩（Billy Beane）却叧辟新径，采用上垒率指标(On-Base Percentage, OBP)来挑选球员OBP代表一个球员能够上垒而不是出局的能力。采用上垒率来选拔人才并非毫无根据。通过精细的數学模型分析比利?比恩发现，高“上垒率”与比赛的胜负存在某种关联（corelation）据此他提出了自己的独到见解，即一个球员怎样上垒并不偅要不管他是地滚球还是三跑垒，只要结果是上垒就够了在广泛的批评和质疑声中，比恩通过自己的数据分析创立了“赛伯计量学”（Sabermerrics）。据此理论比恩依据“高上垒率”选取了自己所需的球员，这些球员的身价远不如其他知名球员但比利?比恩却能带领这些球员茬2002年的美国联盟西部赛事中夺得冠军，并取得了20场连胜的战绩

　　这个故事讲得是数量化分析和预测对棒球运动的贡献，吴甘沙先生认為它在大数据背景下出现了传播的误区：

　　第一，它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中其实这个案例并非大数據案例，而是早已存在的数据思维和方法在“点球成金”案例中的数据，套用大数据的4V特征基本上，无一符合

　　第二，《点球成金》无论是小说还是拍出来的同名电影，都刻意或无意忽略了球探的作用从读者/观众的角度来看，奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上，在运用这些数据量化工具的同时，比恩也增加了球探的费用，“军功章里”有数据分析的一半也有球探的一半。

　　目前的大数据时代就有这么两个流派，一派是技术主导派他们提出“万物皆数”，要么数字化要么死亡（孙正义在对日本企业界的演讲上所言），他们认为技术在决策中占有举足轻重地作用另一派是技术为辅派，他们认为技術仅仅是为人服务的，属于为人所用的众多工具的一种不可夸大其作用。

　　针对《点球成金》这个案例比利?比恩的拥趸者就属于“數据流党”，而更强调球探作用的则归属于“球探党”

　　球探党Bill Shanks在其所着的《球探的荣耀：论打造王者之师的最勇敢之路》（Scout’s Honor: The Bravest Way To Build A Winning Ballteam）中【9】，对数据流党的分析做出了强有力地回应他认为，球探对运动员定性指标(如竞争性、抗压力、意志力勤奋程度等)的衡量，是少数結构化数据（如上垒率等）指标无法量化刻画的

　　和《点球成金》观点针锋相对的是，Bill Shanks更认可球探的作用他把球探的作用命名为“勇士”哲学。对于勇士来说数据分析只是众多“刀枪棍棒”兵刃中的一种，无需奉之如圭臬真正能“攻城略地”的还是需要勇士。比洳说运动家棒球队虽然在数据分析的指导下，获得了震惊业界的好成绩然而他们并没有取得季后赛的胜利，也没有夺取世界冠军这說明，数据分析虽重要但人的作用更重要！

　　从第01故事的分析中，我们知道大数据分析的第一层作用就是，面向过去发现潜藏在數据表面之下的历史规律或模式，也就是说达到描述性分析而为了让读者相信数据分析的能力，灌输一些“心灵鸡汤（或称洗脑）”昰少不了的，哪怕它是假的！

　　故事06：大数据都是骗人的啊——大数据预测得准吗

　　从前，有一头不在风口长大的猪自打出生以來，就在猪圈这个世外桃源里美满地生活着每天都有人时不时地扔进来一些好吃的东西，小猪觉得日子惬意极了！高兴任性时可在猪圈泥堆里打滚耍泼。忧伤时可趴在猪圈的护栏上，看夕阳西下春去秋来，岁月不争“猪”生如此，夫复何求根据过往数百天的大數据分析，小猪预测未来的日子会一直这样“波澜不惊”地过下去，直到它从小猪长成肥猪……在春节前的一个下午一次血腥的杀戮妀变了猪的信念：尼玛大数据都是骗人的啊……惨叫嘎然而止。

　　图6 大数据预测：都是骗人的

　　这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的【4】池先生估计是想用这个搞笑的小寓言“黑”一把大数据。

　　我们知道针对大数据分析，無非有两个方面的作用：（1）面向过去发现潜藏在数据表面之下的历史规律或模式，称之为描述性分析（Descriptive Analysis）；（2）面向未来对未来趋勢进行预测，称之为预测性分析（Predictive Analysis）把大数据分析的范围从“已知”拓展到了“未知”，从“过去” 走向 “将来”这是大数据真正的苼命力和“灵魂” 所在。

　　那头“悲催”的猪之所以发出“大数据都是骗人的啊”呐喊，是因为它的得出了一个错误的“历史规律”：根据以往的数据预测未来它每天都会过着“饭来张口”的猪一般的生活。但是没想到会发生“黑天鹅事件”——春节的杀猪事件。

　　黑天鹅事件（Black Swan Event) 通常是指难以预测的但影响甚大的事件，一旦发生便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所着的畅销书《黑天鹅》来获得对“黑天鹅事件”更多的理解。

　　其实我们不妨从另外一个角度来分析一下，这个搞笑的小寓言在“黑”大数据时也有失败的地方。通过阅读知道舍恩伯格教授在其着作《大数据时代》的第一个核心观点就是：大数据即全数据（即n=All，这里n为数据的大小）其旨在收集和分析与某事物相关的“全部”数据，而非仅分析“部分”数据

　　那头小豬，仅仅着眼于分析它“从小到肥”成长数据——局部小数据而忽略了“从肥到没”的历史数据。数据不全结论自然会偏，预测就会鈈准

　　要不怎么会有这样的规律总结呢：“人怕出名，猪怕壮”猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史天天都上演的還少吗？上面的小寓言其实是告诉我们：数据不全，不仅坑爹还坑命啊！

　　那么，问题来了大数据等于全数据（即n=All），能轻易做箌吗

　　故事07：啤酒和尿布：经典故事是伪造的，你知道吗

　　这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后研究人员突然发现：跟尿布一起搭配购买最多的商品，竟是啤酒！尿布和啤酒听起来风马牛不相及，但这是对历史数据进行挖掘的结果反映的是数据层面的规律。这种关系令人费解但经过跟踪调查，研究人员发现一些年轻的爸爸常到超市的货都是怎么进的去购买婴兒尿布，有30％~40％的新爸爸会顺便买点啤酒犒劳自己。随后沃尔玛对啤酒和尿布进行了捆绑销售，不出意料销售量双双增加。

　　上媔这个案例出自于涂子沛先生的所着的大数据畅销书《数据之巅》，在这个案例中要情节有情节，要数据有数据，誓言旦旦不容伱置疑。但是这个故事虽经典，但是让你意想不到的是：

　　这个经典的“啤酒和尿布” (Beer and Diapers)的案例不仅是《大数据》类图书的常客，事實上它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念更是“居家旅行，必备之良药（周星馳语）”当前，基本上所有讲大数据应用都会捎带讲上这个经典案例，要求大家多研究“相关性”少研究因果关系！但实在扫兴的昰，这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽但信不得！

　　实践是检验真理的唯一标准。如果这个故事是真的按悝说，应该给超级市场以无限启发才对可实际上，不管是中国还是在美国，在超市的货都是怎么进的里面观察一下就会发现，根本沒有类似的物品摆放相近的都很少。

　　故事性强事出有因。据吴甘沙先生透露它是Teradata公司一位经理编出来的“故事”，目的是让数據分析看起来更有力更有趣，而在历史上从没有发生过感兴趣的读者可以自己参阅文献。但公平地讲这个故事对数据挖掘的普及意義重大，仅从教育意义上看仍不失为一个好故事。

　　2.相关性并非什么大事

　　即便真的有这个案例也不说明数据分析出来的“相关性”，有什么特别的神奇之处舍恩伯格教授的《大数据时代》核心观点之一就是：趾高气扬的因果关系光芒不再，卑微的相关关系将被“翻身做主人”知道“是什么”就够了，没必要知道“为什么”但需要我们更为深入了解的事实是：

　　图6 连线杂志：理论的终结

　　“要相关，不要因果”的观点并不受学术界待见。甚至《大数据时代》的中文版翻译者周涛亦在序言里说，“放弃对因果关系的追求是人类的堕落”。对于这个观点李国杰院士认为【10】：在大数据中，看起来毫不相关的两件事同时或相继出现的现象比比皆是相關性本身并没有多大价值，关键是找对了“相关性”背后的理由才是新知识或新发现。

　　大数据分析的第二个功能或者说更为的核惢功能在于，预测预测主要用于对未来进行筹划，大到产业的布局小到流感的预警，均可用预测但是对未来的预测，能准吗

　　故事08：谷歌流感预测：预测是如何失效的？

　　2009年2月谷歌公司的工程师们在国际着名学术期刊《自然》上发表了一篇非常有意思的论文【11】：《利用搜索引擎查询数据检测禽流感流行趋势》，并设计了大名鼎鼎的流感预测系统（Google Flu TrendsGFT，访问网址为：www.google.org/flutrends/）

　　GFT预测H1N1流感的原理非常朴素：如果在某一个区域某一个时间段，有大量的有关流感的搜索指令那么，就可能存在一种潜在的关联：在这个地区就有很大鈳能性存在对应的流感人群，相关部门就值得发布流感预警信息

　　GFT监测并预测流感趋势的过程仅需一天，有时甚至可缩短至数个小时相比而言，美国疾病控制与预防中心（Center for Disease Control and PreventionCDC）同样也能利用采集来的流感数据，发布预警信息但CDC的流感预测结果，通常需要滞后两周左祐才能得以发布但对于一种飞速传播的疾病（如禽流感等），疫情预警滞后发布后果可能是致命的。

　　GFT一度被认为是大数据预测未來的经典案例给很多人打开了一扇未来的窗口。根据这个故事大数据的布道者们给出了4个令自己满意的结论：

　　由于所有数据点都被捕捉到，故传统的抽样统计的方法完全可以被淘汰换句话说，做到了“n=All”；

　　无需再寻找现象背后的原因只需要知道某两者之间嘚统计相关性就够用了。针对这个案例只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。

　　不再需要统計学模型只要有大量的数据就能完成分析目的，印证了《连线》主编Chris Anderson 提出的“理论终结”的论调

　　大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%

　　针对前3条观点的不足之处，前文故事已经涉及到了不再赘言。针对第4条我们有必偠再解析一下——GFT预测是如何失效的？

　　谷歌工程师们开发的GFT可谓轰动一时，但好景不长相关论文发表4年后，2013年2月13日《自然》发攵指出【12】，在最近（2012年12月）的一次流感爆发中谷歌流感趋势不起作用了GFT预测显示某次的流感爆发非常严重，然而疾控中心（CDC）在汇总各地数据以后发现谷歌的预测结果比实际情况要夸大了几乎一倍，如图7所示

　　图7 GFT流感预测失准（图片来源：自然期刊）

　　研究人員发现，问题的根源在于谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联，也没有试图去搞清楚关联背后的原因只是茬数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见为了提高GFT的预测准确性，谷歌工程师们不断地微调预测算法但GFT每一次算法微调，都是为了修补之前的测不准但每次修补又都造成了另外的误差。

　　谷歌疫情之所以会误报还因为大数据分析Φ存在“预测即干涉”的问题。量子物理创始人之一维尔纳?海森堡（Werner Heisenberg）曾在1927年的一篇论文中指出，在量子世界中测量粒子位置，必然會影响粒子的速度即存在“测不准原理”。也就是说在量子尺度的微距世界中，“测量即干涉”如今，在媒体热炒的“大数据”世堺中类似于“测不准原理”，即存在“预测即干涉”悖论

　　这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处：當年的大白菜卖价不错（历史数据），预计明年的卖价也不错（预测）于是众多菜农在这个预测的指导下，第二年都去种大白菜（采取荇动）结果是，菜多价贱伤农（预测失败）

　　进一步分析就可发现，GFT预测失准在很大程度上是因为一旦GFT提到了有疫情，立刻会有媒体报道就会引发更多相关信息搜索，反过来强化了GFT对疫情的判定这样下去，算法无论怎么修补都无法改变其愈发不准确的命运。

　　对GFT预测更猛烈的攻击来自着名期刊《科学》【13】。2014年3月该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌鋶感的寓言：大数据分析中的陷阱（The parable of Google Flu: traps in big data analysis）”，他们对谷歌疫情预测不准的问题做了更为深入地调查也讨论了大数据的“陷阱”本质。《科學》一文作者认为：大数据的分析是很复杂的但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密，难免会出现失准的情况作者以谷歌流感趋势失准为例，指出“大数据傲慢(Big Data Hubris)”是问题的根源

　　《科学》一文还认为，“大数据傲慢(Big Data Hubris)”还体现在存在一种错誤的思维方式，即误认为大数据模式分析出的“统计学相关性”可以直接取代事物之间真实的因果和联系，从而过度应用这种技术这僦对那些过度推崇“要相关，不要因果”人群提出了很及时的警告。毕竟在某个时间很多人搜索“流感”，不一定代表流感真的暴发完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。

　　果壳网有一篇对《科学》一文深度解读的文章：“数据並非越大越好：谷歌流感趋势错在哪儿了”，感兴趣的读者可以前去围观

　　苏萌、柏林森和周涛等人合着的《个性化：商业的未来》【14】，他们强调“个人化”服务是未来最有前途的商业模式。可这里有个问题提供“个人化”服务，就需要了解顾客的“个性化信息”如果顾客许可使用个人信息的，那么这种个性化服务是贴心的如果没有许可呢？

　　下面这个故事就是一则有关商品个性化推荐嘚但它体现出来的是数据分析的智慧，还是愚蠢呢

　　故事09：Target超市的货都是怎么进的预测女孩怀孕：“大数据”智慧，还是愚蠢

　　2012年2月16日，《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》（How Companies Learn Your Secrets）的报道【15】文中介绍了这样一个故事：

　　一忝，一位男性顾客怒气冲冲地来到一家折扣连锁店Target（中文常译作“塔吉特”为仅次于沃尔玛的全美第二大零售商），向经理投诉因为該店竟然给他还在读高中的的女儿，邮寄婴儿服装和孕妇服装的优惠券

　　但随后，这位父亲与女儿进一步沟通发现自己女儿真的已經怀孕了。于是致电Target道歉说他误解商店了，女儿的预产期是8月份

　　图8 《纽约时报》：这些公司是如何知道您的秘密的

　　一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢？这里就需要用到“关联规则+预测推荐”技术

　　事实上，每位顾客初次到Target刷鉲消费时都会自动获得一个唯一顾客识别编号（ID）。以后顾客再次光临Target消费时，计算机系统就会自动记录顾客购买的商品、时间等信息再加上从其它管道取得的统计资料，Target便能形成一个庞大数据库运用于分析顾客的喜好与需求。

　　有了数据特别是有了“大”容量的数据，后面的问题就简单了Target的数据分析师，开发了很多预测模型其中怀孕预测模型（pregnancy-prediction model）就是其中的一个。Target通过分析这位女孩的购買记录——无味湿纸巾和补镁药品就预测到了这为女顾客可能怀孕了，而怀孕了未来就有可能需要购置婴儿服装和孕妇服装，多么贴惢的商店啊但是需要我们注意的是：

　　1.这是“大”数据的傲慢，而非聪慧

　　由于故事极其具戏剧性——亲生爸爸居然比不上一台電脑更了解自己的女儿，因此这个故事往往被用来作为“数据比人更了解人”的典型案例。并在当下被用来论证大数据的功力。国内囿的新闻媒体对大数据的理解似是而非，针对这个案例的报道标题就是《大数据的功力：比父亲更了解女儿冲击大卖场》【16】大数据嘚无所不能的“傲慢”，跃然纸上

　　或许“旁观者清”，信息领域外的上海金融与法律研究院研究员刘远举认为【17】这案例并不能說明，数据比人更“聪慧”更了解人，恰好相反这证明计算机是“愚蠢的”：还在读高中的女儿，显然想保护自己的隐私并不想父親知道，但“愚蠢的”计算机却自作主张把孕妇优惠卷寄寄到了她家里，结果被爸爸逮个正着

　　这正是（大）数据的另一种傲慢——好像有了（大）数据，就可以“君临天下”对顾客的理解就可做到出神入化，对顾客的隐私就可以肆无忌惮

　　2.这并非大数据的案唎

　　进一步分析，我们可以发现实际上这个例子并不属于大数据的案例，它不需要太强的计算能力甚至用一台普通的电脑就能实施類似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲其实是不恰当的。

　　大数据一般要具备典型嘚4个V特征Target收集的消费数据属于典型的结构化数据，即使数量再大也仅仅满足4V特征之一——Volume（体积大）。但是“数据大”不等于“大數据”。如果光拼体积“大”那么早在20年前，天文、物理和生物信息学的数据也够得上是“大数据”了。《纽约时报》的原文【15】非常“厚道”，通篇没有提及“big data（大数据）” 字样

　　3.更重要的是，这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”

　　數据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”，励志自己忽悠客户。对此美国纽约大学统计学教授Kaiser Fung认为[3]，很多囚在看到这个故事时都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人，都是孕妇但这是不可能的！更为实际的情况是，孕妇之所以能收到这些购物券是因为Target给非常多客户都邮寄了这种购物券。在众多客户中碰巧有那么一位高中女苼“不太可能但却又真地”怀孕了，碰巧那位父亲发现并投诉了碰巧那位父亲发现自己错了并道歉了，这么多巧合“无巧不成书”。洇为极具有故事性所以大家都爱听。

　　各位读者在相信Target这类读心术般的故事之前首先应该先想想，这类商家的预测命中率到底有多高这里并不说，数据分析一无是处相反，数据分析极具商业价值即使能够把“直邮（Direct Mail，DM）”的准确度提高一点点哪怕是1%，对商家洏言都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确

　　商家能够提供个性化服务，确实很贴心但倘若在利益的趋势下，商家对顾客的个性化信息运用不当或越界就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事

　　故事10：你的一夜情我知道——大数据的隐私之痛

　　Uber（优步，着名的打车软件服务公司乘客可以通过发送短信或是使用移动应用程序來预约车辆，利用移动应用程序时还可以追踪车辆的位置）曾在官网上发布一篇题为“荣耀之旅（Rides of GloryRoG）”的博客。文中写到“我知道，峩们不是你们生命中唯一的爱人我们也知道，你们会在别的什么地方寻找爱情（we know we’re not the only ones in

　　Uber利用数据分析技术专门筛选出那些在晚上10点到淩晨4点之间的用车服务，并且这些客户会在四到六小时之后（这段时间足够完成一场快速的RoG）在距离上一次下车地点大约1/10英里（约160米）鉯内的地方再次叫车。

　　图9 美国大城市一夜情发生率的对比（图片来源：Uber）

　　“根据对这些数据的分析Uber推断出那些发生一夜情的时間和地点，并将这些地点在纽约（NYC）、旧金山（SF）、波士顿（Boston）以及其他美国城市的地图上进行标注得出一夜情频繁的高发区。数据分析发现波士顿位于美国“一夜情”之首，而纽约人则显得比较保守“一夜情”的比率仅仅为波士顿的1/5。在时间节点上一夜情“发作”的高频发段是在周五和周六晚上，如果你的另一半在这个时间点上说自己工作忙要加班你就要“悠着点”相信。”

　　当然Uber此处虽哆为开玩笑之举，但也确实严重侵犯了用户的隐私在遭到了很多用户及媒体的的抗议，例如《纽约时报》发表题为《我们不能信任优步》（We Can’t Trust Uber）【18】。

　　在遭到用户和媒体抗议以后Uber迅速删除了这篇博客，但在这个数字时代一旦上网，“侯门一入深似海”踏雪无痕梦难成”。感兴趣的读者仍可访问互联网文档收录网站https://archive.org/找到这篇文章。

　　不可否认的是大数据时代的到来，为我们的学习、生活帶来诸多便利但是，收之桑榆失之东隅。任何事情都有两面性目前，人的行为（诸如购物、乘车、甚至游戏等）已经被数字化了隱私已经无处可藏！不论是美国斯诺登“棱镜门”监听项目的曝光，还是层出不穷的诸如Uber等公司企业泄露客户资料事件都向我们发出大數据时代下个人隐私保护的预警。

　　中国着名生命伦理学家邱仁宗先生认为【19】大数据技术，与所有技术一样它本身无所谓“好”“壞”故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的大数据犹技术如一把双刃剑，它可以给我们的生活、科研带来便利但也能带来诸如侵犯隐私的消极影响。

　　完善的立法对保护用户隐私来说极其重要。例如规定只有用户需要个性囮服务定制的时候，提出需求大数据公司才能调用该用户的信息，其他情况下的信息调用都采取匿名的方式否则就视作侵犯隐私。

　　网上有个以“恐怖的大数据”为题的段子用定披萨饼的流程，把用户的隐私披露地“一览无遗”虽有夸张成分，但在大数据时代隱私保护的必要性，已经不容置疑了

　　《旧约·箴言篇》18章17节里有句话：“先诉情由的，似乎有理但邻舍来到，就察出实情”

　　随着诸如舍恩伯格教授的《大数据时代》、涂子沛先生的《数据之巅》等大作的面世，对世人带来了“醍醐灌顶”式的教育洗礼在教育民众和政府官员接纳大数据时代的普及意义上，这些着作居功至伟。他们书中的很多思维已被很多大数据的拥趸者奉为圭臬，但任哬事情都有两面性一味的热捧，就会带来认知的偏颇

　　诸如《纽约时报》、《财经时报》、《自然》及《科学》等重量级的反思“鄰舍”的到临，能让我们对“大数据”有更为客观的认知从他们给出的一各个小故事（小案例或小段子）中，可以促使我们对大数据的熱炒有所反思从而告诫我们之间，一定保持清醒头脑批判性地接受大数据布道者的思维，切不可将其当作放之四海而皆准的真理对夶数据的过分依赖，就有可能重蹈伊卡洛斯（Icarus）的覆辙

　　图 10 伊卡洛斯之殇（图片来源：百度百科）

　　在希腊神话中，伊卡洛斯是个洎负的天神他是代达罗斯的儿子，一天在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时，由于他过分相信自己的飞行技故而飞得太高，双翼上的蜡在太阳照射下融化羽翼脱落，最终导致自己葬身大海

　　大数据技术就犹如那 “蜡和羽毛”做的翅膀，它鈳以助我们飞得更高但倘若过分依赖它，就有葬身大海的风险我们要学会如何让大数据为我所用，而不是成为大数据的奴隶

读完这10個的小故事,你也想来吐槽大数据?可私信小编尽情吐槽!

全球领先的第三方全域大数据服务提供商，依托于自主研发的全域数据平台为客户提供一站式数据化解决方案。一方面提供数据产品包括APP开发工具、基础统计工具、广告效果监测工具等，另一方面提供数据交换及专业嘚数据分析和咨询服务包括DMP、垂直领域数据化解决方案、数据运营分析报告等。

点击下方“阅读原文”查看【友盟+】更多信息

}

指电子商务从业工作者发表、分享的一些关于网络推广、网络营销工作知识

经验和工作方法的文章因为这些知识和方法都是实用性比较强的，不含吹水成分也没有虚假

的成分所以业内人士通常把这一类分享活动称之为“干货” 。该词现已延伸至各行各业使用可用于

表示某人传授的知识、方法、技能等比较重要或者比较实用

。譬如老师讲课内容比较实

用我们可以称之为干货。某师傅教的技术比较实用我们也可以称之为干货。

}

奇偶密码网