毕友网 > 分享 > 转载 > 行业 > 创业公司应如何搞大数据？

创业公司应如何搞大数据？

2015-09-11 13:47:09王洪涛 13924

　　满天神佛都在谈大数据怎么怎么好，然后并没说该如何搞，本文将在这部分进行粗略讲解……

　　这是一个不说自己搞大数据就不好意思和人打招呼的时代。阿里巴巴用大数据贷款，百度用大数据推广告。那么，没有巨头的天然优势，创业公司具体怎么搞大数据？

　　开搞之前，先明确一下目前大数据主要是用来预判，挖掘用户的需求（也有用过去的大数据判断现在的需求，如大数据种菜判断菜目前的长势情况）。那么，预判的依据是什么？就是所谓样本，例如我通过前几年的平均气温判断今年的温度是高是低。

　　这里还可以分为三种情况：一种是我的大数据软件自带了很多样本可以作为分析依据，一种是我把之前的交易数据作为样本。第二种较先进，要求系统有自我学习建立样本模型的能力，也就是边干边学。第三种最牛，不光能做出预判，还能告诉你下一步怎么做，例如一家卖拖拉机的公司，为用户提供何时在哪里种植何种作物，犁地的最佳路线。

　　首先说一下数据来源问题，可以是平时经营过程中积攒下来的也可以向别的公司购买（像京东那样买腾讯的数据，目前国内贵州大数据交易中心和 DATACOMB 很出名，后面细说），技术关键：积攒数据同时要根据自己的需求为用户和产品贴标签，例如我希望了解和用户年龄段有关的规律，那么年龄就是必须采集的一个标签。积攒数据的方式大致分两类，一类是围绕用户，一类是围绕产品，将两者每次交易的数据都采集下来，可用人力，例如饭店服务员每次交易记录下菜品，性别，满意度之类，这一步又叫企业数据化。

　　然后是数据的初步处理：租服务器，建立自己的数据分析架构，例如日报表月报表这些都 OUT 了，应该明确适合公司的格式，如果需要这些定制需求的报表，目前流行的大数据的解决方案大部分都是以 Hadoop 为基础架构。什么是 Hadoop？简单来说 Hadoop 是一个分布式计算的解决方案，分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据，比一台计算机运行速度快，而且如果数据量大了，或者报表复杂导致运算速度慢，只要再加计算机就解决了。

　　当每台计算机运算完毕后，会把中间结果集中到一台计算机上，再把这些中间结果汇总起来得出最终结果。把手头的数据进行预处理，包括将不同数据库的数据导入到一个数据库中，数据的粗选，分析，分类，会用到 EMC 的 GreenPlum、Oracle 的 Exadata，以及基于 MySQL 的列式存储 Infobright 等，而一些批处理，或者基于半结构化数据的需求可以使用 Hadoop。先别头大，如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦，剔除那些和其他数据差别很大的就行

　　接下来，就是最核心的，数据挖掘。这一步可以挖掘出你意想不到的信息，比如，买啤酒的顾客通常会买尿布，持续买无香精面霜的顾客通常接下来会买母婴用品。这些数据怎么挖？

　　需要用到以下工具：

　　决策树，各种可能性的展示图，主要用来精确分类。例如，树的根部是杂货铺里所有商品，往上走就是第一个分叉，分叉处有一个判断标准-吃的还是用的，于是所有商品被分开为两个树枝，吃的再往上走又出现分叉，于是被分成甜的和咸的…

　　神经网络，例如，计算机预判迎面走来的这个软妹子会买奶茶，因为根据神经网络显示，上次买咖啡，上上次买酸奶的，这次 99.99% 的概率会买奶茶。什么？这货买的啤酒？那计算机就会根据这次的结果修改神经网络。没错，神经网络是具有学习能力的模拟人脑总结教训的分析模式，他会自己得到一个稳定准确的结果。

　　关联规则，例如上文说的买啤酒的一定买尿布。

　　先看一个简单的例子，假如有下面数据集，每一组数据 ti 表示不同的顾客一次在商场购买的商品的集合：

t1: 牛肉、鸡肉、牛奶

t2: 牛肉、奶酪

t3: 奶酪、靴子

t4: 牛肉、鸡肉、奶酪

t5: 牛肉、鸡肉、衣服、奶酪、牛奶

t6: 鸡肉、衣服、牛奶

t7: 鸡肉、牛奶、衣服

　　假如有一条规则：牛肉—>鸡肉，那么同时购买牛肉和鸡肉的顾客比例是3/7，而购买牛肉的顾客过一段时间也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标，它们在关联规则中称作支持度（support）和置信度（confidence）。前者反映了牛肉鸡肉组合的吸引力，后者可用来预判消费行为。好了，现指定你想要的支持度和置信度是多少，然后把牛奶鸡肉，衣服奶酪等各种组合用程序算一遍，找出支持度和置信度满足你要求的组合。

　　其中，假如一条关联规则的支持度和置信度很高时，不代表这个规则之间就一定存在某种关联。举个最简单的例子，假如X和Y是最近的两个比较热门的商品，大家去商场都要买，比如某款手机和某款衣服，都是最新款的，深受大家的喜爱，那么这条关联规则的支持度和置信度都很高，但是它们之间没有必然的联系。所以，搞大数据既要对专业精通又要对你公司的业务精通，这也是现在公司经常碰到的难题，此事古难全啊。

　　除了这些，大数据还经常用到一些数学工具如，线性回归，支持向量机等来帮助进行比对和分类。不要小看这些辅助工具，有时候他们是主力。美国警察用电力公司的数据与培养大麻的 LED 灯用电曲线进行比对，数学工具就是线性回归，只要发现哪家用电曲线和样本相符（相符的程度用方差表示，标准老警自己定），直接踹门抓人一抓一个准。这些数学工具很多都是用来分类的，分类在大数据中是个大事，例如国外有的门户网站首页分类用大数据直接筛选出详细页使用频率较高的词汇作为各个大类的标题。

　　工具列完了，下面数据挖掘正式开幕：

　　大数据对于什么时候用人力什么时候用计算机也能看出来功力，中小公司更应该注意巧妙利用人力，可避免在技术上过多拼财力。比如以上的例子中大家可以看到，相似不相似，是不是关联，这些标准都是人定的。计算机常负责一些同一个算法算大批量数据的活。美国大数据公司的老大 Palantir 就因精于此道而著称。中小公司在这方面也有做的不错的，最近开始流行的图片新闻 APP 网新闻的策略就很值得借鉴：

　　网新闻主要是用关系图，时间轴各种图片展示更丰富信息，一条新闻，用户希望在哪一点上获取更深入的信息是网新闻最想分析的，明确了这个目的又积累了一定用户行为的数据后，网新闻做了如下工作：把一个新闻，举个栗子，如释永信事件，让小编写完这条新闻就分析用户关注这条新闻的点在哪，并且把各种可能性列出来。

　　列出的结果是：

　　用时间轴展示少林寺背后的利益纷争事件，用关系图展示各利益相关方的关系，这两条可以满足求知欲，用户也可以说出去秀知识。

　　说明佛门中的禅宗一派特点就是不避世俗。古代就在寺庙做小买卖。进而拓展到律宗，密宗是怎么回事。

　　传闻释永信嫖娼，有情妇，桃色因素是一个。

　　中国法律目前对寺庙住持是怎么定性的，有哪些法律来约束，触犯了这些法律会受到什么样的惩罚，对事件目前形势未来预判也是一个吸引人的因素…

　　这样列出来后，进行关联性分析，点击量高的新闻，一定是具备因素 2 和因素3？还是因素 1 和因素3？…网新闻用这种方法得出很多有价值的信息，如用户对用图片解释“经理人采购指数”感兴趣还是对展示某经济指标对自己生活的影响更感兴趣，然后用这些数据指导小编摆图写稿。

　　另外，不要觉得分析数据预判用户需求很屌，其实路边卖手抓饼的也经常能猜出你这次要不要放辣椒，就是调用的他脑中的大数据。可以让用户刷打折卡或者是通过 QQ 定外卖时显示他平时的偏好。这个方法需要对数据预处理去掉那些和其他数据偏离较大的数据可获得基本的“用户画像”。另外还可以结合其他因素数据丰富“用户画像”，例如天气炎热或寒冷的情况下用户的喜好，每到周末是不是多买一些等。

　　还有一个很重要的使用人力的节点就是先想好你想了解什么。例如，买啤酒的顾客会买尿布这个例子中，数据挖掘工程师其实提前就想到有必要查看一下啤酒和其他商品的关联，才有了这个发现，而不是计算机自己去找这两者关系。这需要洞察力！福布斯网站发文称“首先制定好策略，然后奔着结果找出答案”，并由此得出“问题比答案重要”的结论。

　　使用大数据的流程就这些了。总结一下哪些地方使用人力：收集什么样的数据需要人来做决定，想好要弄清楚哪些规律需要人来做决定。电脑主要用来存储，以及用数学工具来进行具体计算。哈哈，原来大数据不是巨头们买一个塞满房子的超级计算机把海量数据统统输进去然后“度昂”一下就出来结果了！我们小公司一样可以搞啊！

　　由于“问题比答案重要”，再说一下大数据领域提出的几个有代表性的“问题”。既然除了利用之前积累的数据了解用户偏好向用户推销这次的产品，还可以用大数据让用户方便的消费来提高用户体验：快餐业的视频分析。该公司通过视频分析等候队列的长度，然后自动变化电子菜单显示的内容。如果队列较长，则显示可以快速供给的食物;如果队列较短，则显示那些利润较高但准备时间相对长的食品。这个案例门槛极低，只要人为设定队伍多长算长，做食物的速度多块算快即可，也可以人工标定一下哪些是快食哪些是慢食。

　　不仅可以预判需求予以满足，营销时还可以定点营销。此类打法常常是从别的机构购得数据或者连钱都不花从政府开放的数据中拿，一家领先的专业时装零售商，通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务，如何定位公司的差异化，他们通过从 Twitter 和 Facebook 上收集社交信息，更深入的理解化妆品的营销模式，随后他们认识到必须保留两类有价值的客户：高消费者和高影响者。然后通过免费化妆服务，对这两类消费者进行精准的宣传。这个案例中，需要用到的工具有用于归类的线性回归，聚类分析等。

　　数据的来源问题：由于没有巨头那样的数据积累，中小企业经常想到购买数据，或使用政府公开的免费数据。目前国内掌握大数据的巨头不够开放，形成了让仁人志士头大的“数据堰塞湖”。虽然也有开放数据的，例如中国首个大数据开放平台 DataComb，对于掌握一些数据的公司来说也多了一些数据变现的渠道，然而对疏通“堰塞湖”并没有太大作用。也有好消息，8 月 19 日，国务院常务会议审议通过《关于促进大数据发展的行动纲要》，全面公开应该就在眼前了。在美国最重要的数据开放平台就是奥巴马政府在 2009 年推出的 Data.gov，奥巴马同学对搞大数据一向蛮拼的。

　　另外，创业公司切记，巨头们整天嚷嚷的“大数据不必追求精确，牺牲精确性可以换取效率和更多规律的发现”，可问题是那是在数据量异常大的情况下，对中小企业数据量不太大时务必要精确。

　　总的来说，大数据分析可谓是兵无常势，水无常形，真正厉害的数据挖掘大师是碰到什么样的形势知道用什么样的工具来解决的人。

　　中小企业玩大数据切记：1.不炒概念。2.不烧钱。切实用大数据提升企业竞争力才是王道。

大数据