> >

?

云计算和大数据有什么区别呢？

郝芷巧

展开

云计算和大数据有什么区别呢？关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，分别做一句话直白解释就是：云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。
大数据技术是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。
云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。
云计算相当于我们的计算机和操作系统，将大量的硬件资源虚拟化之后再进行分配使用，在云计算领域目前的老大应该算是Amazon，可以说为云计算提供了商业化的标准，另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系)，开源的云平台较有活力的就是Openstack了。
大数据相当于海量数据的“数据库”，而且通观大数据领域的发展也能看出，当前的大数据处理一直在向着近似于传统数据库体验的方向发展，Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群，把传统而昂贵的并行计算等概念一下就拉到了我们的面前，但是其不适合数据分析人员使用(因为MapReduce开发复杂)，所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目，说到这补充一下，在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献)，为我们带来了类SQL的操作，到这里操作方式像SQL了，但是处理效率很慢，绝对和传统的数据库的处理效率有天壤之别，所以人们又在想怎样在大数据处理上不只是操作方式类SQL，而处理速度也能“类SQL”，Google为我们带来了Dremel/PowerDrill等技术，Cloudera(Hadoop商业化较强的公司，Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。
?

说说什么是数据挖掘

Veronica

展开

何为数据挖掘？
数据挖掘就是指从数据中获取知识。
好吧，这样的定义方式比较抽象，但这也是业界认可度最高的一种解释了。对于如何开发一个大数据环境下完整的数据挖掘项目，业界至今仍没有统一的规范。说白了，大家都听说过大数据、数据挖掘等概念，然而真正能做而且做好的公司并不是很多。
笔者本人曾任职于A公司云计算事业群的数据引擎团队，有幸参与过几个比较大型的数据挖掘项目，因此对于如何实施大数据场景下的数据挖掘工程有一些小小的心得。但由于本系列博文主要是结合传统数据挖掘理论和笔者自身在A云的一些实践经历，因此部分观点会有较强主观性，也欢迎大家来跟我探讨。
数据挖掘背后的哲学思想
在过去很多年，首要原则模型(first-principle models)是科学工程领域最为经典的模型。
比如你要想知道某辆车从启动到速度稳定行驶的距离，那么你会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数；然后运用牛顿第二定律(或者其他物理学公式)建立模型；最后根据该车多次实验的结果列出方程组从而计算出模型的各个参数。通过该过程，你就相当于学习到了一个知识 --- 某辆车从启动到速度稳定行驶的具体模型。此后往该模型输入车的启动参数便可自动计算出该车达到稳定速度前行驶的距离。
然而，在数据挖掘的思想中，知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了100辆型号性能相似的车从启动到速度稳定行驶的距离，那么我就能够对这100个数据求均值，从而得到结果。显然，这一过程是是直接面向数据的，或者说我们是直接从数据开发模型的。
这其实是模拟了人的原始学习过程 --- 比如你要预测一个人跑100米要多久时间，你肯定是根据之前了解的他(研究对象)这样体型的人跑100米用的多少时间做一个估计，而不会使用牛顿定律来算。
数据挖掘的起源
由于数据挖掘理论涉及到的面很广，它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动，常常建立一个能够产生数据的模型；而机器学习则以算法为驱动，让计算机通过执行算法来发现知识。仔细想想，"学习"本身就有算法的意思在里面嘛。
然而数据挖掘除了建模外，还有不少其他要做的工作(本文后面会一一讲到)，因此涉及到不少其他知识，如下图所示：
数据挖掘的基本任务
数据挖掘的两大基本目标是预测和描述数据。其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning)，后者的则通常被称为无监督学习(supervised learning)。往更细分，数据挖掘的目标可以划分为以下这些：
预测主要包括分类 - 将样本划分到几个预定义类之一，回归 - 将样本映射到一个真实值预测变量上；描述主要包括聚类 - 将样本划分为不同类(无预定义类)，关联规则发现 - 发现数据集中不同特征的相关性。本系列其他文章将会分别对这些工作深入进行讲解，如果读者是第一次接触这些概念请不要纠结。
数据挖掘的基本流程
从形式上来说，数据挖掘的开发流程是迭代式的。开发人员通过如下几个阶段对数据进行迭代式处理：
其中，
1. 解读需求
绝大多数的数据挖掘工程都是针对具体领域的，因此数据挖掘工作人员不应该沉浸在自己的世界里YY算法模型，而应该多和具体领域的专家交流合作以正确的解读出项目需求。这种合作应当贯穿整个项目生命周期。
2. 搜集数据
在大型公司，数据搜集大都是从其他业务系统数据库提取。很多时候我们是对数据进行抽样，在这种情况下必须理解数据的抽样过程是如何影响取样分布，以确保评估模型环节中用于训练(train)和检验(test)模型的数据来自同一个分布。
3. 预处理数据
预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等；而后者主要包含维度归约、值归约、以及案例归约。后面两篇博文将分别讲解数据准备和数据归约。
4. 评估模型
确切来说，这一步就是在不同的模型之间做出选择，找到最优模型。很多人认为这一步是数据挖掘的全部，但显然这是以偏概全的，甚至绝大多数情况下这一步耗费的时间和精力在整个流程里是最少的。
5. 解释模型
数据挖掘模型在大多数情况下是用来辅助决策的，人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。
数据挖掘的工程架构
回到本文开头提到的那个问题，“如何开发一个大数据环境下完整的数据挖掘项目？”。这个问题每个公司有自己的答案，这里仅以A公司的情况进行介绍。
在A公司的数据引擎团队中，主要人员分成A、B、C、D四个大组。这四个大组的分工非常明确，如下图所示：
图中的这些个数据引擎架构在一个基于维度建模的云数据仓库之上，并对上层应用提供算法支撑、推荐支撑、可视化支撑等等。这里也能看出A公司的数据挖掘工程架构主要由三大块组成：底层数据仓库、中间数据引擎、高层可视化/前端输出。
至于这些引擎的具体作用、开发方法，体系结构等则由于涉及公司秘密不能深入细说，请各位读者见谅。
小结
数据挖掘涵盖的面非常大，本文仅旨在让读者对数据挖掘有一个感性的认识。关于什么是数据挖掘如果读者还不清楚的话也不要纠结，跟着本系列一起学习一定能有所收获并会最终发现：数据挖掘是一门非常有趣的学问，比单纯的写代码要有意思多了。
?

数据挖掘九律，看完不后悔

朱半邪

展开

一位挖掘专家 tom khabaza 提出了挖掘九律，挺好的东西，特别是九这个数字，深得中华文化精髓，有点独孤九剑的意思：
第一，目标律。
数据挖掘是一个业务过程，必须得有业务目标。无目的，无过程。
第二，知识律。
业务知识贯穿在挖掘这个业务过程的各环节。
第三，准备律。
数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。
第四，NFL律。
NFL，没有免费的午餐。没有一个固定的算法适用所有的业务问题，特定应用适合的模型只能通过经验发现。
第五，大卫律。
要相信，数中必有业务规律。大卫·沃尔金斯最早提出的，故此名。
第六，洞察律。
数据挖掘本质上是增强对业务领域的认知。
第七，预测律。
数据挖掘基于过去得出模式，并泛化到类似新事物上，这就是预测，但这是统计概念的。
第八，价值律。
挖掘模型的最终价值并非模型精度或稳定性，而是驱动业务行动或通过新洞察导致策略改善。
第九，变化律。
人不会两次踏入同一条河流。业务在变，目标在变，认识也在变，甚至规律本身也在变，挖掘模型也得与时俱进。
很好, 挖掘者习此九律，必将功力大增，杀敌于无形之中，乃升迁加薪必备胸器。咱可以设想一些场景，看看这九律是怎么灵活运用的。运用这九律的心法是，敌不动我不动，见招拆招，以无招胜有照。
故事开始……..：
S，挖掘新手，M 为其导师，挖掘高手。一日，S接到任务，走一趟挖掘。过了段时间，他找到 M，M 正在闭目打坐。发生一场对话。
S：师傅，徒儿接到任务，已经开始干了，不出一个月就可大功告成。
M：嗯，不错，什么进展了？
S：我已经安排下去，现在数据准备已经完成，并且建了一个小模。哎呀，您是不知道啊，那个数据太烂，一堆问题，到处是空值，很多信息也是假的，balabala….
M：先别说你的数据，数据准备干了多长时间了？
S：干了一个多月，还蛮符合准备率的吧！
M：这个任务到底要干什么？
S：嗨，就是要找出想搞破坏的人，放心，第一律我牢记于胸。现在还有两个人帮我一起做，一个准备数据，一个建模。
M：那你干什么？
S：我搞业务理解啊，并且运用知识律，搞了一个挖掘过程模板，我们三个就用这个模板进行过程交互，挺好的，什么时候给您瞅瞅。
M：嗯，听起来不错，那你今天来此打扰我清修作甚？
S：您是不知道啊。不是跟你说了，我们还建了一个小模嘛。唉，效果不太好。用分类预测训练了数据，但那个数据实在太差了，感觉那个模型一点都不靠谱，没反应出来什么规律。我们用那个结论在我们三个身上试了一下，结果大家都觉得不对，我们都成了想搞破坏的人，一点都不符合实际情况。
M：你忘了大卫律了？要相信。还有预测律，你这个模型在你们三个身上试验，能证明什么？
S：是啊，我没忘啊。不过要找到规律还需要时间啊。我们要计划在找更多的样本去验证。不过…今天来…确实是无事不登三宝殿…有个事儿…
M：啥事？
S：您前年不是搞了一个犯罪预测嘛，现在很多地方都在用，我想跟这次任务的目标类似，我想能不能就直接把您的模型拉过来训练一下就行了…您那个模型实在是太绝了…
M：哈哈，看来你想偷懒啊，但你怎么能够知道这个模型适用你的任务呢？
S：您的模型我还担心什么啊。主要是这次任务时间紧，我也没办法，先解决了问题吧，能精确定位目标人群就行了，您的模型，肯定很准的。
M：虽然你拍我马屁，但我还是对你很失望啊。挖掘的本质是什么？
S：呃…洞察…我也知道天下没有免费的午餐…但时间太紧，任务太重啊，没您不行啊，您的模型就是我们的法宝啊。
M：唉，不说那是两年前的模型，现在你遇到的情况跟我遇到的情况不一样，现在的犯罪手段也变了各种花样，变化率怎么说的？再说，你为什么如此看重模型的精度，那并非挖掘的终极价值啊！醒悟吧！我代表客户鄙视你！
S：老家伙，你到底是给还是不给？你是想看着我死吗？
M：（仰天长叹）唉，师徒一场，罢了罢了，拿去吧。但你此一去，我们师徒恩断义绝，以后再也不要来见我，再也不要叫我师傅，也不要再别人面前妄称我是你的师傅。走吧，走吧…
End.
?

读懂大数据、云计算、人工智能，跟上趋势创新发展

皮老九

展开

一、大数据
1、大数据的概念
大数据(big data,mega data)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。
2、大数据的4大特点
（1）数据体量巨大。从TB级别，跃升到PB级别。
（2）数据类型繁多，如网络日志、视频、图片、地理位置信息，等等。
（3）价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。
（4）处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。
3、大数据的价值体现
（1）对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
（2）做小而美模式的中长尾企业可以利用大数据做服务转型。
（3）面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
4、发展趋势
在大数据时代，人脑信息转换为电脑信息成为可能。科学家们通过各种途径模拟人脑，试图解密人脑活动，最终用电脑代替人脑发出指令。正如今天人们可以从电脑上下载所需的知识和技能一样，将来也可以实现人脑中的信息直接转换为电脑中的图片和文字，用电脑施展读心术。2011年，美国军方启动了“读心头盔”计划，凭借读心头盔，士兵无需语言和手势就可以互相“阅读”彼此的脑部活动，在战场上依靠“心灵感应”，用意念与战友互通讯息。目前，“读心头盔”已经能正确“解读”45%的命令。随着这项“读心术”的发展，人们不仅可以用意念写微博、打电话，甚至连梦中所见都可以转化为电脑图像。据美国《纽约时报》报道，美国科学家将绘制完整的人脑活动地图，全面解开人类大脑如何思考、如何储存和检索记忆等思维密码作为美国科技发展的重点，美国科学家已经成功绘出鼠脑的三维图谱。2012年，美国IBM计算机专家用运算速度最快的96台计算机，制造了世界上第一个“人造大脑”，电脑精确模拟大脑不再是痴人说梦。试想一下，如果人类大脑实现了数据模拟，或许你的下一个BOSS是机器人也不一定。
总而言之，大数据技术的发展有可能解开宇宙起源的奥秘。因为，计算机技术将一切信息无论是有与无、正与负，都归结为0与1，原来一切存在都在于数的排列组合，在于大数据。
大数据时代已经来临，它将在众多领域掀起变革的巨浪。但我们要冷静的看到，大数据的核心在于为客户挖掘数据中蕴藏的价值，而不是软硬件的堆砌。因此，针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信，在国家的统筹规划与支持下，通过各地方政府因地制宜制定大数据产业发展策略，通过国内外IT龙头企业以及众多创新企业的积极参与，大数据产业未来发展前景十分广阔。
二、云计算
1、云计算概念
云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络，服务器，存储，应用软件，服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。
2、云计算特点
(1) 超大规模
“云”具有相当的规模，Google云计算已经拥有100多万台服务器， Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(2) 虚拟化
云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”，而不是固定的有形的实体。应用在“云”中某处运行，但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机，就可以通过网络服务来实现我们需要的一切，甚至包括超级计算这样的任务。
(3) 高可靠性
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性，使用云计算比使用本地计算机可靠。
(4) 通用性
云计算不针对特定的应用，在“云”的支撑下可以构造出千变万化的应用，同一个“云”可以同时支撑不同的应用运行。
(5) 高可扩展性
“云”的规模可以动态伸缩，满足应用和用户规模增长的需要。
(6) 按需服务
“云”是一个庞大的资源池，你按需购买；云可以像自来水，电，煤气那样计费。
(7) 极其廉价
由于“云”的特殊容错措施可以采用极其廉价的节点来构成云，“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本，“云”的通用性使资源的利用率较之传统系统大幅提升，因此用户可以充分享受“云”的低成本优势，经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算可以彻底改变人们未来的生活，但同时也要重视环境问题，这样才能真正为人类进步做贡献,而不是简单的技术提升。
(8) 潜在的危险性
云计算服务除了提供计算服务外，还必然提供了存储服务。但是云计算服务当前垄断在私人机构（企业）手中，而他们仅仅能够提供商业信用。对于政府机构、商业机构（特别像银行这样持有敏感数据的商业机构）对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务，无论其技术优势有多强，都不可避免地让这些私人机构以“数据（信息）”的重要性挟制整个社会。对于信息社会而言，“信息”是至关重要的。另一方面，云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的，但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险，是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时，不得不考虑的一个重要的前提。
3、应用市场
云物联
“物联网就是物物相连的互联网”。这有两层意思：第一，物联网的核心和基础仍然是互联网，是在互联网基础上的延伸和扩展的网络；第二，其用户端延伸和扩展到了任何物品与物品之间，进行信息交换和通信。
物联网的两种业务模式：
（1）MAI（M2M Application Integration), 内部MaaS；
（2）MaaS（M2M As A Service), MMO, Multi-Tenants(多租户模型）。
随着物联网业务量的增加，对数据存储和计算量的需求将带来对“云计算”能力的要求：
（1）云计算：从计算中心到数据中心在物联网的初级阶段，PoP即可满足需求；
（2）在物联网高级阶段，可能出现MVNO/MMO营运商（国外已存在多年），需要虚拟化云计算技术，SOA等技术的结合实现互联网的泛在服务：TaaS （everyTHING As A Service)。
云安全
云安全(Cloud Security)是一个从“云计算”演变而来的新名词。云安全的策略构想是：使用者越多，每个使用者就越安全，因为如此庞大的用户群，足以覆盖互联网的每个角落，只要某个网站被挂马或某个新木马病毒出现，就会立刻被截获。
“云安全”通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，推送到Server端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。
云存储
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念，是指通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时，云计算系统中就需要配置大量的存储设备，那么云计算系统就转变成为一个云存储系统，所以云存储是一个以数据存储和管理为核心的云计算系统。
云游戏
云游戏是以云计算为基础的游戏方式，在云游戏的运行模式下，所有游戏都在服务器端运行，并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端，用户的游戏设备不需要任何高端处理器和显卡，只需要基本的视频解压能力就可以了。就现今来说，云游戏还并没有成为家用机和掌机界的联网模式，因为至今X360仍然在使用LIVE，PS是PS NETWORK ，wii是wi-fi。但是几年后或十几年后，云计算取代这些东西成为其网络发展的终极方向的可能性非常大。如果这种构想能够成为现实，那么主机厂商将变成网络运营商，他们不需要不断投入巨额的新主机研发费用，而只需要拿这笔钱中的很小一部分去升级自己的服务器就行了，但是达到的效果却是相差无几的。对于用户来说，他们可以省下购买主机的开支，但是得到的确是顶尖的游戏画面（当然对于视频输出方面的硬件必须过硬。）。你可以想象一台掌机和一台家用机拥有同样的画面，家用机和我们今天用的机顶盒一样简单，甚至家用机可以取代电视的机顶盒而成为次时代的电视收看方式。
移动云服务
未来一定是移动，这样或那样的方式。作为移动设备的数量上升显著的——平板电脑、iphone和智能手机是在移动中发挥了更多的作用。许多这样的设备被用来规模业务流程、通信等功能。让云计算应用在所有的员工采取“移动”的方法。更多的云计算平台和api将成为可以是移动云服务。
三、人工智能
1、人工智能的概念
人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科，其范围已远远超出了计算机科学的范畴，人工智能与思维科学的关系是实践和理论的关系，人工智能是处于思维科学的技术应用层次，是它的一个应用分支。从思维观点看，人工智能不仅限于逻辑思维，要考虑形象思维、灵感思维才能促进人工智能的突破性的发展，数学常被认为是多种学科的基础科学，数学也进入语言、思维领域，人工智能学科也必须借用数学工具，数学不仅在标准逻辑、模糊数学等范围发挥作用，数学进入人工智能学科，它们将互相促进而更快地发展。
2、人工智能的特点
（1）智能终端和传感器将无处不在，基于大数据的自我学习能力会让智能终端越来越聪明
我们正在进入一个万物智能的时代，智能终端从今天非常有限的种类——个人电脑、手机、智能电视，将扩展到我们身边的所有设备。无论是生活中的空调、加湿器、空气净化器、摄像头，还是路上的汽车、工厂里的机床等等，都将具备计算、存储、网络连接的模块，辅之以温度、湿度、距离、红外、颜色、空气质量等等各种传感器。各种各样的智能终端不断地感知周围环境，在云端汇聚成几何级增长的海量数据，并通过算法的不断演进，在云上形成新的认知。我们都知道，知识的积累可以让人类变得更有能力，对于人工智能的发展，也是一样。通过“深度学习”，各种智能终端将变得越来越聪明，越来越有判断能力。
（2）人与智能终端的交互方式将更加自然，设备会越来越“懂你”
智能终端从PC到手机，人机交互方式从键盘+鼠标、触摸，到未来智能互联网时代，随着计算机图像视觉、语音识别和自然语言处理方面的进步，人机交互的形态将被重新改写，设备不再是冷冰冰的，而是可以听（Listening）、看（Seeing）、说（Talking）、写，是一个越来越知心，越来越懂你（Understanding）的小伙伴。
（3）在人工智能+互联网的驱动下，各行各业将越来越“服务化”。不管硬件厂商、还是服务厂商都在整合设备、云和服务，开展集成式的服务创新
在智能互联网时代，客户选择一款产品，不仅是看产品本身，更是看产品所连接的服务，没有内容和服务的话，设备就是苍白的...
?

从AliOS到阿里云，上汽拥抱仿真计算云，效率提升25%

安波

展开

阿里云和上汽集团宣布的合作项目又一次吸引了众人的眼球！他们将联手推出上汽仿真计算云SSCC（SAIC Simulation Computing Cloud），这也是业内首个混合云汽车研发仿真计算服务平台！众所周知，仿真测试是汽车研发的重中之重，无论是汽车安全还是汽车性能，都需要经过层层仿真测试；而只有足够强大的数字化平台，才有能力为其提供千变万化的测试场景，测试所有的可能性。
阿里云表示，这项高性能计算产品可以通过赋能汽车研发的核心仿真领域，提升汽车研发效率，以云计算的手段加强研发流程的互联性、自动化、智能化。以后，可以用于更多的中国制造业企业。通过云计算共享工业仿真服务，实现精密制造设计，加快产品创新和上市速度，降低硬件使用和软件许可证成本，除了这次在「云」上的合作，上汽与阿里集团也有「端」上的合作。
云计算带来的颠覆性变化在人才的流动上也有鲜明体现。LinkedIn作为全球最大的招聘平台，在去年发布了一个新的对全球二十五个行业的排名，云计算排第一。李津表示从来没有一个行业是在LinkedIn上一露面就成为第一名的，而云计算做到了。他认为从原来基于传统数据挖掘转型到今天基于云计算平台的应用部署和基于计算的数据价值再造，已经开始了，从AliOS到阿里云，上汽拥抱仿真计算云，效率提升25%
从小Ai升级到ET也体现了阿里云对人工智能未来的判断，我们并不是要培养一个只是单纯模仿人的人工智能，而是在某些方面超越人，和人的能力形成互补，在商业社会发挥作用”。阿里云首席科学家周靖人，这为造型酷似马云的ET，代表的是阿里云的人工智能技术，同时也是阿里云对未来的态度。随着云计算的深入，它更多的成为基础设施，而奔跑在云端的数据，有超过95%并没有被发掘和利用。人工智能正是伴随着大数据诞生的应用，阿里云完全可以通过自身对云计算技术的运用，对大数据的布局和理解，实现一个人工智能的未来。这就是阿里云变脸之后，从云到计算所追求的价值升级。
?

大数据、Hadoop和云计算

郁血茗

展开

先介绍与大数据相关的内容，然后讲解Hadoop、大数据以及云计算之间的关系，使读者从大数据和云计算的角度来认识Hadoop.
大数据
大数据一般是指这样的数据：数据量巨大，需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、髙增长率和多样化的信息资产。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用，大数据工程和大数据科学尚未被重视。大数据工程指大数据的规划建设及其运营管理的系统工程；大数据科学关注的是大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
大数据的特征有四个层面：第一，数据量巨大，从TB级别，跃升到PB级别；第二，数据类型繁多，包括网络日志、视频、图片、地理位置信息等；第三，价值密度低，商业价值高，以视频为例，在连续不间断的监控过程中，可能有用的数据仅仅只有一两秒；第四，处理速度快。最后这一点也和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4V-------Volume、Variety、Value 和 Velocity。
上面我们介绍了大数据的基本概念以及其显著的特征，下面将从不同的维度来阐述大数据的核心问题。
1.数据态的多样性问题
大数据具有多态性，主要体现在数据源、结构及相关度上，在数据来源上包括图像、视频、音频、文本、网页、数据流等；在结构上不仅仅包括结构化的数据，还包括非结构化的数据；在相关度上不仅有数据记录彼此间相关性问题，还有时间序列数据的相关性问题。
2. 维度复杂性问题
首先，大数据中存在着多元空间的维度问题，例如典型的三元空间中大数据的产生、状态感应以及采集问题，这个问题在物联网中非常常见；其次，就是柔性粒度数据的传输、移动、存储及计算问题；最后，就是数据空间范围和数据密度的不均匀问题。
3. 大数据存储问题
大数据最为显著的特征就是数据规模非常巨大，单机系统肯定无法解决存储问题，这就需要分布式存储系统作为大数据的存储支撑服务，而分布式存储系统需要考虑的核心问题包括：高可靠性、扩展性、伸缩性、容灾及恢复等问题。
4. 大数据计算分析问题
由大数据的特征可知，大数据在数据规模上非常巨大，要在一定的时间内达到撷取、管理、处理并整理为能够帮助企业做出经营决策更有效的资讯，传统的顺序计算模式必然不能满足这样的需求，这就要求使用集群计算系统来完成计算分析任务。基于集群的计算模型目前主要包括：基于消息传递的MPI、MapReduce计算模型、流式计算架构Storm、S4、高性能集群计算HPCC,以及基于共享内存RDD的Spark模型。
5. 大数据价值挖掘问题
由于大数据的价值密度低而商业价值大，这使得大数据的价值挖掘显得格外重要，而价值挖掘主要包括两个阶段：第一个阶段就是过滤清洗，需要在尽量不损失其价值的条件下减小数据规模，同时在不改变数据基本属性的情况下采取数据清洗、抽样、去重、过滤、筛选、压缩、索引、提取元数据等方法，以直接将大数据变小；第二个阶段就是对商业价值的挖掘，主要是发挥大数据探索式考察与可视化作用，人机的交互分析可以将人的智慧融入数据，再者是通过群体智慧、社会计算、认知计算对数据价值进行提炼，从而挖掘出大数据中隐藏的商业价值。
大数据、Hadoop和云计算的关系
上面讲述了大数据的基本概念及与大数据相关的几个核心问题，通过这些问题我们已对大数据有了一个初步的了解，那么大数据、Hadoop及云计算之间到底是什么关系呢？为了从大数据和云计算的角度去了解Hadoop,下面将阐述这三个概念之间的关系。
可以这样说，正是由于大数据对系统提出了很多极限的要求，不论是存储、传输还是计算，现有计算技术难以满足大数据的需求，因此整个IT架构的革命性重构势在必行，存储能力的增长远远赶不上数据的增长，设计最合理的分层存储架构已成为信息系统的关键。分布式存储架构不仅需要scale up式的可扩展性，也需要scale out式的可扩展性，因此大数据处理离不开云计算技术，云计算可为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式，大数据则为云计算提供了新的商业价值，大数据技术与云计算技术必将有更完美的结合。
我们知道云计算的关键技术包括分布式并行计算、分布式存储以及分布式数据管理技术，而Hadoop就是一个实现了 Google云计算系统的开源平台，包括并行计算模型 MapReduce、分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper、Pig、Chukwa、Hive、Hbase、Mahout等，这些项目都使得 Hadoop成为一个很大很完备的生态链系统。目前使用Hadoop技术实现的云计算平台包括 IBM的蓝云，雅虎、英特尔的“云计划”，百度的云计算基础架构，阿里巴巴云计算平台，以及中国移动的BigCloud大云平台。
总而言之，用一句话概括就是云计算因大数据问题而生，大数据驱动了云计算的发展，而Hadoop在大数据和云计算之间建起了一座坚实可靠的桥梁。
?

智子云CEO朱建秋博士：数据挖掘构建大数据和应用之间的桥梁

痰盂

展开

什么是大数据?有研究报告将大数据定义为，由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享、交叉复用形成的智力资源和知识服务能力。
大数据涵盖数据从产生到最终被分析利用的各个环节，其中所涉及的相关技术都可以被称为大数据技术，而对数据施加影响的各方则共同构成了大数据产业链。大数据技术的意义在于对这些有意义的数据进行专业化处理，从海量数据中发掘出真正的价值。
据IDC发布的关于中国大数据技术和服务市场的首份报告《中国大数据技术与服务市场2012~2016年预测与分析》显示，该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元，未来5年的复合增长率达51.4%，市场规模增长近7倍。
当前，大数据在政府决策、交通、物流、金融、广告、电信、医疗和农业等领域的应用蓬勃发展。
作为大数据在互联网广告行业的应用实例，近期，智子云获得汉理资本宣布数千万人民币规模的投资，反映了资本市场对大数据应用领域的认可以及企业客户市场对营销技术服务的需求。除此之外，智子云在推出DSP技术输出、平台定制策略后，业务进展也是比较理想的，提出了“让每一家广告公司拥有自己的DSP”的口号，致力于为传统广告公司拓展新媒体营销提供技术驱动引擎，将复杂的技术和大数据处理能力平民化，普及化，让技术服务于业务。
对此，智子云CEO朱建秋博士表示：“大数据因为数据量巨大，并且持续不断，直接对大数据本身进行实时利用是很困难的。数据挖掘的作用是用算法将大数据变小，变得能实时利用。所谓的变小，就是从大数据中分析得出一些规律，专业的说法叫模型或者规则，再对模型或规则进行利用。举例来说，“买APPLE笔记本的人70%会买鼠标”是一条规则，那么对于买了APPLE笔记本还没买鼠标的人，就可以投放“鼠标”这个商品。这种智能的RTB广告效率就比其他形式的广告要高不少。从这个角度来说，在大数据和应用之间，数据挖掘是一个桥梁，通过数据挖掘能够获得关联规则、时间序列、预言模型、聚类、异常模式等等有价值的规律或者知识。当然，数据挖掘算法并不是一开始就能处理大数据，目前一些算法能够处理，也得益于分布架构和计算技术的进步，传统的数据挖掘要在MapReduce和云计算上跑通，并能增量更新模型，才能处理持续不断到达的大数据。”
?

一文搞懂物联网，云计算，大数据，人工智能之间的关系

夏香旋

展开

如果您对传统企业互联网转型、大数据、智能制造、企业管理等内容的资料、PPT等感兴趣，欢迎关注兮易强企阅闻微信
来源／唐老鸭看科技
物联网，云计算，大数据，人工智能是近两年科技、产业界的热门话题。分别什么意思？之间又有什么关系呢？笔者也非常感兴趣，经过学习了解，查阅资料，一点浅显认识和总结与朋友们分享。
物联网IoT（Internet of Things）
物联网是互联网的应用拓展，与其说物联网是网络，不如说物联网是业务和应用。因此，应用创新是物联网发展的核心，以用户体验为核心的创新是物联网发展的灵魂。
以下图为例，物联网大致分为以下几个层级：感知层，网络层，应用层。
感知层相当于人的感官和神经末梢，用来感知和采集应用环境中的各种数据。包括温度、湿度、速度、位置、震动、压力、流量、气体等各种各样的传感器。灵敏度和精度高，功耗低，可以无线传输是对传感层的要求。
网络层相当于人的神经系统，用来传输数据。包括各种各样的无线通讯技术和标准，比如Zigbee/BLE/Wifi/NFC/RFID /LTE等。低功耗，广域覆盖，更多连接是无线网络的发展方向。目前新的通讯技术和标准NB-IoT,LoRa,eLTE-IoT都是往这个方向努力。未来的5G会取代目前很多的无线通讯技术，一统江湖。
应用层相当于人的大脑指示和反应，通过指令反向控制输出。如设备管理，环境监测，工业控制等。
云计算（Cloud）
云计算相当于人的大脑，是物联网的神经中枢。云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
目前很多物联网的服务器部署在云端，通过云计算提供应用层的各项服务。云计算可以认为包括以下几个层次的服务：基础设施即服务（IaaS），平台即服务（PaaS）和软件即服务（SaaS）。
云计算IaaS：基础设施即服务
IaaS(Infrastructure-as-a-Service)：基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。例如：硬件服务器租用。
云计算PaaS：平台即服务
PaaS(Platform-as-a-Service)：平台即服务。PaaS实际上是指将软件研发的平台作为一种服务，以SaaS的模式提交给用户。因此，PaaS也是SaaS模式的一种应用。但是，PaaS的出现可以加快SaaS的发展，尤其是加快SaaS应用的开发速度。例如：软件的个性化定制开发。
云计算SaaS：软件即服务
SaaS(Software-as-a-Service)：软件即服务。它是一种通过Internet提供软件的模式，用户无需购买软件，而是向提供商租用基于Web的软件，来管理企业经营活动。
亚马逊是最早意识到服务价值的公司，它把服务于公司内部的基础设施，平台，技术，成熟后推向市场，为社会提供各项服务，也因此成为全球云计算市场的领头羊。
大数据（Big Data）
麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”.
从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
人工智能AI（Artificial Intelligence）
人工智能离不开大数据，更是基于云计算平台完成深度学习进化。
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
简单总结：通过物联网产生、收集海量的数据存储于云平台，再通过大数据分析，甚至更高形式的人工智能为人类的生产活动，生活所需提供更好的服务。这必将是第四次工业革命进化的方向。
?

带你读懂互联网+与云计算，大数据、物联网的关系

巫晓霜

展开

俺黑君够黑，慎关注！
物联网，云计算，大数据，人工智能是近两年科技、产业界的热门话题。分别什么意思?彼此之间又有什么关系呢?
一
物联网
1、什么是物联网?
物联网在之前被定义为通过射频识别(RFID)、红外线感应器、全球定位系统、激光扫描器、气体感应器等信息传感设备按约定的协议把任何物品与互联网连接起来进行信息交换，以实现智能化识别、定位、跟踪、监控和管理的一种网络，简言之物联网就是“物物相连的互联网”。
后来被重新定义为当下几乎所有技术与计算机、互联网技术的结合，实现物体与物体之间：环境以及状态信息实时的实时共享以及智能化的收集、传递、处理、执行。广义上说，当下涉及的信息技术的应用，都可以纳入物联网的范畴。
2、物联网的关键技术
嵌入式系统技术：是综合了计算机软硬件、传感器技术、集成电路技术、电子应用技术为一体的复杂技术。经过几十年的演变，以嵌入式系统为特征的智能终端产品随处可见;小到人们身边的MP3，大到航天航空的卫星系统。嵌入式系统正在改变着人们的生活，推动着工业生产以及国防工业的发展。如果把物联网用人体做一个简单比喻，传感器相当于人的眼睛、鼻子、皮肤等感官，网络就是神经系统用来传递信息，嵌入式系统则是人的大脑，在接收到信息后要进行分类处理。这个例子很形象的描述了传感器、嵌入式系统在物联网中的位置与作用。
传感器技术：这也是计算机应用中的关键技术。大家都知道，到目前为止绝大部分计算机处理的都是数字信号。自从有计算机以来就需要传感器把模拟信号转换成数字信号计算机才能处理。
RFID标签：也是一种传感器技术，RFID技术是融合了无线射频技术和嵌入式技术为一体的综合技术，RFID在自动识别、物品物流管理有着广阔的应用前景。
二
云计算
1、什么是云计算?
云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务)，这些资源能够快速提供，只需投入很少的管理工作，或与服务商进行很少的交互。
2、物联网和云计算的关系
云计算相当于人的大脑，是物联网的神经中枢。云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
目前物联网的服务器部署在云端，通过云计算提供应用层的各项服务。云计算可以提供以下几个层析的服务：
IaaS：基础设施即服务
消费者通过internet可以从完善的计算机设施获得服务。例如：硬件服务器租用。
PaaS：平台即服务
PaaS实际上是指软件研发的平台作为一种服务，以SaaS的模式提交给用户。因此，PaaS也是SaaS模式的一种应用。但是PaaS的出现可以加快SaaS应用的开发速度，如：软件的个性化定制开发。
SaaS：软件即服务
它是一种通过internet提供软件的模式，用户无需购买软件，而是向提供商租用基于Web的软件，来管理企业经营活动，如：亚马逊。
三
大数据
1、什么是大数据?
大数据是一种规模大到在获取、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。如果将大数据比作一个产业，那么这种产业实现盈利的关键在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。
2、大数据和云计算的关系
从技术上来看，大数据和云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘，但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
云时代的来临，大数据的关注度也越来越高，分析师团队认为大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模的并行处理数据库、数据挖掘、分布式文件系统、分布式数据可、云计算平台、互联网和可扩展的存储系统。
四
人工智能
1、什么是人工智能?
人工智能英文缩写为AI，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分枝，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。它是对人的意识、思维的信息过程的模拟，人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。
通过上述观点我们可以简单的得出一个结论：物联网的正常运行是通过大数据传输信息给云计算平台处理，然后人工智能提取云计算平台存储的数据进行活动。
本文版权归原作者所有。转载文章仅为传播更多信息之目的，如有侵权请与我们联系，我们将及时处理。
?

19款最好用的免费数据挖掘工具大汇总（干货）

小老鼠

展开

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。
数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。
免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange，到各种用Java、c++编写的库，最常见的是Python。数据挖掘中通常涉及到四种任务:
分类:将熟悉的结构概括为新数据的任务
聚类: 在数据中以某种方式查找组和结构的任务，而不需要在数据中使用已注意的结构。
关联规则学习: 查找变量之间的关系
回归: 旨在找到一个函数，用最小的错误来模拟数据。
下面列出了用于数据挖掘的免费软件工具
数据挖掘工具
1.Rapid Miner
Rapid Miner，原名YALE又一个学习环境，是一个用于机器学习和数据挖掘实验的环境，用于研究和实际的数据挖掘任务。毫无疑问，这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写，通过基于模板的框架提供高级分析。
它使得实验可以由大量的可任意嵌套的操作符组成，这些操作符在XML文件中是详细的，并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具，让我们可以轻松地分析数据。
2. IBM SPSS Modeler
IBM SPSS Modeler工具工作台最适合处理文本分析等大型项目，其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。
3.Oracle Data Mining
Oracle。作为“高级分析数据库”选项的一部分，Oracle数据挖掘功能允许其用户发现洞察力，进行预测并利用其Oracle数据。您可以构建模型来发现客户行为目标客户和开发概要文件。
Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。它还可以为整个企业的自动化、调度和部署创建SQL和PL / SQL脚本。
4. Teradata
Teradata认识到，尽管大数据是令人敬畏的，但如果您实际上并不知道如何分析和使用它，那么它是毫无价值的。想象一下，有数百万的数据点没有查询的技能。这就是Teradata所提供的。它们提供数据仓库，大数据和分析以及市场营销应用程序方面的端到端解决方案和服务。
Teradata还提供一系列的服务，包括实施，业务咨询，培训和支持。
5. Framed Data
这是一个完全管理的解决方案，这意味着你不需要做任何事情，而是坐下来等待见解。框架数据从企业获取数据，并将其转化为可行的见解和决策。他们在云中训练、优化和存储产品的电离模型，并通过API提供预测，消除基础架构开销。他们提供了仪表板和情景分析工具，告诉你哪些公司杠杆是驾驶你关心的指标。
6. Kaggle
Kaggle是全球最大的数据科学社区。公司和研究人员张贴他们的数据，来自世界各地的统计人员和数据挖掘者竞相制作最好的模型。
Kaggle是数据科学竞赛的平台。它帮助您解决难题，招募强大的团队，并扩大您的数据科学人才的力量。
3个步骤的工作 -
上传预测问题
提交
评估和交流
7. Weka
WEKA是一个非常复杂的数据挖掘工具。它向您展示了数据集、集群、预测建模、可视化等方面的各种关系。您可以应用多种分类器来深入了解数据。
8. Rattle
Rattle代表R分析工具轻松学习。它提供数据的统计和可视化汇总，将数据转换为可以轻松建模的表单，从数据中构建无监督模型和监督模型，以图形方式呈现模型的性能，并对新数据集进行评分。
它是一个使用Gnome图形界面在统计语言R编写的免费的开源数据挖掘工具包。它运行在GNU / Linux，Macintosh OS X和MS / Windows下。
9. KNIME
Konstanz信息采集器是一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台。它有一个图形用户界面，帮助用户方便地连接节点进行数据处理。
KNIME还通过模块化的数据流水线概念集成了机器学习和数据挖掘的各种组件，并引起了商业智能和财务数据分析的注意。
10. Python
作为一种免费且开放源代码的语言，Python通常与R进行比较，以方便使用。与R不同的是，Python的学习曲线往往很短，因此成了传奇。许多用户发现，他们可以开始构建数据集，并在几分钟内完成极其复杂的亲和力分析。只要您熟悉变量、数据类型、函数、条件和循环等基本编程概念，最常见的业务用例数据可视化就很简单。
11. Orange
Orange是一个以Python语言编写的基于组件的数据挖掘和机器学习软件套件。它是一个开放源码的数据可视化和分析的新手和专家。数据挖掘可以通过可视化编程或Python脚本进行。它还包含了数据分析、不同的可视化、从散点图、条形图、树、到树图、网络和热图的特征。
12. SAS Data Mining
使用SAS Data Mining商业软件发现数据集模式。其描述性和预测性建模提供了更好的理解数据的见解。他们提供了一个易于使用的GUI。他们拥有自动化的数据处理工具，集群到最终可以找到正确决策的最佳结果。作为一个商业软件，它还包括可升级处理、自动化、强化算法、建模、数据可视化和勘探等先进工具。
13. Apache Mahout
Apache Mahout是Apache软件基金会（Apache Software Foundation）的一个项目，用于生成主要集中在协作过滤、聚类和分类领域的分布式或其他可伸缩机器学习算法的免费实现。
Apache Mahout主要支持三种用例：建议挖掘采取用户行为，并尝试查找用户可能喜欢的项目。集群需要文本文档，并将它们分组为局部相关的文档。分类从现有的分类文档中学习到特定类别的文档是什么样子，并能够将未标记的文档分配给（希望）正确的类别。
14. PSPP
PSPP是对采样数据进行统计分析的程序。它有一个图形用户界面和传统的命令行界面。它用C语言编写，使用GNU科学图书馆的数学例程，并绘制UTILS来生成图表。它是专有程序SPSS（来自IBM）的免费替代品，可以自信地预测接下来会发生什么，以便您可以做出更明智的决策，解决问题并改进结果。
15. jHepWork
jHepWork是一个免费的开放源代码数据分析框架，它是为了使用开放源代码软件包和可理解的用户界面创建一个数据分析环境，并创建一个与商业程序相竞争的工具。
JHepWork显示数据集的交互式2D和3D图，以便更好地分析。 Java中实现了数字科学库和数学函数。 jHepWork基于高级编程语言Jython，但Java编码也可用于调用jHepWork数值库和图形库。
16. R programming Language
为什么R是这个名单上免费数据挖掘工具的超级巨星?它是免费的、开源的，并且很容易为那些没有编程经验的人挑选。实际上，有数以千计的库可以集成到R环境中，使其成为一个强大的数据挖掘环境。它是一个免费的软件编程语言和软件环境，用于统计计算和图形。
在数据采矿者中广泛使用R语言进行统计软件和数据分析。近年来，易用性和可扩展性大大提高了R的知名度。
17. Pentaho
Pentaho为数据集成，业务分析和大数据提供了一个全面的平台。有了这个商业工具，你可以轻松地融合任何来源的数据。深入了解您的业务数据，为未来做出更准确的信息驱动决策。
18. Tanagra
TANAGRA是一个用于学术和研究目的的数据挖掘软件。有探索性数据分析，统计学习，机器学习和数据库领域的工具。 Tanagra包含一些监督学习，但也包括其他范例，如聚类，因子分析，参数和非参数统计，关联规则，特征选择和构建算法。
19. NLTK
自然语言工具包，是一套用于Python语言的符号和统计自然语言处理（NLP）的库和程序。它提供了一个语言处理工具库，包括数据挖掘，机器学习，数据报废，情感分析和其他各种语言处理任务。构建python程序来处理人类语言数据。

基于云计算的数据挖掘