中企动力 > 商学院 > 数据分析数据预测
  • ?

    数据分析培训学习,怎么用Excel做数据分析

    布鲁斯

    展开

    今天科多大数据小课堂来教大家用Excel怎么做数据分析。

    现如今,各行各业的求职都需要简历包装。尤其是文职类简历,想要赢得offer,你不得在精通Excel等办公软件上下点功夫么?那么,你真的了解Excel嘛?或者,你知道用它怎么做数据分析嘛?

    所谓数据分析在手,走遍天下都不怕。而 Excel 作为最简单的办公软件,功能却不容小觑,同样可以实现分类、聚类、关联和预测来进行数据分析。这些概念听起来比较抽象,其实一点都不难,今日文章直接来一波干货,从具体操作开始讲起。

    01 掌握基本 Excel 快捷键

    工欲善其事,必先利其器,自从笔者发现了excel快捷键,就打开了新世界的大门。 虽然都是很基础的操作,一旦运用熟练将会大幅提升效率。

    最好用的复制命令: Ctrl + R 向右复制 Ctrl + D 向下复制

    选择格式粘贴:Ctrl + Alt + V

    求和功能:Alt + = 然后按回车键

    格式调整:Ctrl + Shift + 7 加上外边框 Ctrl + Shift + - 去掉边框 Ctrl + Shift + 5 改成%数值格式

    视图调整及编辑: Ctrl + Shift + = 插入行 Ctrl + - 删除

    终极:开始工具栏所有的命令都可以通过 Alt - H - 调用

    Alt: 激活选项,配合选项英文字母使用

    Shift:连续选择,配合方向键,翻页键等使用; 上位键

    Ctrl:配合其他键可以执行一项命令 如Ctrl + C 复制;快速移动光标,配合方向键使用,如向右快速移动光标 (Ctrl + →)

    02 数据收集

    在数据分析之前,首先需要找到可靠的数据源。国内的公司数据可以在 wind 上下载,宏观数据可以在国家统计局上找到,而国外比较常用的网站有 SEC,WRDS (Wharton Research Data Services)。

    需要注意的是,原始数据一般保留不做处理,通过 Excel 或其他编程软件做后续处理。

    03 数据清洗与筛选等基础操作

    杂乱无章的原始数据是难以分辨的,因此需要对海量数据进行清洗和筛选才能找出其中的规律。

    常见的方法有如下几种:

    运用描述性统计命令观察数据的离散程度等基本情况:通过添加“分析工具库”加载项找到数据-数据分析-描述统计,可以得到这组数据的中位数、众数、峰度、偏度等基本指标,观察这组数据的特征。此外,数据分析中还有方差分析等其他命令。

    运用 VLOOKUP 将数据合理分组,收放自如:VLOOKUP 函数是 Excel 中的一个纵向查找函数,可以用来核对数据,多个表格之间快速导入数据等函数功能。功能是按列查找,最终返回该列所需查询列序所对应的值。比如,我们导出公司的原始报表后,可以通过 VLOOKUP 函数将报表中的数字一一导入到新的管理用的财务报表,这样既不会破坏原始数据,又可以建立良好的模板,方便后续使用。VLOOKUP 的四个参数用通俗的话来说,就是(要找谁,要在哪里找,要找哪一列内容,是精确的还是模糊的)

    运用数据透视表分组求平均数、标准差、计数等多个指标:数据透视表是一个非常容易上手的分组工具,对于简单的数据处理甚至在便捷程度上打败了很多编程工具呢。比如要对每个省份的所有专业分数线求一个平均数,将年份和省份轻松地拖动到对应的列和行,就可以得到结果啦。试想,如果在原始表格中手动一个一个求平均数该有多麻烦。

    运用条件函数计算融资缺口,检查配平:比如在预测财务报表时,我们常常要判断资产是否等于负债+所有者权益。此时可以用 IF 函数 (资产=负债+所有者权益,TRUE,FALSE)如果是配平的,直接返回 TRUE。此外,还有一些函数如 IRR 可以计算项目的投资回报率。

    04 挖掘数据背后的规律

    在完成了数据清洗和筛选之后,我们还是要落实到数据分析的重点,也就是数据背后的逻辑。

    首先我们可以采用画图的方式。画图可以非常直观地佐证结论,不同情况下要用不同类型的图,比如饼图显示比重,折线图发现趋势,还可以采用叠加多种形式的图。

    下面这张图就是一个数据分析应用的经典例子,显示的是一个教育公司在扩张过程中,学习中心同比增速与营业毛利率的关系。试想,如果只是一堆数据放在你的面前,可能根本无法发现其中的规律,但是通过下图,我们可以发现,学习中心的同比增速一般与营业毛利率呈反向关系,这也就意味着,扩张的过程必然要伴随利润下降的阵痛,这样的数据分析就是有效的,可以为公司的扩张战略提供参考依据。

    另一种比较常见的数据分析应用就是从历史预测未来。比如如果公司过去几年的存货周转率都比较稳定,可以以此来预测未来几年的存货周转率。又或者通过线性回归发现某两个指标之间过去的线性关系,并以此来预测未来走势,这个操作方法可以用散点图——添加趋势线——选择回归类型(线性)来得出简单的结论。

    说了这么多,列举 Excel 数据分析的一个常见运用。

    大家知道,金融领域的工作往往要考察搭建财务模型的技巧,而这个模型就是完完全全从 0 开始通过 Excel 制作的。

    1. 计算各项指标了解公司的历史经营状态。这一步不仅可以看出公司在盈利能力、成长性、营运能力等多个维度的历史发展状况,还可以与同行业的可比公司进行比较,看出这个公司所处的地位(比如公司的应收账款周转率可以直观看出公司是强势地位还是弱势地位,应收账款周转率如果显著低于同业,那就说明应收账款很容易收到,议价能力强)。

    2. 预测公司未来的盈利状况,并通过财务报表的勾稽关系完善财务模型。这一步一定要打开 Excel 的自动迭代功能(选项——公式——启用迭代计算),具体的财务方面知识在此就不再详述。

    3. 现金流 DCF 模型及敏感性分析。以之前制作的财务报表为基础,就可以测算出公司未来的自由现金流,在计算出公司资本成本的前提下对现金流进行贴现得到公司绝对估值。其中,基于不同的资本成本和公司永续增长率还可以做成敏感性分析的表格,得出在不同情形下公司的估值。这就需要使用Excel的数据——模拟运算——模拟运算表功能了。如下图所示,将输入引用行的单元格和引用列的单元格分别设为 Equity Valuation 中的永续增长率和Wacc对应的数值,就可以实现啦。

    以上这些介绍都只是冰山一角,Excel的功能博大精深,加上VBA等高端操作将会释放更大的威力。配合现当代大数据盛行时期。想要深入,就还得不断学习!

  • ?

    大数据分析预测就好比占星卜卦?

    窦盼旋

    展开

    导语:

    中国人讲“旁观者清,当局者迷”。 “当局者迷”是因为自己看不清自己,所以我们要把自己的处境悬架起来,当作一面镜子,这就是卦。把自己的状态,自己的处境,让自己成为旁观者来做评判,这个过程就是算卦,其中对未来的展望就是占卜。这与大数据分析预测何其相似,从历史数据提取关键信息,分析其特征表现,预测其未来。

    “行星运行”—寻找规律

    太阳系八大行星绕太阳运行周期数据: 观测数据是行星绕太阳一周所需要的时间(以年为位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。

    “仙人指路” – 实践规律

    占卜功能来源于《易经》,从来就是神秘高深,不可测。 而我们从《易经》中了解到,每个卦,每一爻都包含了“象”,“数”,“理”三种含义。举个例子。 我们在算卦时,师傅会占卜人的面相,这就是一个“象”, 而看了哪些位置,花了多少时间,就有了它的“数”,为什么要这样看?所以“理”就出现了。“相面”、“看手相”与“星座”等 “命里”/“性格”论也可以认为是一种基于“总结”的规律实践。

    数据分析与占星卜卦有没有相似之处 ?

    答案是有,都围绕着三个贯通点,观察、寻找特征、应用规律(经验)。

    历史中的数据事故

    1.朝鲜战争: 志愿军的7天攻势

    1950年12月31日,中朝联军发起第五次战役,至1月7日,联合国军已退至三七线南北之平泽、安城、堤川、宁越、三陟一线,战役遂于1月8日结束1951年4月22日,中国人民志愿军发动第五次战役,至29日结束。

    2.辽沈战役:廖耀湘军团覆灭

    为什么那里缴获的短枪与长枪的比例比其它战斗略高?

    为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?

    为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?

    数据分析的四大问题

    (1)数据分析是什么?

    是寻找规律、提炼价值信息,并将分析结果用于决策的过程。

    其中需要经历的过程有确定分析的目的 → 研究的对象 → 可以使用的数据→ 细致分析 → 结论与展示。

    泰坦尼克号事故中什么样的人更易幸存?

    (2)数据分析的基础是什么?

    数据是分析的基础:分析是建立在数据之上,可以使用的 数据量、数据质量、数据的粒度等决定了分析的结果。

    业务是分析的支撑:离开业务解读数据是枯燥的,没有意义的;如下图的示例中,不解释原始表结构与业务逻辑,无法分析。

    (2.1)数据分析的基础 – 数据

    数据:对事物存在与发展变化的描述

    数据收集: 数据时代,记录事情发展变化成为可能

    数据的记录形式: 数据结构

    数据结构的变换:数据处理、统计

    数据的处理: 计算(计算机),所以对数据结构有要求。

    结构化数据:可以用数字或统一的结构表示的信息;

    数据表: 一行为一条观测,一列为一个特征/维度

    非结构化数据:无法用数字或统一的结果表示的信息。

    如:图片、文本、声音

    (3)数据分析的方法

    数据分析的基本流程:定义问题(了解业务) → 收集数据 → 数据检查 → 数据处理 → 数据分析 → 结果展示 → 结果应用。

    检查数据质量,包括缺失、异 常值、分布等

    数据处理,包括填补缺失值、处 理异常值、衍生、标准化等。(泰坦尼克题目中,将Title、Pclass、Parch组合观察可以找到更好的差异)

    (4)数据分析的原则

    明确分析目标:围绕目的进行的分析工作;业务与数据相结合:分析结果最终要在业务上解释与应用,需要与业务结合;用数据说话:深入分析数据的实质,挖据数据内涵,不能 “认为是”,也不能停留在数据表面。

    小问题1:如果一枚硬币连抛10次都是正面,问第11次出现正面的概率是多少?(请在评论区说出你的答案)

    哪个老师的教学质量更好?

    生活中的数据分析:

    (1)在亚马逊上搜算图书《原则》,从而看到的其他图书推荐。

    关联分析:Amzon 100件图书订单,购买《原 则》的有75件,购买《爆裂》的 有60件,同时购买两者的40件。 那么,两本书在被选购时是否可以相互推荐?

    事件 - A:购买《爆裂》;B:购买《原则》

    支持度 :同时购买概率 - 40/100 = 0.4

    置信度 : 购买一个后,再购买另一个的条件概率

    A对B的置信度: 40/60 = 0.67 B对A的置信度: 40/70 = 0.53

    提升度:购买一件对购买另一件的概率提升左右

    A对B的提升度:0.67/0.75 = 0.89

    B对A的提升度:0.53/0.6 = 0.88

    结论: 两本书的购买是互斥的

    小问题:如果把订单总量变为1000 呢?(来评论区说出你的答案)

    (2) 数据分析的应用—大数据杀熟分布

    网友分享:

    他经常通过某网站订某个特定酒店的房间,常年价格在380元-400元。偶然一次,他从前台得知酒店淡季价格在300元上下,他用朋友的账号查询也是300元,但用自己的账号查看还是380元。其他网友也分分晒出自己被宰的经历,大骂企业无良,不少媒体认为大数据是技术走了歪路,建议通过法律制裁。

    由于篇幅有限,本文对大数据分析不再做过多的介绍,欢迎有兴趣的小伙伴通过以下方式咨询我司相关产品。

  • ?

    最常用的四种大数据分析方法

    海蓝

    展开

    本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。

    当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力是什么时,他们给出了五花八门的答案。

    其实我想告诉他们的是,数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解。

    使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。

    简单地来说,分析可被划分为4种关键方法。

    下面会详细介绍这四种方法。

    1. 描述型分析:发生了什么?

    这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

    例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

    2. 诊断型分析:为什么会发生?

    描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。

    良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

    3. 预测型分析:可能发生什么?

    预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。

    预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

    在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

    4. 指令型分析:需要做什么?

    数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

    例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线。

    结论

    最后需要说明,每一种分析方法都对业务分析具有很大的帮助,同时也应用在数据分析的各个方面。

    原文链接:http://kdnuggets/2017/07/4-types-data-analytics.html

    转载请注明出自:葡萄城控件

    关于葡萄城

    葡萄城是全球控件行业领导者,世界领先的企业应用定制工具、企业报表和商业智能解决方案提供商,为超过75%的全球财富500强企业提供服务。

  • ?

    用大数据预测旅游,数据分析让需求更直观

    无施

    展开

    数据不仅仅是最流行和广泛使用的术语,它是大型或复杂数据集的综合术语。大数据在搜索,捕获,存储,可视化,分析和信息隐私方面存在挑战,数据需要通过创新来揭示复杂,多样化和大规模扩展数据集的隐藏价值。

    大数据已经发展为现代生活带来了新的机遇,这些庞大的数据源库可以为管理人员,研究人员和决策者提供做出决策所需的数据驱动证据。在数字和分析的前提下,除了猜测,轶事,直觉或以前的经验,本文可以指导更自信的决策,准确的数据分析和更高的运营效率,以及降低风险和成本。

    大数据旅游?

    旅游业在信息方面蓬勃发展,大数据可以提供有关行为和人类活动的最新和非常明智的推断,从而增强旅游业。在网络上使用移动技术时,游客会留下各种数字痕迹。通过每位游客,可以获得大量关于旅行不同阶段的相关数据 - 航行之前,之间和之后。

    由于云中的大量数据可用性,分析已成为理解数据中存在的信息的需要。如果你是计划旅行的新客户,你可能在购买门票,研究景点或预订住宿时从互联网上获得更多来源。旅游业的成员正在慢慢转向大数据,以寻找改善机会,决策和整体表现的新方法,例如,通过大数据可以实现分散信息的互连。

    参与旅游的商家和代理商可以找到各种方法,利用各种数据资源在旅行的每个阶段与潜在的客人互动,并使用这些大数据来及时更好地了解不断增加的访客统计数据。他们还可以重新营销以瞄准在代理旅行网站上选择特定目的地的客户。

    大数据旅游的好处

    以前的旅游研究主要基于专家的观点和调查,这可能意味着他们从整个人口中检索了样本,并且没有游客的真实数据。使用特定方法的大数据旅游比传统方法具有优势,传统方法将在下面讨论。

    新的信息流动

    旅游大数据是旅行者自己产生的典型信息。它通过数据分析客户对各种服务和产品的需求,改善了旅游业务的思维过程。

    可靠性

    大数据不是基于调查,而是基于用户的实际行动。换句话说,一些行动、行为、 未陈述的询问或意图 、已经过审查等等问题,将所有数据源收集在一起,大数据增强了样本基础,传统的基础工作往往建立几个数量级。

    我们所有人都生活在一个前所未有的时期,即客户信念,公司商业模式和消费者反应,这些技术同时扰乱了已建立的机构并产生了新的机构。无论如何,旅游大数据表明客户与企业之间的关系发生了值得注意的变化。我们可以利用大数据来支持体验,并提供卓越的预测分析,以增强客户的决策和期望。

  • ?

    什么是数据分析?数据分析的作用是什么?

    笑天

    展开

    1.什么是数据分析?

    数据分析的目的是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。比如:企业的高管希望通过市场分析和研究,把握当前产品的市场动向,从而制定合理的产品研发和销售计划,这就必须依赖数据分析才能够完成。

    简单的说,就是对数据进行分析,比较专业的说法是,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,未提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。以求最大化地开发数据的功能,发挥数据的作用。

    数据分析包含“数据”和“分析”两个方面一方面包括加工和整理数据,另一方面也包括分析数据,从中提取有价值的信息并形成对业务有帮助的结论。

    数据分析的成果通常以分析报告的形式呈现。对于数据分析报告,分析就是论点,数据就是论据,两者缺一不可。

    2.数据分析类别

    其中,探索性数据分析侧重于在数据中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明。

    数据分析的划分:描述性数据分析、探索性数据分析、验证性数据分析。

    1)描述性数据分析:属于初级数据分析,常见的分析方法有对比分析法、平均分析法、交叉分析法。

    2)探索性数据分析:侧重于再数据之中发现新的特征

    3)验证性数据分析:侧重于验证已有假设的真伪证明

    其中探索性数据分析和验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等等。

    3.数据分析的作用

    数据分析在日常企业运营中主要有三大作用:

    1.现状分析

    简单的说就是告诉你过去发生了什么。

    具体表现在:

    第一,告诉你企业现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,以说明企业整体运营是更好了还是坏了,好的程度是如何,坏的程度又到哪里。

    第二,告诉你企业各项业务的构成,让你了解企业各项业务的发展及变动情况,对企业经营状况有更深入的了解。

    现状分析一般通过日常通报来完成,如日报、周报、月报等形式。

    2.原因分析

    简单的说就是告诉你某一现状为什么发生。经过第一阶段的现状分析,我们对企业的运营情况有了一个基本的了解,但是不知道运营情况具体好在哪里,差在哪里,是什么原因引起的。这时候我们就需要开展原因分析,以进一步确定业务变动的具体原因。

    原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。

    3.预测分析

    简单来说就是告诉你将来会发生什么。

    在了解企业运营现状后,有时候还需要对企业未来发展趋势做出预测,为企业制定经营目标以及提供有效的策略参考与决策依据,以确保企业的可持续健康发展。

    预测分析一般通过专题分析来完成,通常在制定企业季度、年度等计划时进行,其开展的频率没有现状分析及原因分析高。

    什么时候开展什么样的数据分析,需要根据自身的需求及目的来确定。

    分享 IT 技术和行业经验,请关注-技术学派。

  • ?

    预测、数据分析对结果的决策重要性

    yesyes1

    展开

    毫无疑问,机器学习和预测分析已经进入了公众意识。有几件事使这成为可能:

    首先,计算能力变得更快、更经济,数据传输速度和存储成本大幅提高,所有这些都使得人工智能(AI)算法能够向高度美化的大数据扩展。但是,企业在涉足人工智能领域之前,应该警惕术语和它的万灵药承诺。尽管商业领袖可能对他们想要的结果有很好的认识,但他们中的许多人对实现目标所需的知识缺乏了解,比如数据源和类型的差异,以及不同类型机器学习模型的细微差别。

    随着越来越多的供应商加入到人工智能的大潮中,许多术语,如预测分析和机器学习,已经成为非常流行的营销标签,企业在寻找预测分析解决方案时应该记住这一点。理解这些标签是克服炒作的关键,并通过真正的自助服务解决方案为您的运营团队直接管理他们的业务挑战获得真正的价值。

    路灯的效果

    有一个古老的笑话——我听过很多版本——讲的是一个人在路灯柱周围的地上搜索。一个朋友过来问他在做什么。“找我的钥匙。”他指着灌木丛说。“那你为什么要看这里?”他的朋友问。“光线更好,”那人说。这个被称为“街灯效应”的故事描述了一种被称为“观察偏差”的现象,指的是人们在最容易搜索的地方寻找东西的习惯。在谈论预测分析和机器学习时,这也是一个值得考虑的问题。当算法被应用到开发者认为他们能找到最好的洞察力的地方或者他们能找到问题的地方时,街灯效应就会在预测分析中显现出来。

    例如,如果一家公司说它正在应用机器学习,但它只是一个很小的功能,开发者仍然需要手动配置搜索参数(比如游戏开发中的“bug”检测),那么分析师的功能和操作只会受到很小的影响。直到最近,大多数机器学习模型准确地预测了他们所接受的训练,所以他们的预测仅仅和他们训练所用的数据一样好。新一代真正的机器学习算法,不需要被告知在哪里观察和从经验中学习,承诺将彻底改变多少企业将运营。最终,它们将为分析师提供真正的自助操作预测,而不依赖于数据科学和数据操作团队。你得到了什么?

    静止数据还是实时数据?

    另一个大问题是数据源本身正在迅速变化。直到最近,我们还局限于使用“静态数据”——自包含且固定的数据集。“静止数据”提供了有价值的历史背景,使基于过去的经验进行业务预测成为可能。但是,物联网(物联网)技术、传感器之类的连接数据源和社交媒体feed现在为我们提供了有意义的新数据来源,而且随着时间的推移会发生变化。

    实时数据的应用为预测分析开辟了一个令人兴奋的新分支,称为异常(或异常值)检测,即在异常行为发生时识别异常行为的能力。当我们谈论企业的数据驱动洞察力时,这种发现你不知道的问题的能力可能会出现,并且可能导致将来不得不处理的问题,这显然是很有价值的。

    异常检测如何改善你的驾驶体验

    事实上,异常检测已经在发挥作用。广受欢迎的大众共享导航系统Waze最近求助于一家名为Anodot的Tel aviv公司,帮助其发现无法预料的问题。“Anodot公司帮助我们发现了一些异常现象,并发现了一些司机可能感觉不到的问题,但是当我们从整体来看时,我们可以看到区别,”分析集团经理Orna Amir博士说。“这些变化不会让驾驶变得更快。但是,使用Anodot公司可以帮助公司了解用户的喜好,比如检测某些国家的趋势,或者功能没有充分发挥潜力,这将帮助我们为用户提供更好的体验。

    Anodot公司的平台全面观察了数据的全貌。机器学习系统分析所有的数据历史和数据流,以发现任何异常,而不是被告知去哪里查找,然后发出警报,以采取进一步行动。

    工作场所的预测分析

    航运巨头UPS最近也宣布,他们已经开始使用新一代的实时预测分析算法来优化包裹在其配送网络中的移动。UPS早在2016年就推出了自己的ORION算法,但这款内部开发的新型协调企业分析工具,现在将提供过去在不同应用程序间推广的功能。

    UPS首席信息官胡安佩雷斯(Juan Perez)对《华尔街日报》表示:“如今,我们广泛使用数据进行计划。”“但是,我们对包状态的实时数据获取得越多,我们就能更好地了解网络中的任何异常,从而帮助我们制定出更好的计划来管理整个网络。”“预测分析将使UPS能够预测需求,这样它就可以将卡车和飞机运往最需要它们的地方,以改善服务并节省开支。”该公司表示,下一个版本将使用人工智能来实时确定最佳行动,以消除决策过程中的人为瓶颈。

    你知道的越多,结果就越好

    尽管取得了这些成功,麦肯锡全球研究所(McKinsey Global Institute) 2017年的一项研究发现,许多商界领袖仍不确定基于人工智能的技术究竟能为他们带来什么。好消息吗?同样的研究发现,“与只尝试或部分采用人工智能的公司相比,人工智能采用者报告使用人工智能来扩大市场的可能性要高出27%,报告使用人工智能来提高市场份额的可能性高出52%。”

    关键是知识。随着预测性分析的不断进步,商业领袖学习和理解所有的定义,并从现实中区分炒作是很重要的。如果一个供应商告诉你它正在使用机器学习,找出机器将要做什么,你仍然在做什么,以及如何帮助你的运营和分析师。不要犹豫问问题,清楚地表达你的目标。

    你对预测分析的了解越多,你就能更快更有效地优化你的商业成果。

  • ?

    数据分析的8种方法详解

    纯唇

    展开

    对于具体的业务场景问题,我们该怎么办呢?我们以一个电子商务网站为例,用数据分析产品 GrowingIO 对该网站进行快速地数据采集、清晰和可视化展示,然后给大家分享这 8 种常见的数据分析方法。

    1 数字和趋势

    看数字、看趋势是最基础展示数据信息的方式。

    在数据分析中,我们可以通过直观的数字或趋势图表,迅速了解例如市场的走势、订单的数量、业绩完成的情况等等,从而直观的吸收数据信息,有助于决策的准确性和实时性。

    对于电子商务网站,流量是非常重要的指标。

    上图中,我们将网站的访问用户量(UV)和页面浏览量(PV)等指标汇汇聚到统一的数据看板(Dashboard),并且实时更新。

    这样的一个数据看板,核心数字和趋势一目了然,对于首席增长官来说一目了然。

    2 维度分解

    当单一的数字或趋势过于宏观时,我们需要通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。

    在选择维度时,需要仔细思考其对于分析结果的影响。

    举个例子,当监测到网站流量异常时,可以通过拆分地区、访问来源、设备、浏览器等等维度,发现问题所在。

    3 用户分群

    针对符合某种特定行为或背景信息的用户,进行归类处理,是我们常常讲到的用户分群(segmentation )的手段。

    我们也可以通过提炼某一群用户的特定信息,创建该群体用户的画像。 例如访问购物网站、寄送地址在北京的用户,可以被归类为“北京”用户群体。

    而针对“北京”用户群体,我们可以进一步观察他们购买产品的频度、类别、时间,这样我们就创建出该用户群体的画像。

    在数据分析中,我们往往针对特定行为、特定背景的用户进行有针对性的用户运营和产品优化,效果会更加明显。

    上图中,我们通过 GrowingIO 的用户分群功能将一次促销活动中支付失败的用户挑选出来,然后推送相应的优惠券。

    这样精准的营销推广,可以大幅度提高用户支付的意愿和销售金额。

    4 转化漏斗

    绝大部分商业变现的流程,都可以归纳为漏斗。

    漏斗分析是我们最常见的数据分析手段之一,无论是注册转化漏斗,还是电商下单的漏斗。

    通过漏斗分析可以从先到后还原用户转化的路径,分析每一个转化节点的效率。  其中,我们往往关注三个要点: 第一,从开始到结尾,整体的转化效率是多少?  第二,每一步的转化率是多少?  第三,哪一步流失最多,原因在什么地方?流失的用户符合哪些特征?

    上图中注册流程分为 3 个步骤,总体转化率为45.5%;

    也就是说有 1000 个用户来到注册页面,其中 455 个成功完成了注册。

    但是我们不难发现第二步的转化率是 56.8% ,显着低于第一步 89.3% 和第三步转化率 89.7%,可以推测第二步注册流程存在问题。

    显而易见第二步的提升空间是最大的,投入回报比肯定不低;如果要提高注册转化率,我们应该优先解决第二步。

    5 行为轨迹

    关注行为轨迹,是为了真实了解用户行为。

    数据指标本身往往只是真实情况的抽象,例如,网站分析如果只看访问用户量(UV)和页面访问量(PV)这类指标,断然是无法全面理解用户如何使用你的产品。通过大数据手段,还原用户的行为轨迹,有助于增长团队关注用户的实际体验、发现具体问题,根据用户使用习惯设计产品、投放内容。

    上图中展示了一位用户在某电商网站上的详细行为轨迹,从官网到落地页,再到商品详情页,最后又回到官网首页。

    网站购买转化率低,以往的业务数据无法告诉你具体的原因;通过分析上面的用户行为轨迹,可以发现一些产品和运营的问题(比如是不是商品不匹配等等),从而为决策提供依据。

    6 留存分析

    在人口红利逐渐消褪的时代,留住一个老用户的成本要远远低于获取一个新用户。

    每一款产品,每一项服务,都应该核心关注用户的留存,确保做实每一个客户。

    我们可以通过数据分析理解留存情况,也可以通过分析用户行为或行为组与回访之间的关联,找到提升留存的方法。

    在 LinkedIn,增长团队通过数据发现,如果新用户进来后添加 5 个以上的联系人(上图红色线条),那么他/她在 LinkedIn 上留存要远远高于那些没有添加联系人(上图绿色和紫色的线条)的留存。

    这样,添加联系人称为 LinkedIn 留存新用户的最核心手段之一。除了需要关注整体用户的留存情况之外,市场团队可以关注各个渠道获取用户的留存度,或各类内容吸引来的注册用户回访率,产品团队关注每一个新功能对于用户的回访的影响等等,这些都是常见的留存分析场景。

    7 A/B 测试

    A/B 测试用来对比不同产品设计/算法对结果的影响。

    产品在上线过程中经常会使用 A/B 测试来测试不同产品或者功能设计的效果,市场和运营可以通过 A/B 测试来完成不同渠道、内容、广告创意的效果评估。

    举个例子,我们设计了两种不同的产品交互形式,通过比较实验组(A 组)和对照组(B 组)的访问时长和页面浏览量两个衡量指标,来评估哪一种交互形式更佳。要进行 A/B 测试有两个必备因素:

    第一,有足够的时间进行测试;

    第二,数据量和数据密度较高。

    因为当产品流量不够大的时候,做 A/B 测试得到统计结果是很难的。而像 LinkedIn 这样大体量的公司,每天可以同时进行上千个 A/B 测试。所以 A/B 测试往往在公司数据规模较大时使用会更加精准,更快得到统计的结果。

    8 数学建模

    当一个商业目标与多种行为、画像等信息有关联性时,我们通常会使用数学建模、数据挖掘的手段进行建模,预测该商业结果的产生。

    作为一家 SaaS 企业,当我们需要预测判断客户的流失时,可以通过用户的行为数据、公司信息、用户画像等数据建立流失模型。

    利用统计学的方式进行一些组合和权重计算,从而得知用户满足哪些行为之后流失的可能性会更高。

    我们常常说,不能度量,就无法增长,数据分析对于企业商业价值的提升有着至关重要的作用。

    当然,仅仅掌握单纯的理论还远远不够,实践出真知。数据分析的方法大家不妨在自己日常工作中,有分析相关项目里尝试使用,相信可以事半功倍,创造更多商业价值。

  • ?

    大数据探索:大数据预测与算法

    贾南烟

    展开

    虽然你并没有见到过买彩票中奖的算命先生,但几乎每个中奖的人都会吹嘘自己拥有了算命先生的能力。有些中奖者,就像赵本山的小品中的人物那样,会声称自己是从梦中获得的灵感来选择号码,还有一些中奖者则会声称自己拥有某种超级预测的能力。

    但不管这些人如何声称自己拥有超能力,但我们可以相信,还是很少有正常的企业会高薪聘请这类人来帮助企业做市场预测分析。

    随着互联网和计算机的普及,人们做决策时越来越注重“数据驱动”,也就是说更加依赖于客观的统计数据而不是某些人的所谓“判断”。在这个以事实为基础的领域中,常见的词汇都是“分析学”、“大数据”、“商业情报”以及“数据科学”等。

    统计科学的任务就是在大量微观个体的相互作用中发现可以被辨识的宏观模式,这些模式可以是数学公式,可以是图标,也可以是若干个更为直观的指标或指数,如均值,方差,CPI和PPI等。

    在传统的统计学中,数据是“混合的”(mixed),就像容器内的分子。因此,我们关心的是大量数据中呈现出的宏观量,就像容器内气体的温度。

    但是大数据预测分析则更近了一步,它不仅仅是要搞清楚宏观统计规律,更要弄清宏观数据中的精细结构,例如,大数据分析既关心某款手机的销售量,更关心是哪个群体的人会更有可能购买该款手机。

    因此,在大数据分析的视野中,数据不再是混合的,而是“聚块的”(assorted)。表面上看是混杂的,但放大了看,则有精细的结构:华为手机用户产生的数据;鹿晗粉丝留下的数据;克罗地亚球迷留下的数据;等等。

    所谓的大数据,我将其定义为与人的行为相关的所有数据。人们几乎所有的行为都会留下痕迹,这些痕迹就是所谓的数据。这就意味着,在大数据的视野里,所有的数据就像道路上的脚印,虽然看上去杂乱却是“有迹可循”的。

    数据的“前后相随”形成了“足迹”,大数据分析技术可以帮助我们辨识出无数不同的“足迹”。但是我们一定要注意,这些“足迹”不是相互独立的而是相互影响相互关联的。有些足迹会“殊途同归”而有些足迹则会“分道扬镳”。

    由于人是有限理性的,因此对于问题类型的兴趣各不相同,即使对于同一个问题也会形成不同的看法。不同类型的数据虽然都被埋在了网络中海量的数据库里,但是具有不同兴趣不同知识背景的人们总是能够在其中“嗅出”自己所需要的特殊“信息素”,并进而引发五花八门的聚集行为。

    以维基百科为例。在维基百科的发展过程中,万维网构成了信息聚集和信息流的物理环境。如果有某位作者在维基百科中新增了一个词条,则该词条就会成为一个标识,它所包含的特殊的“信息素”会引导着那些对这个词条感兴趣的读者或编辑的聚集行为。在聚集过程中,他们以网页为媒介间接地进行交往,或增加内容,或修改内容,或激烈争论,持续不断地进行着信息和知识的交流。有时候他们会很快就达成共识,有时候则会在交流和反馈中产生“无中生有”的涌现,形成新的观念和新的词条,从而留下新的“信息素”而引发新的聚集。有时则会因为意见不合或者兴趣衰减而一哄而散。

    人们在由维基百科提供的工作环境基于stigmergic机制的间接交往,使得维基百科涌现出了巨大的“智慧”,其内容的广泛性、专业性、包容性、多样性和时代性都超过了任何一本由少数专家“精心编撰”的百科全书。然而,尽管维基百科呈现出多样性、不断变化、缺乏中央指挥,但无论是从短期看还是从长期看,它都始终保持了协调性。

    不过,实际上我们面对的绝大多数数据并不像维基百科那样有清晰的结构。如何才能在表面杂乱的数据中发现隐藏的结构和秩序,需要的是合适的算法。

    互联网和计算机的普遍使用每天都为我们留下海量的数据。数据仿佛只是无数事实和数字的堆砌,每条数据都显得无聊,有的人看到数据就头疼。然而正如库瓦尼先生所说的“数据是一种新型石油”那样,数据中蕴含着巨大的财富。

    不过数据本身还不是财富,作为原材料的数据只是一个枯燥无味的代码组合。只有通过合理有效的方法提炼出来的规律和知识才是如黄金般珍贵的财富。

    人的能力有限,不可能同时处理如此海量的数据,幸好现在有了计算机。但是,再强的计算机面对着每天都在指数式增长的海量数据也会感到“内存”有限,再强的CPU都会担心在某一时刻是否会因为温度太高而“自焚”。

    写到这里,想到了人的免疫系统。由于病毒或者细菌具有超强的变异能力,这使得新的病毒和细菌层出不穷,从理论上会趋于无限。很显然人的免疫系统中不可能储存如此多的病毒或细菌信息。面对这样的一种情况,密执根大学的John H. Holland教授产生了这样的想法:大自然一定有自己的算法。

    这个想法的伟大之处在于,只要拥有了好的算法(软件),有限的硬件就可以做无限的事情。

    Holland教授指出:“正是由于适应行为而导致的复杂性,阻碍了当今世界许多重大问题的解决。”

    事实上,免疫系统遵循着大自然的“节约”原则,任何一个时刻储存的信息都是有限。那些长期没有出现的细菌和病毒将会被淡忘甚至遗忘,而那些最近出现在身体的疾病信息则会被储存。因此,大多数人在感冒痊愈后的一段时间不再感冒,这是因为免疫系统记住了这些细菌或病毒的特征,只要出现就坚决消灭。而过了一段时间以后,这些病毒或细菌变异后将以陌生的面孔出现在免疫系统面前,从而蒙混过关,让人的病。

    Holland教授根据新达尔文主义的基本观点,抽象地分析了自然系统的自适应过程,提出了遗传算法(Genetic algorithm,简称GA),并以此来实现系统结构的演化过程。

    继遗传算法之后,很快有了进化算法、蚁群算法、鱼群算法、涌现算法和stigmergy算法等等自适应的算法。中国古代先哲老子的“道法自然”的理念在各种适应性算法中得到了完美的实现。

    适应性算法的出现,为一个新的学科——机器学习的诞生奠定了基础。

    机器学习,就是让电脑自动获取新知识和新能力,持续不断地输入现代社会最重要的非自然资源:数据。

    输入数据→机器学习→预测→通过经验数据的反馈再学习,通过这样的一个过程将会不断提高机器的预测能力。

    例如,好莱坞的影视公司会预测,如果某剧本被制作成影片,它是否会受欢迎。如果受欢迎,主要是什么年龄阶层或社会阶层的人会更加欢迎。

    对于足球队教练来说,他要知道哪些运动员会在关键比赛的关键时刻更容易“掉链子”,从而做出有效的换人安排。

    对于美国总统候选人来说,那些摇摆不定的选民更容易接受什么样宣传媒体和宣传口号,从而提高获胜的机会。

    机器学习会从这些发现中尝试建立预测能力,通过对数字的挖掘和试错,运用统计学方法和计算机科学方法实现这种预测。

    接下来,需要讨论的问题是,机器学习能否替代人们的自主学习?机器预测能否替代人的判断?还有一个更大的问题是,在强大的人工智能面前,人怎么实现真正的自由?

    本文作者 龚小庆

  • ?

    如何用EXCEL线性回归分析法快速做数据分析预测

    念云

    展开

    回归分析法,即二元一次线性回归分析预测法

    先以一个小故事开始本文的介绍。十三多年前,笔者就职于深圳F集团时,曾就做年度库存预测报告,与笔者新入职一台籍高管Edwin分别按不同的方法模拟预测下一个年度公司总存货库存。令我吃惊的是,本人以完整的数据推算做依据,做出的报告结果居然与仅入职数周,数据不齐全的Edwin制定的报告结果吻合度达到99%以上。仍清楚记得,笔者曾用得是标准的周转天数计算公式反推法,而Edwin用的正是本文重点介绍的二元一次线性回归分析法。

    二元一次线性回归分析法是一种数据分析模型。

    在EXCEL函数公式是FORECAST(英文意思是:预测),其用途是根据一条线性回归拟合线返回一个预测值,此函数使用可对未来销售额、库存需求或未来数据趋势进行预测分析。

    要做好库存预测须具备几个条件,首先须具备过去较长的某个时间段的完整整的数据。这里说的时间段最好是上一年度一整年或最近两年的数据。

    完整的数库据指的是需要有年度对应每个月的实际库存与营收额或销货成本。

    同样我们把库存预测肢解成几个关键步骤。

    第一步:数据准备,依要求对EXCEL公式数据输入

    先看一组实际的数据,其中蓝色字体是已知具备的数据,黄色则是需要预测的库存数据。预测库存,则至少需要具备的数据是标注蓝色三行数据。为别是:上一年度月营收,上一年度月实际库存,本年度月营收目标。可参照始下截图与视频。

    二元一次回归分析法实例截图二元一次回归分析公式实例示图

    第二步:依KPI目标调整预测数据

    假设要求实际目标要求对总体存货周转率提升10%,则总体平均存货库存也减少10%,具体数据如下截图标注粉色行。

    依目标进行调整数据截图

    第三步:把总库存分解成不同物料形态的库存。这里讲的不同类别可以指的是:

    物料形态分类:原材料、半成品、在制品以及成品等。

    仓码分类:原材料仓、包装仓、成品仓、重要物资仓、五金仓、配件仓以及辅助物料仓等。

    这里我们以第一种物料类型实例说明。须依据上年度不同物料类别占总库存的比率,再计算对应类别库存总额,如下截图。

    依比率计别算出不同物料库存截图

    第四:验证二无一次线性回归分析方法的准确度。

    存货周转天数=((期初库存+期末库存)/2*30)/(营收*物料成本率)=(平均库存*30)/销售成本。

    依公式反推预测库存,平均库存=(目标周转天数*营收*物料成本率)/30,前提需要更多的数据信息,包括物料成本率与以往的周转天数做为计划依据。

    如下截图,两种不同的方法得出库存预测吻度为97%(或103%)。

    二元一次回归分析法验证截图

    企业管理中,要快速地对企业活动做出判断,需要完整的数据管理积累支撑

    二元一次回归分析法做库存预测速度快,效率更高。而标准的周转天数计算预法会更准确与准确。到底应当选择哪个方法?不同的时期,不同的方法如何选择则是仁者见仁,没有对或错,只有合适与否。但有肯定的一点,那就是类似二元一次回归分析法管理工具的熟练应用,则一定对会对企业管理起到更好的帮助,在做数据调研时也是个好的选择。

  • ?

    什么是数据分析、数据分析本质又是什么?

    菜花儿

    展开

    一般情况下,我们所说的分析是指,使用大量数据、统计和定量分析、解释和预测以及基于事实的管理来推动决策过程与实现价值增生。

    根据分析的方法和目的,分析可以被划分为描述性分析(descri-ptive analytics)、预测性分析(predictive analytics)和规范性分析(prescriptive analytics)。描述性分析包括数据收集、整理、制表、制图以及描述正要研究的食物的特征,这类分析以往被称为“报告”。描述性分析可能非常有用,但它不能解释某种结果出现的原因或者未来可能会发生的事情。

    预测性分析不仅可以对数据特征和变量(可以假定取消范围的因素)之间的关系进行描述,还可以基于过去的数据预测未来。预测性分析首先会确定变量值之间的关联,然后基于这种已知的关联预测另一种现象出现的可能性,比如在看到某个广告后,一位消费者可能会去买产品的可能性。虽然预测性分析中的预测是基于变量之间的关系做出来的,但这不代表预测性分析中都需要明确因果关系。事实上,准确的预测并不一定与需要基于因果关系。

    规范性分析是更高层次的分析,如实验设计和优化等。就像医生会在出处方建议患者采取什么行动一样,实验设计试图通过做实验给出某些事情发生的原因。为了能够在因果关系研究中信心饱满地做出推断,研究人员必须妥善处理一个或多个独立的变量,并有效控制其他的变量。如果处于试验环境下的测试组的表现大大优于照相,决策制定者就应该立即推广这种实验环境。

    优化是规范性分析采用的一种方法,指试图识别出一个特定变量和另一个变量之间理想的关系水平。例如,我们可以能会对识别最有可能让产品实现高收益的价格感兴趣。同样地,优化这种方法能够识别出使了零售企业最大限制避免缺货情况的库存水平。

    根据分析采用的方法以及收集和分析的数据类型,我们可以将分析分为定性分析(qualitative analysis)和定量分析(quantitative analysis)。定性分析的目的是深入了解某种现象的根本原因和诱因。非结构化数据通常是从少数非代表性案例中收集而来,并进行了非统计性分析。定量分析是分析的最初阶段,他通常是探索性分析的有效工具,定量分析是指通过统计、数学或者计算的方式对现象进行系统的实证研究。通常情况下,结构化数据是从大量典型案例中收集而来,并进行统计分析。

    为了服务于研究者的不同研究目的,存在以下几种类型的分析:

    *统计学:收集、整理、分析、说明和呈现数据的学科;

    *预测:根据已有数据,预测一下一些感兴趣的变量在未来某个特定的时间点的情况;

    *数据挖掘:通常使用算法和统计技术,自动或半自动地提取大量数据中未知的有趣模式;

    *文字挖掘:用类似数据挖掘的方式从文本中得模式和趋势的过程;

    *优化:在同时满足约束条件的情况下,按照某些标准利用数学方法来寻找最优的解决方案;

    *实验设计:给各组随机分配被试。然后使用测试组和对照组来推导出特定结果中存在的因果关系。

    虽然此处给出了一些列常用的分析方法,但在使用过程中会不可避免地出现相当大的重叠。例如,回归分析(regression analysis)是预测分析中最常用的方法,与此同时,他也是统计学、预测和数据挖掘中常用的方法。此外,时间序列分析(time seties analysis)是用于分析数据随时间变化的一种具体统计方法、在统计学和预测中经常被用到。

数据分析数据预测

在线咨询

在线咨询

QQ咨询

QQ在线咨询

电话沟通

400-660-5555

微信咨询

扫一扫添加
动力姐姐微信

qr

TOP