网站性能检测评分
注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。
学会看数据分析
菜鸟数据分析师对数据可视化的理解—完整篇 推广视频课程
本人新人一枚,是个菜鸟数据分析师,统计学专业,接触数据分析大概有半年,在这里稍微写一下自己对可视化的拙见,大牛们看了不对地方还望指正;刚刚工作不久就谈对可视化的理解确实是有些过了,个人因为也看不了不少可视化的手册或者书,例如:数据可视化之美,R语言可视化手册,数据可视化设计指南等,因为工作本来没什么机会写博客总结,借着天善这个社区写写总结,让自己进步,废话不多说;
什么是数据可视化?在我看来,数据可视化就是用图表的形式展示数据的信息;让展示的东西有视觉冲突,让人能出图表中一目了然看出你想要表达的信息;这里很关键一点就是,你想要展示数据的什么信息,很多人为了盲目的追求可视化的一些酷炫效果,得到的东西却不知道表达的是什么,那么这个可视化是失败的;当然可视化也要简洁,简单明了才是可视化的目标所在,毕竟做数据可视化是帮助人们去理解数据,认识数据,从多个侧面去观察数据,并告知告知别人你想表达的数据中的信息;
这工作半年下来,我用了不少可视化的一些软件或者编程语言,一开始我最早接触的是大家基本都能听过的EXCEL,功能特别强大,用它都可以做数据分析,然而原谅我没有把它学好,EXCEL它其实可以做很多的事情,简单方便的生成各种你需要的图表,虽然颜色上不是那么让人喜欢,要是有耐心可以慢慢的调,加一下后期制作或者渲染;然后就是TABLEAU,这个软件确实是强大,能够连接多种数据,拖拽式的操作,可以自动的帮你生成图表,界面简洁易操作,要全放开版的收费,作为刚刚工作的小白只能用它的免费版的,不过限制挺多的;接下来就是R语言了,这是一个开源的统计语言,在数据分析方面和可视化方面都无比强大,第一次用上了GGPLOT2这个包我便开始喜欢上了这个编程语言,这个包的构图思想是图层思想,一个图层一个图层去操作,特别的灵活,我正在学习R语言,希望在今年能稍微精通一下;下面说一下自己对各种图形或者可视化的理解
柱状图
柱状图确实是一个很强大的图形,为什么说它强大呢?因为个人看,柱状图在展示的数据类型上可以选择非连续的数据数据类型和连续的数据类型,又有常用的柱状图和侧面柱状图,还可以用来折叠去展示数据;当我们的去展示非连续的数据类型的时候我们大部分都是用柱状图去展示这类的数据分布,大概能看出这个数据分布情况,又可以用来比较不同数据的整体与部分的关系;在展示连续的数据类型的大部分是用来展示这类数据的时间趋势。或者数据的分布。在设计上我个人认为柱状在设计的时候底层的便签最好不要太长和斜着或者90度垂直于坐标轴,因为这样为方便别人去阅读你的图表,毕竟可视化是方便别人去解读你的数据,能简单易懂就是最好不过了,在各个的柱形下的柱子的间距多少为妙呢?其实个人人为不宜过宽也不宜近,长度大概在柱状的宽度的一半左右为佳,在颜色上的设计,我比较偏向于柱形图用一种颜色,如果要想展示数据突出的部分,我们只需要将颜色加深,这也是为了阅读的简洁性,如果一张柱形图的颜色五花八门,那么所表达的效果是特别糟糕的。对于数据的排序,如果没有某种特殊的要求,我们最好给数据排下序,当然,如果展示的时间趋势的话就没法排序了。
饼图
饼图大部分得的时候是展示部分和总体的关系,不过饼图有个缺点就是,当部分特别繁多的时候就不能用来展示了,因为界面效果会特别差;常用的两种方式是饼状和环状两种。饼状的直接展示各个部分于总体的关系,而环状的保留饼状的样式,中间部分可以展示突出的数据。饼图在一般的展示情况大多数人为了展示一个百分比这个数不管有多少个部分都是去用饼图,然而饼图一般用情况下部分五六个为佳,当多个部分的时候,很多数据没法展示出来,也就是掩盖了部分的信息,有时候我们需要对比两个总体的结构,大部分人都会选择去用两个饼图去比较,然后这个效果不太好,所以一般要比较结构的差异的话最好不要使用多个饼图去展示,最好使用堆叠柱状图去比较两个总体的差异,还有展示的时候部分最好经过大到小的排序。
折线图
折现图大部分情况下都是去展示连续的数据类型,常用是时间趋势,它可以很好的展示趋势,累积,减少以及变化;在设计上,纵坐标最好是能从0开始,因为这样避免有些地方让人误读,展示线条上我们最好能够选择实心的线条,不要用虚线或者点去表示线,这样情况下看着看着容易分析,一张折现图的线三四条为佳,过多的线只会让观察某条线的时候看错了,如果要展示多条,可以在下一张图上去展示,如果你要展示的数据是多个部分的话,这些部分的数据最好能有一个共同趋势,不然有升又降趋势让人看不知所措。还有一个细节的地方,就是加图例的时候最好折线末尾那时候加,对应的折线加对应的图例,方便人读懂你的折线。
散点图
散点图做研究的时候用的比较多,因为散点图大部分情况是用来探究两个部分的关系的时候用的,就先做相关分析的时候要用散点图观察一下是否有相关关系;设计上改注意的和上面的图一样,纵坐标最好能从0开始,当想要展示多种关系的话的,我们可以利用点的大小和颜色去探究,在有某种趋势关系下我们最好加个辅助的线,方便别人看出相关性;
气泡图
气泡图有点类似于加了大小的散点图,气泡图还可以在展示地域数据的可视化,在设计上我们需要注意的是,气泡的尺寸我们需要去注意,例如我们在展示数据的大小比例最好面积的比例一样,不要用半径,如果用半径的话就是1:4了,大小差异就过大了,气泡的形状上最好使用老老实实的圆最好,不要用一些奇怪的图像。
热点地图
怎么说呢,我觉得热点地图的展示是很考验人的技能,第一个热点地图要展示的数据与地域关系差异较大类型的数据才能体现出它的价值,也就是说有背景故事或者价值去让我们发现的数据,热点地图主要是通过强烈的色彩对比去体现数据的差异,有个缺点就是没法很具体的表达数据之间差距而不是差异。在设计上,我推荐色彩最好是一种色调,通过颜色的深浅去反映数据的强度,如果色彩过于繁多,对于读者来说读这张图是个负担,也无法体现出数据之间的差异,轮廓最好简单即可,毕竟简约美嘛,上色的时候会有一个叫色阶的东西,这时候什么数据范围位于哪个色阶最好分清楚,最好能体现出差异,不要全部都是一个色阶,不然热点地图就是去了它的意义了。
上面说的是对于图表的理解,下面说下对常用的展示方式的一些理解;
尺寸:就是用柱形的长短,饼图的大小这类去展示,这可能是我们大家最为常用的一种方式去展示数据,当展示两个对象的数据的时候,我们可以通过尺寸马上的发现了两个对象之间的差异,在展示的精准读上也有些不同,个人人为点的精度大于线条大于面的精度。
色彩:色彩是用来展示大数据的非常好的方式,因为大数据之间会有不少的差异,颜色恰恰是展示这些差异最好的方式,毕竟我们人天生对色差明感,在色阶的选取上我觉得最好能够有明显的差异。
位置:差不多就是我们所说的地图了,这是基于位置的可视化方式,一般我们都用于展示于位置较强关系的数据类型
网络:这个展示数据点之间的关系,例如就像社交网络,就是用这样的展示去表达人与人之间的相关关系。
时间:展示趋势用的最多,主要是想了解对象的发展和变化规律,让我们了解对象整个发展脉络。
那么成功的可视化是怎么样子的呢?
借用《数据可视化之美》的话来说,成功的可视化总共有四点,第一点是新颖,大家都知道,数据可视化就是了简单明了的了解数据,不过你用一个全新的角度去诠释你的数据,让读者读懂了你的信息又能从更高的角度去解读这些信息;第二点信息要充实,充实不代表越多越好,因为一个图表展示的信息过多,会让读者成为一种累赘,很难读懂你的想法,充实的信息就表明你的图表能够能到他们想要的信息又不造成信息过多的情况,所以我们就要考虑业务应用场景了,什么样的场景需要用那些信息结合那些是多余的需要去判断,第三点高效,也就是我们所说的简单明了,一眼就能知道数据中的信息,所以我们在可视化过程中一定要把一些也主题不相关的因素排除掉,过多不相关的因素存在只会增加读者的阅读时间和难度;第四点美感,图片的布局,色彩,形状等一系列的组成部分都是相当和谐的。
那么我们如何设计成功的可视化图表呢?
首先学习这个步骤肯定是少不了的,怎么去学习,当然是去学习一些经典的可视化图片,学习它是如何去构造这张图的,色彩为何要这样的去运用等,还要学习一些可视化的语言或者软件,例如像R语言,它的有强大的包,ggplot2,newwordk,ggmaps(地图)等之类强大的包可以去学习,不然你会设计也不会操作那也是空有一身力气,然后理解数据意义和你想要表达的信息,然后遵从图表的一些设计规范,在规范的基础在进行一些自己的想法。
参考文献:
《数据可视化之美》
《数据可视化设计指南:图表设计》
本文作者:天善智能社区 夏尔康,通晓各种统计学习方法,熟练使用R语言建模,结合帅气与才智的不明吃瓜群众。
为什么要学数据分析? 流量视频课程
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
为什么要学数据分析?
从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。
如何学习数据分析?
数据分析作为一门交叉学科,你需要有一定的数学功底,特别是统计学相关的知识,比如什么是中值、均值、众值,求和、求方差、阶乘等常用计算公式,而对于进阶数据分析师来说,需要了解统计模型算法、线性代数等知识,另外你需要掌握一些常见的数据分析工具,比如 Excel、SPSS,关于数据库知识,你需要懂基本的SQL查询语句,掌握一门编程语言有时候可以让你的分析更加高效,你可以选择 Python 或者 R 语言。Python社区则提供了丰富的第三方数据分析工具包,Pandas、Numpy、Matplotlib。
六步教你学会数据分析(一) 互联网视频课程
数据分析过程主要包括6个既相互独立有互有联系的阶段。它们是:明确分析目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写等6步。
数据分析六部曲
今天我们讲第一步:明确分析目的和思路。
一、明确分析目的和思路
明确分析目的:
菜鸟和数据分析师的区别是什么呢?
菜鸟和数据分析师的区别
其实他们的主要区别就在于目标是否明确,如果目标明确,所有的问题自然就迎刃而解了。所以在开展数据分析之前,要想想:为什么要开展数据分析?通过这次数据分析我要解决什么问题?只有明确数据分析的目标,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途,后果严重。
确定分析思路:
当分析目的明确后,我们就要梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。
只有明确了分析目的,分析框架才能跟着确定下来,最后还要确保分析框架的体系化,使分析结果具有说服力。
分析体系化怎么理解呢?
体系化就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。这也是很多人常常困扰的问题,比如经常不知道从哪方面入手,分析的内容和指标常常被质疑是否合理、完整,而自己也说不出个所以然,所以体系化就是为了让你的分析框架具有说服力。
如何使分析框架体系化呢?
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及准确性。
营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。这些都是经典的营销、管理方面的理论,需要在工作中不断实践应用,才能体会其强大作用。如:以PEST分析理论为知道,搭建的互联网行业PEST分析框架,故而使数据分析变得有血有肉有脉络,真正做到理论知道实践。
互联网行业分析
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理及分析提供清晰的指引方向。
所以,
在做数据分析之前,先想想到底为什么要做数据分析,明确数据分析方向,才能保证不迷失在数据的丛林里。
(读书笔记:狄松)
为什么要学数据分析? 公司视频课程
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
为什么要学数据分析?
从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。
如何学习数据分析?
数据分析作为一门交叉学科,你需要有一定的数学功底,特别是统计学相关的知识,比如什么是中值、均值、众值,求和、求方差、阶乘等常用计算公式,而对于进阶数据分析师来说,需要了解统计模型算法、线性代数等知识,另外你需要掌握一些常见的数据分析工具,比如 Excel、SPSS,关于数据库知识,你需要懂基本的SQL查询语句,掌握一门编程语言有时候可以让你的分析更加高效,你可以选择 Python 或者 R 语言。Python社区则提供了丰富的第三方数据分析工具包,Pandas、Numpy、Matplotlib。