> >

?

Top30数据分析师常见面试题（附答案）!

乐巧

展开

【IT168 评论】这是一个用数据说话的时代，也是一个依靠数据竞争的时代。各大互联网公司都在不断完善自己的数据分析团队，数据分析师的薪酬也是水涨船高。业内人士透露，应届毕业生的平均薪资大概在6K左右，1至3年经验的大概在10K到20K之间，5至10年经验的大概在25K以上。薪资还是十分诱人的，那么，如何快速成长为一名年薪百万的数据分析师呢?快来看看，以下30道数据分析相关面试题，你会多少?
1、分析数据还要写java代码是不是效率有点低?
2、成为一名数据分析师需要具备哪些技能?
要成为一名数据分析师，需要掌握丰富的报告软件包(Business Objects)，编程语言(XML，Javascript或ETL框架)，数据库(SQL，SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计，数据模型，数据挖掘等方面的技术知识以及分析大型数据集(SAS，Excel，SPSS等)的统计软件包知识。
3、分析项目的各个步骤是什么?
分析项目的各个步骤包括：
·问题定义
·数据挖掘
数据准备
模型化
数据认证
实施跟踪
4、分析的结果数据特别大，在线请求这些结果数据扛不住了，咋搞?
5、列出数据清理的最佳实践?
一些数据清理的最佳实践包括：
按不同的属性排序数据
对于大数据集，逐步清理并改进数据，直到获得良好的数据质量
对大型数据集，可以先将其分解为小数据集，使用更少的数据将增加迭代速度
要处理常见的清理任务，请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值，或者正则表达式搜索和替换，消除所有不匹配正则表达式的值
如果在数据清理方面存在问题，请按照估计的频率进行安排并解决问题
分析每列的汇总统计数据(标准差，均值，缺失值的数量)
保持对每一个清理操作的跟踪，以便可以根据需要更改或删除操作
6、海量日志数据，提取出某日访问百度次数最多的那个IP。
7、可用于数据分析的一些最佳工具清单有什么?
Tableau
RapidMiner
OpenRefine
KNIME
Google Search Operators
Solver
NodeXL
io
Wolfram Alpha’s
Google Fusion tables
8、数据挖掘和数据分析之间的区别是什么?
数据挖掘和数据分析之间的区别在于：
数据分析：针对个别属性的实例分析。提供有关属性的各种信息，如值范围，离散值及其频率，空值的发生，数据类型，长度等。
数据挖掘：重点关注聚类分析，异常记录检测，依赖关系，序列发现，多个属性之间的关系控制等。
9、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
10、用于处理分布式计算环境中应用程序大数据集的Apache框架有哪些?
Hadoop和MapReduce是由Apache开发的用于处理分布式计算环境中应用程序大数据集的编程框架。
11、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在40亿个数当中?
12、解释KNN插补方法是什么?
在KNN插补中，通过使用与其值缺失的属性最相似的属性值来推断缺少的属性值。通过使用距离函数，确定两个属性的相似度。
13、数据分析师使用的数据验证方法是什么?
通常，数据分析师用于数据验证的方法是数据筛选和数据验证。
14、解释应该如何处理可疑或缺失数据?
准备提供所有可疑数据信息的验证报告。它应该提供信息，如失败的验证标准以及发生的日期和时间
有经验的数据分析师应该检查可疑数据以确定其可接受性
应该找出无效数据并用验证码替换
对缺失数据进行处理，使用最佳分析策略，如删除，单一插补方法，基于模型的方法等。
15、如何避免过拟合?
过拟合表现在训练数据上的误差非常小，而在测试数据上误差反而增大。其原因一般是模型过于复杂，过分得去拟合数据的噪声和outliers。常见的解决办法是正则化：增大数据集，正则化
16、解释异常值是什么?
异常值是分析师使用的一个术语，指的是一个远远超出样本总体模式的值。有两种类型的异常值：
Univariate
Multivariate
17、解释分层聚类算法是什么?
分层聚类算法结合并划分现有的组，创建分层结构并展示组划分或合并的顺序。
18、解释K均值算法是什么?
K均值是一种著名的分区方法。对象被分类为属于K个组中的一个，k是先验选择的。
在K均值算法中：
簇是球形的：簇中的数据点以该簇为中心
簇的方差/扩展是相似的：每个数据点属于最接近的簇
19、数据分析师所需掌握的关键技能是什么?
数据科学家必须具备以下技能：
数据库知识
数据库管理
数据混合
数据查询
数据操作
预测分析
基本描述性统计
预测建模
高级分析
大数据知识
大数据分析
非结构化数据分析
机器学习
演示技巧
数据可视化
报告设计
20、解释协同过滤是什么?
协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组件是用户对项目的兴趣。
协同过滤一个很好的例子就是购物网站上出现的类似“为您推荐”的模块，该模块通常会获取用户的浏览记录信息，以弹出用户可能喜欢或需要的商品。
21、大数据中通常会使用到哪些工具?
大数据中使用的工具包括：
Hadoop
Hive
Pig
Flume
Mahout
Sqoop
22、解释什么是KPI，实验设计和80/20规则?
关键绩效指标(KPI)：它代表关键绩效指标(Key Performance Indicator)，它是关于业务流程的报告或图表
实验设计：这是用于分解数据，采样和建立数据以进行统计分析的初始过程
80/20规则：这意味着你收入的80%来自客户的20%
23、解释Map Reduce是什么?
Map-Reduce是一个处理大型数据集的框架，可以将它们分解成子集，在不同的服务器上处理每个子集，然后混合每个子集上获得的结果。
24、解释聚类是什么?聚类算法的属性?
聚类是一种应用于数据的分类方法。聚类算法将数据集划分为自然组或集群。
聚类算法的属性是：
Hierarchical or flat
Iterative
Hard and soft
Disjunctive
25、对数据分析师有用的统计方法是什么?
对数据科学家有用的统计方法是
贝叶斯方法
马尔科夫过程
空间和集群进程
统计数据，百分位数，异常值检测
计算技巧等
简单的算法
数学优化
26、时间序列分析是什么?
时间序列分析可以在频域和时域两个域中完成。在时间序列分析中，可以通过指数平滑，对数线性回归等各种方法分析数据，来预测特定过程输出。
27、解释空间自相关分析是什么?
空间自相关分析是地理空间分析的常用形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时，它可以用于构建基于距离的数据相关图。
28、散列表是什么?散列表冲突是什么?如何避免?
在计算中，哈希表(散列表)是键值对的映射，这是一个用于实现关联数组的数据结构。它使用散列函数来计算一个时隙阵列的索引，从中可以获取所需的值。
当两个不同的键散列到相同的值时，发生散列表冲突。两个数据不能存储在阵列的同一个插槽中。
为了避免散列表碰撞，有很多技巧，这里列出两个：
分离链接：它使用数据结构来存储散列到同一个插槽的多个项目。
再探测：在找到查找位置的index的index-1，index+1位置查找，index-2，index+2查找，依次类推。这种方法称为线性再探测。
29、解释 imputation是什么?列出不同类型的插补技术?哪种插补方法更有利?
在插补过程中，我们用替代值替换丢失的数据。插补技术涉及的类型有：
单一插补
热点插补：从随机选择的类似记录中推断缺失值
冷却板插补：与热点插补相同，但更先进，从其他数据集中选择供体
平均估算：在所有其他情况下，用该变量的平均值代替缺失值
回归插补：用基于其他变量的变量预测值替换缺失值
随机回归：与回归插补一样，但它将平均回归方差加入到回归估计中
多重插补：与单个插补不同，多重插补会多次估计值
虽然单一插补法被广泛使用，但并不能反映随机丢失数据所造成的不确定性。因此，在数据丢失的情况下，多重插补更有利。
30、解释N-gram是什么?
N-gram是来自给定序列文本或语音的n个项目的连续序列。这是一种以(n-1)形式预测下一个项目的概率语言模型。
?

怎样把复杂的数据变简单？用R语言做主成分分析呗

凌以冬

展开

作者：麦子
当我们做完基因、RNA等芯片之后通常会拿到一组特别恐怖的数据，几百个基因几×几十个样本，这时候我想看这些基因的表达差异是否影响到样本的分布。可是有这么多基因，它们各自肯定都有影响，一个个看是不是很不现实。
比如这个样子，甲基化芯片检测了416个位点的甲基化程度，看不同样本间是否有差异。一共132个样本，分两组。
这当然只展示了一很小的部分。
每个样本由416个位点来描述，也就是416个变量，或叫416个维度。咱们生活的空间是3维的啊，如果要精确描述这132个样本的位置，就是建一个416维的空间把它们定位，这是很不现实的。所以要对它进行降维处理之后再观察。
主成分分析（PCA）就是常用的一种降维方法，提取出这么多变量中对样本影响最大的成分。但它不是挑选出某几个变量，而是根据它们的方差贡献，经过线性变换，得到新的变量，即“主成分”。
但再仔细观察，你会发现这表格的坑相当多，从代测公司拿回来就这样。我拉开展示变量名称的那几列，都只是在用不同的参数描述一个样本！
小数点前面是样本编号；小数点后面的Signal A是非甲基化等位基因密度（U），Signal B是甲基化等位基因密度（M），Beta值即甲基化水平值，Beta = M / (M+U+100)，而Intensity就是Signal A + Signal B。
况且，它这样样本为行甲基化位点为列，做出来的PCA其实反应的是样本对不同位点甲基化水平的影响，这跟我们的研究目的是相反的，所以要把它倒过来。
你再仔细找找说不定还有缺失值，也有可能等你做了一半才发现，这都是惨淡的现实。
你已经能想到处理它要有多头痛了。不仅要提取每个样本的beta值那一列，还要把它的行和列翻转过来^0.0^我知道大家毕竟医学出身，对R语言代码有点怵，但如果表格简单一点、规模小一点，用SPSS也可以简单完成，但面对如此严酷的事实，咱们还是硬着头皮敲代码吧。其实做下来也不是那么难。
数据预处理
先检查一下缺失值，还都是beta值（唉我是做到一半才发现的，不得不倒回来处理）。在Excel中打开表格，全选，Ctrl+G，在弹出的对话框中点定位条件，查找空值：
确定之后会自动选中缺失值的单元格，我们随便填个颜色标注出来。处理缺失值的一般方法，可以删除那个样本，或者以均值或中值填充。但既然在本案例中我们知道它的含义，而且有条件算出来，那我还是计算一下吧。
找到一个填了颜色的空值，在其中按Excel格式输入公式，使其符合beta值的计算方法，比如D82的空值就应该输入“=F82/（E82+F82+100）”，然后选中该单元格并Ctrl+C，保持它被选中有虚线围绕的状态。
然后再做一次找空值的操作，这回可以全选表格来查找，也可以只选中有数据的表格（因为后面有几列是跟PCA无关的内容）。找到空值之后Ctrl+V，就把刚才的公式填上了。这样就可以导入RStudio。
下面，书写的格式，就按R中的习惯吧，“##”后面的文字是大步骤，“#”后面的文字是对上一行代码的注释
## 准备工作环境
rm(list = ls)
# 把工作空间先清理干净
setwd("D:/PCA")
# 设置工作目录
library(pca3d)
library(rgl)
library(readxl)
# 载入以上这些R包。如果你还没安装，就先用install.packages(‘包的名称’)装上，再运行library。装包的时候好像要翻墙，其他时候不用。
Raw<- read_excel("Raw.xlsx", sheet = "Tissues")
#用read_excel函数读取原Excel文件，并把它命名为Raw。其实也可以从菜单“File→Import Dataset→From Excel”导入，反正也是调用这个函数。随意啦。
这样就可以在Environment选项卡中看到这个超大的表格。以后操作过程中可以随时观察这个选项卡中添加了哪些元素。
## 提取所需数据
num<- seq(from = 4, to = 663, by = 5)
# 定义我们需要的大表格中列的编号。回去观察那个大表，第一个样本的beta值在第4列，所有芯片数据的最后一列是第663列，是个Intensity，from和to就是选定这个范围。我们需要的是beta值，每隔5列出现一个，所以by=5。同理，如果我们需要的是single_A，那么from=5。
Data<- Raw[,num]
# 把从大表格中提取出来的小表格命名为Data。后面的[,num]就是刚才挑选的列号了。
DataRev<- t(Data)
# 把小表格的行和列翻转过来，形成一个新的表，命名为DataRev。可以在Environment中可以点击各表查看效果。
Group<- c(rep('Ca',66), rep('NA',66))
# 因为患者的个体编号和分组编号混起来了，所以我们要另外添加一列Group，表示分组。这是定义Group的内容，66个Ca（癌组织）和66个NA（癌旁组织）。
DataRevG<- data.frame(DataRev, Group = Group)
# 把上面的Group添加到DataRev表中，形成的新表命名为DataRevG。
到这里，准备工作才做完。
PCA运算及绘图
## 主成分分析
DataRevG_sub<- subset(DataRevG, select = -Group)
# 因为PCA是不需要Group那列的，那是为将来绘图准备的，所以要建一个子表，把那列减去，命名为新表，原名加上后缀_sub。
DataRevG.pca<- prcomp(DataRevG_sub, scale. = TRUE)
#用prcomp函数对那个子表做分析，并把结果拎出来，命名为DataRevG.pca的一个大集合。
Pca.sum<- summary(DataRevG.pca)
#对PCA结果做描述性分析，命名为pca.sum。可以从这里查看分析的各项结果。
Importance<- data.frame(Pca.sum$importance)
# 提取pca.sum中的Importance，独立出来成为一个叫Importance的新数据框，它展示的是主成分的重要度。其实不提取也可以，但提出来是为了方便观察。点开它可以看到，它分为标准差、方差贡献率、累积贡献率三行。我们主要看累积贡献率。
PC1是第一个主成分（Principal Component），它的贡献率是30.51%，PC2贡献了8.95%，两者累积39.46%，依此累推。这就决定我们选取几个主成分来观察样本。一般来说，选取累积贡献率达到80%-90%的前几个，有时候2个就满足了，可以做个二维图，不行就三维。
但本例中有点意外，前3个PC贡献率并没有那么高，说明影响较大的主成分比较多。这时可以画个碎石图来观察主成分的分布规律。
screeplot(DataRevG.pca, type = 'line', lwd = 2)
# 画碎石图，type就是碎石图的类型，lwd是线宽。
这样看来，第三个主成分之后，方差贡献趋于平缓，那我们还是选取前三个来作图分析。
## 作图
open3d
# 打开3D图形窗口。
par3d(windowRect = c(100, 100, 612, 612))
# 重设窗口大小。
pca3d(DataRevG.pca, components = 1:3, group = DataRevG$Group, col = c('Ca' = 'light blue', 'NA' = 'yellow'), show.axes = T, show.axe.titles = F, shape = 'sphere', show.plane = F)
# 画散点图。Componets选第1-3个，group则按DataRevG中的Group这一列来分，col是分别给每组的样本选个颜色，show.axes是显示坐标轴，T是指True，即显示，后面的是坐标轴名，F自然就是False不显示了。这些都可根据自己的喜好设置，更详细的参数可以在RStudio的Help中搜索函数名pca3d来查看。
axes3d(edges = 'bbox', labels = T, box = F)
# 给图加个带坐标的边框。
legend3d("topright", legend = c('Ca','NA'), col = c('light blue','yellow'), pch = 16, cex = 1, inset = c(0.02))
# 加上图例。注意颜色和组名的顺序要跟上面作图时一致。
好了，终于可以看效果了：
在这个小窗口里，3D图是可以旋转的。找到个好角度，就可以截图下来了。截图，当然不是用日常工具了~用下面这个函数，截成期刊需要的格式：
rgl.postscript('Example.eps', fmt = 'eps', drawText = T)
# 这是截成eps格式。另外也支持ps、tex、pdf、svg、pgf这些优质图片的格式。就是截出来的矢量图文件有点大。
就这样做好了。
?

使用R计算方差与标准差

梦臆

展开

概述
描述样本值的离散程度，最常用的指标是方差和标准差，它们与前面所说的全距（极差）只使用了两个极值情况不同，它们利用了样本的全部信息去描述数据取值的分散性。
计算方差的公式
方差是各样本相对均值的偏差平方和的平均。使用s2来表示，其公式如下：
计算方差的公式
当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。
计算标准差的公式
样本方差的开方称为样本标准差，记为s，其计算公式如下：
计算标准差的公式
标准差越大，数据的离散程度越大，反之越小。但标准差与方差不同的地方是，标准差是有量纲的，它与变量值的计量单位相同，因此具有较强的实际意义，在实际应用较广泛。
R中计算方差与标准差
在R中使用var函数和sd函数分别计算方差和标准差。
var函数的语法形式如下：
var(x, y = NULL, na.rm = FALSE, use)
参数x是一个数值型向量，矩阵或数据框；
参数y是与x维度相容的一个向量、矩阵或数据框，默认为NULL值；
na.rm为逻辑值，指示是否移除缺失值，默认为FALSE；
use是一个可选参数，是一个字符型字符串。用于指明在有缺失值时计算协方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.orplete", or "pairwiseplete.obs"中值之一。
sd函数的语法形式如下：
sd(x, na.rm = FALSE)
各参数的含义与var函数对应的参数相同，但是x是一个数值型向量。
下面使用一个例子来说明具体使用方法。
设从某班某门课程中随机抽取了20个学生的成绩，具体如下：
51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.
计算其方差和标准差。
编写R程序如下：
grade<- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)ss <- var(grade)s <- sd(grade)print(ss)print(s)
计算结果如下图所示：
R中计算方差与标准差的结果
即方差为：222.87，标准差为：14.93
如果你喜欢这篇文章，请关注我。我会定期更新有关R语言、Python、SPSS、Excel等数据分析方面的文章。让我们共同学习和进步。
?

函数 | Excel中的孤独隐者

嗜血

展开

北风凌冽，旌旗飘飘……
伴随着一声哭啼，一名男婴降临人世间，让焦虑不安的氛围瞬间化为喜悦。然而在大金的占领区，却未能享受着和平和安宁。
自此，他开始了抗金归宋之路，一路金戈铁马，披荆斩棘，先后任江西安抚使、福建安抚使等职。但因与主和派政见不合，后被弹劾落职，退隐山居。
于是写下了
白发空垂三千丈，一笑人间万事
问何物，能令公喜
我见青山多妩媚，料青山见我应如是
情与貌
略相似
他就是 -辛弃疾
一生以恢复为志，以功业自许，却命运多舛、备受排挤、壮志难酬。
一位孤独的隐者
然而在Excel领域，也同样有着这么一位孤独隐者，其功能强大，但却鲜为人知。它就是今天的主题SUBTOTAL
谈到求和，你知道用SUM
谈到计数，你知道用COUNT 或COUNTA
谈到平均，你知道用AVERAGE
谈到最值，你知道用MAX 或MIN
谈到方差，你知道用VAR
谈到标准差，你知道用STDEV
……
但是，SUBTOTAL却可以全部搞定，一点都不含糊，其战斗力指数可想而知，是何其的强大。
同时，它还兼顾着统计中的数据，是否隐藏的问题。
比如看下面的例子，采用传统的方式，对销售额进行求和加总和平均，但是数据一旦涉及到隐藏或者筛选，就该傻眼了。
此时就该SUBTOTAL 登场，其效果如下
求和公式：=SUBTOTAL(109,D2:D13)
平均公式：=SUBTOTAL(101,D3:D14)
从公式来看，发现只是SUBTOTAL里面第1个参数在改变，所以要会用这个函数，就必须知道第1个参数代表什么意思，当然，你也不需要记，因为在输入公式的时候会提示，不过为了便于全面了解，现整理如下：
说明：针对SUBTOTAL，它是一个全能函数，所以你要求和的话，只需要输入对应的代码就可以了，比如这里是9或者109，区别在于，如果是9的话，其结果和sum一样，即使隐藏了筛选了，都依旧统计。但是109的话，却可以忽略隐藏值，如上面例子展示。
再比如：一张数据表里面，涵盖了各部门的信息，但是要筛选后，逐个打印出来，但是此时的序号是个问题，如下：
序号随着筛选，出现了断层，不连贯，因为涉及到了隐藏行，故依旧还是要用SUBTOTAL进行处理。如下：
公式：=SUBTOTAL(103,$B$2:B2)
说明：103好理解，其效果等同于COUNTA（忽略隐藏值），$B$2:B2 是固定B2单元格，往下延展。关于$的用法，请看，[技巧 | 隐藏在Excel中的定海神针]
这样筛选的时候，新序号栏位，就会不断层
但是细心的你，发现了一个问题没？当你筛选销售2部的时候，最后一行，有一个销售4部乱入，所以还是有点问题，如何解决呢？
很简单，将公式调整一下：=SUBTOTAL(103,$B$2:B2)*1 结果乘以1，效果如下：
原因是官方在处理这个函数的时候，将最后一行作为了会总行，这里面原理就不在细说，知道如何处理即可。
再看一个比较常见的，要对有颜色标记的人员的销售额进行求和，基本看到这种问题很头疼，因为默认的sum求和并不对颜色进行处理，所以，看看下文：
通过SUBTOTAL配合筛选，解决了按照颜色求和的问题。
SUBTOTAL其强大的聚合多函数的功能，但却知之甚少，像一个孤独的隐者。
SO
胖斯基说：
我见青山多妩媚，料青山见我应如是！
也许你很强大，但无人可知。无妨！忍住孤独，守住寂寞，厚积薄发，总有那么一天，你会闪闪发光！
?

八年职场老手总结的22个Excel技巧，学会后薪资不翻倍都难！

叶仙儿

展开

你知道当我听到说还有刚毕业的大学生说自己不会用Excel 表格时候，我的表情是有多震惊吗！
前几天我在指导刚进公司的一位负责市场的实习生做数据统计时候，我眼看着他打开Excel 然后墨迹了半天无从下手，然后他很一脸无辜告诉我，自己忘了Excel 怎么用了。
我一脸纳闷，难道现在大学生都不学这些基础计算机办公软件操作了吗？？
实习生继续一脸无辜的告诉我，大一时候学过，但是三年没用过然后全忘了……
我服啦，那今天明叔就写篇如何教你用好Excel 的文章！就写给那些不长记性学过就忘的人，建议收藏。
Excel表格是一款无论是学生、白领、老师等等工作人员都会用到的办公软件。其实Excel中有很多方便快捷的功能，可以让你效率翻好几倍。
1.不同工作表之间的快速切换：
“Ctrl+PgDn”可以切换到右边的工作表
“Ctrl+PgUp”可以切换到左边的工作表
2.双击格式刷，可以把同一个格式“刷”给多个单元格。
3.快速应用函数：
当你设置好第一行单元格的函数，只需要把光标移动到单元格的右下角，当它变成一个小加号时，双击，公式就会被应用到这一列剩下的所有单元格里。
4.快速调整列宽
看下图，是否觉得单元格太宽了？
别急，纵向选中他们，将光标移至选中区域内的任一条纵向分割线上。
当光标十字形出现的样子时，双击；
大功告成！是不是宽度缩小了呢？！
5.快速增加或删除一列
按住“Ctrl+shift+ ’+’（加号）”就可以在选中的那一列左边再加一列，“Ctrl+shift+ ’-’（减号）”可以删除选中的那一列。
6.快速求和：
快速按下“Alt”和“=”，然后选中一列数字，就可以求出一列数字的和。
7.快速选定不连续的单元格
按下“shift+F8”激活“添加选定”模式，此时工作表状态栏会显示“添加到所选内容”字样，之后分别单击不连续的单元格或单元格区域，即可选定。
8.快速改变数字格式
“Ctrl+shift+4”可以将数字加上美元符号（$）
“Ctrl+shift+5”可以让数字变成百分比格式（%）
“Ctrl+shift+1”可以让小数点后面的数字变成两位数格式，如0.5变0.50
9.检查数字错误
“Ctrl+、”可以让数字背后的公式显示出来，一目了然；
10.Excel搜索框快速定位查找指定的内容
按Ctrl+ F打开搜索框，当你不确定搜索关键字的时候，可以试试通配符问号（?）和星号（*）。
通配符就是通过符号指代一些文本，Excel中的通配符很简单，只有问号（?）、星号（*）和转义符号（~）三个。
问号（?）表示任意单个字符。
星号（*）表示任意多个字符，比如要查找的内容是：“西门*”，可以查找到“西门梁子”、“西门卫子”、“西门庆子”等所有以“西门”开头的内容。
要查找问号和星号本身时，需要在前面加上转义符号（~），比如要查找星号（*），就要在搜索框中输入： ~*
11.SUBTOTAL函数
SUBTOTAL函数可谓是全能王，可以对数据进行求平均值、求和、最大最小、相乘、标准差、标准差、计数。
这里还有一些可能会用到的函数，不妨先收着！
1.Count函数：统计数字的个数
PS:大小不一的合并单元格填充公式，要使用Ctrl+Enter。
2.Counta函数：统计非空单元格个数
Countif函数：依据条件统计个数
Countifs函数：多条件统计个数
3.Frequency函数：统计数字区间的频率
4.Sumproduct函数：多条件计数求和
5.average函数：计算数据的平均数
averageif函数：依据条件计算平均值，比如，AVERAGEIF(A1：A10,”>0”)，返回的是A1到A10这十个数中，所有大于0的数的平均值。
6.Sum函数：对数据进行求和
7.Max函数：提取一组数中的最大值。比如：MAX(A1：A10)
8.Min函数：提取一组数中的最小值。比如：MIN(A1：A10)
9.Large函数：返回第N个最大值
10.Small函数：返回第N个最小值
11.Mode函数：返回一组数中出现最多的数字
很实用是吧，说的就你，赶紧上手试试吧！
?

身为SEMer的你，知道这些Excel函数吗？

天蓉

展开

不得不说，每一位SEMer想要让自己的工作更加的高效快捷，必须让自己成为多项工具的“使用说明书”。即使不能很详尽地将每个工具利用得纯熟透彻，但起码得懂、得会用。
SEMer需要掌握的工具很多，比如关键词拓词工具，比如创意生成工具，偏一点的还有Photoshop等，在数据分析中，又不得不说Excel是基础，是必须掌握，如果再会使用SASS等其他的数据分析工具，那也是给自己的加分项了。
那么，关于数据分析，世界上就应该分为两种数据分析师，一种是Excel数据分析师，一种是其他数据分析工具的数据分析师。
今天，小优就跟大家讲讲每位SEMer赖以生存的Excel到底有哪些函数。
一、源数据处理类
我们很多时候得到的数据并非拿来即用，需要进行加工处理，比如多了个空格字符？又比如不需要某个字符，该如何处理呢？
Trim:清除字符串两边的空格。
Concatenate:=Concatenate(单元格1，单元格2，单元格3…)，合并单元格中的内容，也可使用作为每个单元格连接符，如”我””是””SEMer”=我是SEMer。
Replace:=Replace(指定单元格字符串，从字符串什么位置开始替换，替换几个字符，替换成什么)，替换单元格制定的字符串。
SUBSTITUTE:和Replace同样属于替换字符函数，Substitute属于全局替换。
Len/Lenb:计算指定单元格字符串长度，两者区别在于，Len计算中文为一个，而LenB为两个。
FIND:=FIND(要查找的字符，指定查找字符串，从第几个字符开始)
二、匹配关联类型
越复杂的表格数据，此类函数用的越多，因为要讲究效率。
LOOKUP：=LOOKUP（要查找的值，值所在的位置，返回相应位置的值）
Vlookup：=VLOOKUP（要查找的值，查找的值所在的区域，区域中第几列，是否精确匹配）
INDEX：=INDEX（查找的区域，区域内的第几行，区域内的第几列）
OFFSET：=OFFSET（指定一个点，偏移行数，偏移列数，返回行数，返回列数）
三、运算逻辑类型函数
一个SEMer在做数据分析，逻辑运算肯定是免不了的。
IF：如果怎样，否则怎样，经典的函数。
AND：全部为真，则返回真，常用于多条件判断。
OR：一个为真，则返回真，常用于多条件判断。
四、统计计算类型
SUM：求和函数。
SUMPRODUCT：统计总和相关，如果有两列数据销量和单价，现在要求卖出增加，用sumproduct是最方便的。
MAX：返回区域最大值。
MIN：返回区域最小值。
RANK：=RANK(指定值，指定区域)，返回指定值在引用区域的排名，重复值排同一名。
AVERAGEA：返回平均值。
SUBSTOTAL：=SUBSTOTAL（引用区域，参数），将平均值、计数、最大最小、相乘、标准差、求和、方差等参数化。
INT/ROUND：=ROUND（3.1415926,2），返回3.14。
五、时间类
YEAR：返回日期中的年份。
MONTH：返回日期中的月份。
WEEKDAY：=WEEKDAY（指定时间，参数），返回指定时间为一周中的第几天，参数1则从星期天为第一天算起，参数2则从星期一为第一天算起。
WEEKNUM：=WEEKNUM（指定时间，参数），返回一年中的第几个星期。
DAY：返回日期中的日。
DATE：=DATE（年，月，日），等于将YAER（），MONTH（），DAY（）合并。
NOW：返回当前时间
TODAY：返回当前日期
DATEDIF：DATEDIF（开始日期，结束日期，参数），计算两日期的差，参数决定返回值是年或月。
小优总结：其实上面只归类了部分函数，仍然有些函数没有归类出来。接下来，我们将会为大家普及更多的EXCEL使用技巧，帮助各位SEMer在进行数据分析时更加高效快捷。
?

Excel 日常频率超高函数公式汇总，复制粘贴直接使用，拿走不谢！

惠一寡

展开

在我们的日常工作当中，如果涉及数据的处理，就离不开办公软件Excel的使用，而表格中的函数公式，可以让Excel更加强大，同时可以提高我们的工作效率，节省我们的时间。
常用公式：
1、查找重复内容公式:
=lF(COUNTIF(A:A,A2)>1,"重复")。
2、用出生年月来计算年龄公式:
=TRUNC((DAYS360(H6,"2009/8/30",FALSE))/360,0)。
3、从输人的18位身份证号的出生年月计算公式:
=CONCATENATE(MID(E2,7,4),"/",MID(E2,11,2),"/",MID(E2,13,2))。
4、从输人的身份证号码内让系统自动提取性别，可以输人以下公式:
=lF(LEN(C2)=15,IF(MOD(MID(C2,15,1),2)=1,"男","女"),IF(MOD(MID(C2,17,1),2)=1,"男","女"))公式内的C2”代表的是输人身份证号码的单元格。
常用计算：
1、求和:=SUM(K2:K56)
一对K2到K56这一区域进行求和;
2、平均数:=AVERAGE(K2:K56)
一对K2K56这一区域求平均数;
3、排名:=RANK(K2,K$2:K$56)
一对55名学生的成,绩进行排名;
4、等级:=lF(K2>=85,"优",IF(K2>=74,"良",IF(K2>=60,"及格","不及格")))
5、学期总评:=K2*0.3+M2*0.3+N2*0.4
一假设K列、M列和N列分别存放着学生的“平时总评"“期中期末”三项成绩;
6、最高分:=MAX(K2:K56)
一求K2到K56区域(55名学生)的最高分;
7、最低分:=MIN(K2:K56)
一求K2到K56区域(55名学生)的最低分;
8、分数段人数统计:
(1)=COUNTIF(K2:K56,"100")
一求K2到K56区域100分的人数;假设把结果存放于K57单元格;
(2)=COUNTIF(K2:K56,">=95")-K57
一求K2到K56区域95~99.5分的人数假设把结果存放于K58单元格
(3)=COUNTIF(K2:K56,">=90")-SUM(K57:K58)
一求K2到K56区域90~94.5分的人数;假设把结果存放于K59单元格;
(4)=COUNTIF(K2:K56,">=85")-SUM(K57:K59)
一求K2到K56区域85~89.5分的人数;假设把结果存放于K60单元格;
(5)=COUNTIF(K2:K56,">=70")-SUM(K57:K60)
一求K2到K56区域70~84.5分的人数;假设把结果存放于K61单元格;
(6)=COUNTIF(K2:K56,">=60")-SUM(K57:K61)
一求K2到K56区域60~69.5分的人数;假设把结果存放于K62单元格;
(7)=COUNTIF(K2:K56,"<60")
一求K2到K56区域60分以下的人数;假设把结果存放于K63单元格;说明:COUNTIF函数也可计算某一区域男、女生人数。如:=COUNTIF(C2:C351,"男")一求C2到C351区域(共350人)男性人数;
9、优秀率:=SUM(K57:K60)/55*100
10、及格率:=SUM(K57:K62)/55*100
11、标准差:=STDEV(K2:K56)
一求K2到K56区域(55人)的成绩波动情况数值越小，说明该班学生间的成绩差异较小，反之，说明该班存在两极分化);
12、条件求和:=SUMIF(B2:B56,"男",K2:K56)
一假设B列存放学生的性别，K列存放学生的分数，则此函数返回的结果表示求该班男生的成绩之和;
13、多条件求和:1=SUM(IF(C3:C322="男",IF(G3:G322=1,1,)))
一假设C列(C3:C322区域)存放学生的性别，G列(G3:G322区域)存放学生所在班级代码(1、2、3、4、5),则此函数返回的结果表示求一班的男生人数;这是一个数组函数，输完后要按Ctrl+Shift+Enter组合键(产生“.....了“{}”不能手工输人，只能用组合键产生。
14、根据出生日期自动计算周岁:=TRUNC(DAYS360(D3,NOW0())/360,0)
一假设D列存放学生的出生日期,E列输人该函数后则产生该生的周岁。
问题：
问一：Excel中当某一单元格符合特定条件，如何在另一单元格显示特定的颜色
A1>1时，C1显示红色0
方法如下:
1.单元击C1单元格，点“格式”“条件格式”条件1设为:公式=A1=1
2.点“格式”>“字体”>“颜色”点击红色后点“确定”条件2设为:公式=AND(A1>0,A1<1)
3.点“格式”>“字体”>“颜色”点击绿色后点”确定”条件3设为:公式=A1<0
点“格式”>“字体”“颜色”点击黄色后点”确定”
4、三个条件设定好后，点“确定”即出。
问二：EXCEL中如何控制每列数据的长度并避免重复录人
1、用数据有效性定义数据长度
用鼠标选定你要输，人的数据范围，点"数据"->"有效性"->"设置","有效性条件”设成”允许111文本长度"等于""5"(具体条件可根据你的需要改变)。
还可以定义一些提示信息,出错警告信息和是否打开中文输入法等，定义好后点"确定”。
2、用条件格式避免重复
选定A列,点”格式"->"条件格式",将条件设成“公式=COUNTIF($A:$A,$A1)>1”点"格式"->"字体"->"颜色",选定红色后点两次"确定"。
这样设定好后你输人数据如果长度不对会有提示，如果数据重复字体将会变成红色。
问三：在EXCEL中如何把B列与A列不同之处标识出来?
1、如果是要求A、B两列的同一行数据相比较:
假定第一行为表头，单击A2单元格,点“格式”>“条件格式”将条件设为:
单元格数值”不等于"=B2
点“格式”>“字体颜色”，选中红色，点两次”确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。
2、如果是A列与B列整体比较(即相同数据不在同一行)
假定第一行为表头，单击A2单元格,点“格式”>“条件格式”将条件设为:
公式"COUNTIF($B:$B,$A2)=0
点“格式”“字体”“颜色”选中红色，点两次“确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。
按以上方法设置后，AB列均有的数据不着色,A列有B列无或者B列有A列无的数据标记为红色字体。
问四：EXCEL中怎样批量地处理按行排序
假定有大量的数据(数值),需要将每一-行按从大到小排序，如何操作?
由于按行排序与按列排序都是只能有一一个主关键字，主关键字相同时才能按次关键字排序。所以，这一问题不能用排序来解决。解决方法如下:
假定你的数据在A至E列,请在F1单元格输入公式:=LARGE($A1:$E1,COLUMN(A1))
用填充柄将公式向右向下复制到相应范围。
你原有数据将按行从大到小排序出现在F至J列。如有需要可用“选择性粘贴/数值”复制到其他地方。
注:第1步的公式可根据你的实际情况(数据范围)作相应的修改。如果要从小到大排序，公式改为:=SMALL($A1:$E1,COLUMN(A1))
问五：巧用函数组合进行多条件的计数统计
例:第一行为表头,A列是“姓名",B列是“班级",C列是“语文成绩",D列是“录取结果”,现在要统计“班级为“二”"“语文成绩”大于等于104,"录取结果”为“重本”的人数。统计结果存放在本工作表的其他列。公式如下:
=SUM(IF((B2:B9999="二")*(C2:C9999>=104)*(D2:D9999="重本"),1,0))
输入完公式后按Ctrl+Shift+Enter键，让它自动加上数组公式符号"{"。
问六：如何判断单元格里是否包含指定文本?
假定对A1单元格进行判断有无”指定文本"，以下任--公式均可:
=IF(COUNTIF(A1,"*"&"指定文本"&"*")=1,"有","无")=lF(ISERROR(FIND("指定文本",A1,1)),"无","有")
求某一区域内不重复的数据个数
例如求A1:A100范围内不重复数据的个数,某个数重复多次出现只算一个。有两种计算方法:一是利用数组公式:
=SUM(1/COUNTIF(A1:A100,A1:A100))
输人完公式后按Ctrl+Shift+Enter键,让它自动加上数组公式符号"{"。
二是利用乘积求和函数:
=SUMPRODUCT(1/COUNTIF(A1:A100,A1:A100))
问七：一个工作薄中有许多工作表如何快速整理出-一个目录工作表
1.用宏3.0取出各工作表的名称，方法:
Ctrl+F3出现自定义名称对话框,取名为X,在“引用位置框中输入:
=MID(GET.WORKBOOK(1),FIND("]",GET.WORKBOOK(1))+1,100)确定
2、用HYPERLINK函数批量插入连接，方法:
在目录工作表(一般为第一个sheet)的A2单元格输人公式:
=HYPERLINK("#""&INDEX(X,ROW())&"!A1",INDEX(X,ROW())
将公式向下填充,直到出错为止，目录就生成了。
善于使用表格中的公式，能够让我们的工作事半功倍，极大的提高我们的工作效率，节约我们个人时间，表格中的函数功能非常强大，如果我们能够熟练的使用函数和嵌套函数的话，无论我们遇到什么样的数据处理问题，都可以使用表格来进行解决。
图片来源于网络，如有侵权，请联系删除。
?

这些Excel公式，简单却超实用！

Ora

展开

就业等位来【这些Excel公式，简单却超实用！】①查找重复内容公式：=IF(COUNTIF(A:A,A2)>1,"重复","") ②求和：=SUM(K2:K56) ——对K2到K56这一区域进行求和 ③平均数：=AVERAGE(K2:K56) ——对K2 K56这一区域求平均数 ④排名： =RANK(K2，K$2:K$56) ——对55人的成绩进行排名。 @央视新闻：就业等位来【快转走！常用Excel公式都在这儿了！】求和、平均数、最大值、标准差……如何查找重复值；如何自动标出符合条件的数值……进阶版Excel超实用技巧。存好！有用！
版权声明：如涉及版权问题，请作者持权属证明与本网联系
来源：央视新闻
?

2018年最全的excel函数大全14—统计函数（9）

途往

展开

上次给大家分享了《2018年最全的excel函数大全14—统计函数（8）》，这次分享给大家统计函数（9）。
STDEVPA 函数
描述
根据作为参数（包括文字和逻辑值）给定的整个总体计算标准偏差。标准偏差可以测量值在平均值（中值）附近分布的范围大小。
用法
STDEVPA(value1, [value2], ...)
STDEVPA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。对应于总体的 1 到 255 个值。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
STDEVPA 假定其参数是整个总体。如果数据代表总体样本，则必须使用 STDEVA 计算标准偏差。对于规模很大的样本，STDEVA 和 STDEVPA 返回近似值。此处标准偏差的计算使用“n”方法。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 STDEVP 函数。STDEVPA 使用下面的公式：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
STEYX 函数
描述
返回通过线性回归法预测每个 x 的 y 值时所产生的标准误差。标准误差是在针对单独 x 预测 y 时的错误量的一个度量值。
用法
STEYX(known_y's, known_x's)
STEYX 函数用法具有下列参数：
Known_y's必需。因变量数据点数组或区域。Known_x's必需。自变量数据点数组或区域。
备注
参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果 known_y's 和 known_x's 的数据点个数不同，函数 STEYX 返回错误值 #N/A。如果 known_y's 和 known_x's 为空或其数据点个数小于三，则 STEYX 返回错误值 #p/0!。预测值 y 的标准误差计算公式如下：
其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)，且 n 是样本大小。
案例
T.DIST 函数
描述
返回学生的左尾 t 分布。 t 分布用于小型样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST(x,deg_freedom, cumulative)
T.DIST 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。cumulative必需。决定函数形式的逻辑值。如果 cumulative 为 TRUE，则 T.DIST 返回累积分布函数；如果为 FALSE，则返回概率密度函数。
备注
如果任一参数是非数值的，则 T.DIST 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST 返回一个错误值。 Deg_freedom 不得小于 1。
案例
T.DIST.2T 函数
描述
返回学生的双尾 t 分布。
学生的 t 分布用于小样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST.2T(x,deg_freedom)
T.DIST.2T 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。
备注
如果任一参数是非数值的，则 T.DIST.2T 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST.2T 返回错误值 #NUM!。如果 x 0，则 T.DIST.2T 返回错误值 #NUM!。
案例
T.DIST.RT 函数
描述
返回学生的右尾 t 分布。
t 分布用于小型样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST.RT(x,deg_freedom)
T.DIST.RT 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。
备注
如果任一参数是非数值的，则 T.DIST.RT 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST.RT 返回错误值 #NUM!。
案例
T.TEST 函数
描述
返回与学生 t-检验相关的概率。使用函数 T.TEST 确定两个样本是否可能来自两个具有相同平均值的基础总体。
用法
T.TEST(array1,array2,tails,type)
T.TEST 函数用法具有下列参数：
Array1必需。第一个数据集。Array2必需。第二个数据集。tails必需。指定分布尾数。如果 tails = 1，则 T.TEST 使用单尾分布。如果 tails = 2，则 T.TEST 使用双尾分布。Type必需。要执行的 t 检验的类型。
参数
备注
如果 array1 和 array2 的数据点个数不同，且 type = 1（成对），则 T.TEST 返回错误值 #N/A。参数 tails 和 type 将被截尾取整。如果 tails 或 type 是非数值的，则 T.TEST 返回错误值 #VALUE!。如果 tails 是除 1 或 2 之外的任何值，则 T.TEST 返回错误值 #NUM!。T.TEST 使用 array1 和 array2 中的数据计算非负 t 统计值。如果 tails=1，在假设 array1 和 array2 是具有相同平均值的总体中的样本的情况下，T.TEST 返回较高 t 统计值的概率。 tails=2 时，T.TEST 返回的值是 tails=1 时返回值的两倍，并对应假设“总体平均值相同”时较高的 t 统计绝对值的概率。
案例
TREND 函数
描述
返回线性趋势值。找到适合已知数组 known_y's 和 known_x's 的直线（用最小二乘法）。返回指定数组 new_x's 在直线上对应的 y 值。
用法
TREND(known_y's, [known_x's], [new_x's], [const])
TREND 函数用法具有下列参数：
Known_y's必需。关系表达式 y = mx + b 中已知的 y 值集合。如果数组 known_y's 在单独一列中，则 known_x's 的每一列被视为一个独立的变量。如果数组 known_y's 在单独一行中，则 known_x's 的每一行被视为一个独立的变量。Known_x's必需。关系表达式 y = mx + b 中已知的可选 x 值集合。数组 known_x's 可以包含一组或多组变量。如果仅使用一个变量，那么只要 known_x's 和 known_y's 具有相同的维数，则它们可以是任何形状的区域。如果用到多个变量，则 known_y's 必须为向量（即必须为一行或一列）。如果省略 known_x's，则假设该数组为 {1,2,3,...}，其大小与 known_y's 相同。New_x's必需。需要函数 TREND 返回对应 y 值的新 x 值。New_x's 与 known_x's 一样，对每个自变量必须包括单独的一列（或一行）。因此，如果 known_y's 是单列的，known_x's 和 new_x's 应该有同样的列数。如果 known_y's 是单行的，known_x's 和 new_x's 应该有同样的行数。如果省略 new_x's，将假设它和 known_x's 一样。如果 known_x's 和 new_x's 都省略，将假设它们为数组 {1,2,3,...}，大小与 known_y's 相同。Const可选。一个逻辑值，用于指定是否将常量 b 强制设为 0。如果 const 为 TRUE 或省略，b 将按正常计算。如果 const 为 FALSE，b 将被设为 0（零），m 将被调整以使 y = mx。
备注
有关 Microsoft Excel 对数据进行直线拟合的详细信息，请参阅 LINEST 函数。可以使用 TREND 函数计算同一变量的不同乘方的回归值来拟合多项式曲线。例如，假设 A 列包含 y 值，B 列含有 x 值。可以在 C 列中输入 x^2，在 D 列中输入 x^3，等等，然后根据 A 列，对 B 列到 D 列进行回归计算。对于返回结果为数组的公式，必须以数组公式的形式输入。
注意:在 Excel Online 中，不能创建数组公式。
当为参数（如 known_x's）输入数组常量时，应当使用逗号分隔同一行中的数据，用分号分隔不同行中的数据。
案例
TRIMMEAN 函数
描述
返回数据集的内部平均值。 TRIMMEAN 计算排除数据集顶部和底部尾数中数据点的百分比后取得的平均值。当您要从分析中排除无关的数据时，可以使用此函数。
用法
TRIMMEAN(array, percent)
TRIMMEAN 函数用法具有下列参数：
Array必需。需要进行整理并求平均值的数组或数值区域。百分比必需。从计算中排除数据点的分数。例如，如果 percent=0.2，从 20 点 (20 x 0.2) 的数据集中剪裁 4 点：数据集顶部的 2 点和底部的 2 点。
备注
如果 percent 0 或 percent 1，则 TRIMMEAN 返回错误值 #NUM!。函数 TRIMMEAN 将排除的数据点数向下舍入到最接近的 2 的倍数。如果 percent = 0.1，30 个数据点的 10% 等于 3 个数据点。为了对称，TRIMMEAN 排除数据集顶部和底部的单个值。
案例
VAR.P 函数
描述
计算基于整个样本总体的方差（忽略样本总体中的逻辑值和文本）。
用法
VAR.P(number1,[number2],...)
VAR.P 函数用法具有下列参数：
Number1必需。对应于总体的第一个数值参数。Number2, ...可选。对应于总体的 2 到 254 个数值参数。
备注
VAR.P 假定其参数是整个总体。如果数据代表总体样本，请使用 VAR.S 计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 VARPA 函数。函数 VAR.P 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
VAR.S 函数
描述
估算基于样本的方差（忽略样本中的逻辑值和文本）。
用法
VAR.S(number1,[number2],...)
VAR.S 函数用法具有下列参数：
Number1必需。对应于总体样本的第一个数值参数。Number2, ...可选。对应于总体样本的 2 到 254 个数值参数。
备注
函数 VAR.S 假设其参数是样本总体中的一个样本。如果数据为整个样本总体，则应使用函数 VAR.P 来计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 VARA 函数。函数 VAR.S 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
VARA 函数
描述
计算基于给定样本的方差。
用法
VARA(value1, [value2], ...)
VARA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。这些是对应于总体样本的 1 到 255 个数值参数。
备注
VARA 假定其参数是总体样本。如果数据代表的是样本总体，则必须使用函数 VARPA 来计算方差。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 VAR 函数。函数 VARA 的计算公式如下：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
VARPA 函数
描述
根据整个总体计算方差。
用法
VARPA(value1, [value2], ...)
VARPA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。对应于总体的 1 到 255 个值参数。
备注
VARPA 假定其参数是整个总体。如果数据代表总体样本，则必须使用 VARA 计算方差。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 VARP 函数。VARPA 的公式为：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
WEIBULL.DIST 函数
描述
返回 Weibull 分布。可以将该分布用于可靠性分析，例如计算设备出现故障的平均时间。
用法
WEIBULL.DIST(x,alpha,beta,cumulative)
WEIBULL.DIST 函数用法具有下列参数：
X必需。用来计算函数的值。Alpha必需。分布参数。Beta必需。分布参数。cumulative必需。确定函数的形式。
备注
如果 x、alpha 或 beta 是非数值的，则 WEIBULL.DIST 返回错误值 #VALUE!。如果 x 0，则 WEIBULL.DIST 返回错误值 #NUM!。如果 alpha ≤ 0 或 beta ≤ 0，则 WEIBULL.DIST 返回错误值 #NUM!。Weibull 累积分布函数的公式为：
Weibull 概率密度函数的公式为：
当 alpha = 1，函数 WEIBULL.DIST 返回指数分布：
案例
Z.TEST 函数
...
?

2018年最全的excel函数大全14—统计函数（8）

语兰

展开

上次给大家分享了《2018年最全的excel函数大全14—统计函数（7）》，这次分享给大家统计函数（8）。
RANK.AVG 函数
描述
返回一列数字的数字排位：数字的排位是其大小与列表中其他值的比值；如果多个值具有相同的排位，则将返回平均排位。
用法
RANK.AVG(number,ref,[order])
RANK.AVG 函数用法具有下列参数：
Number必需。要找到其排位的数字。Ref必需。数字列表的数组，对数字列表的引用。 Ref 中的非数字值会被忽略。Order可选。一个指定数字排位方式的数字。
备注
如果 Order 为 0（零）或省略，Excel 对数字的排位是基于 ref 为按降序排列的列表。如果 Order 不为零，Excel 对数字的排位是基于 ref 为按升序排列的列表。
案例
RANK.EQ 函数
描述
返回一列数字的数字排位。其大小与列表中其他值相关；如果多个值具有相同的排位，则返回该组值的最高排位。
如果要对列表进行排序，则数字排位可作为其位置。
用法
RANK.EQ(number,ref,[order])
RANK.EQ 函数用法具有下列参数：
Number必需。要找到其排位的数字。Ref必需。数字列表的数组，对数字列表的引用。 Ref 中的非数字值会被忽略。Order可选。一个指定数字排位方式的数字。
备注
如果 Order 为 0（零）或省略，Excel 对数字的排位是基于 Ref 为按降序排列的列表。如果 Order 不为零， Excel 对数字的排位是基于 Ref 为按照升序排列的列表。RANK.EQ 赋予重复数相同的排位。但重复数的存在将影响后续数值的排位。例如，在按升序排序的整数列表中，如果数字 10 出现两次，且其排位为 5，则 11 的排位为 7（没有排位为 6 的数值）。要达到某些目的，可能需要使用将关联考虑在内的排位定义。在上一案例中，可能需要将数字 10 的排位修改为 5.5。这可以通过向 RANK.EQ 返回的值添加以下修正系数来实现。此修正系数适用于按降序排序（order = 0 或省略）和按升序排序（order = 非零值）计算排位的情况。
关联排位的修正系数 =[COUNT(ref) + 1 – RANK.EQ(number, ref, 0) – RANK.EQ(number, ref, 1)]/2。
在工作簿中的案例中，RANK.EQ(A3,A2:A6,1) 等于3。修正系数为 (5 + 1 – 2 – 3)/2 = 0.5，将关联考虑在内的修订排位为 3 + 0.5 = 3.5。如果数字在 ref 中仅出现一次，此修正系数将为 0，因为无需调整 RANK.EQ 以进行关联。
案例
RSQ 函数
描述
通过 known_y's 和 known_x's 中的数据点返回皮尔生乘积矩相关系数的平方。有关详细信息，请参阅PEARSON 函数。R 平方值可以解释为 y 方差可归于 x 方差的比例。
用法
RSQ(known_y's,known_x's)
RSQ 函数用法具有下列参数：
Known_y's必需。数组或数据点区域。Known_x's必需。数组或数据点区域。
备注
参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果 known_y's 和 known_x's 为空或其数据点个数不同，函数 RSQ 返回错误值 #N/A。如果 known_y's 和 known_x's 只包含 1 个数据点，则 RSQ 返回错误值 #p/0!。皮尔生(Pearson)乘积矩相关系数 r 的计算公式如下：
其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)。
RSQ 返回 r2，即相关系数的平方。
案例
SKEW 函数
描述
返回分布的偏斜度。偏斜度表明分布相对于平均值的不对称程度。正偏斜度表明分布的不对称尾部趋向于更多正值。负偏斜度表明分布的不对称尾部趋向于更多负值。
用法
SKEW(number1, [number2], ...)
SKEW 函数用法具有下列参数：
number1, number2, ...Number1 是必需的，后续数字是可选的。用于计算偏斜度的 1 到 255 个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果数据点个数少于三，或者样本标准偏差为零，则 SKEW 返回错误值 #p/0!。偏斜度公式的定义如下：
案例
SKEW.P 函数
描述
返回基于样本总体的分布不对称度：表明分布相对于平均值的不对称程度。
用法
SKEW.P(number 1, [number 2],…)
SKEW.P 函数用法具有下列参数。
Number 1, number 2,…Number 1 是必选项，后续数字是可选项。Number 1、number 2、… 等是 1 至 254 个数字，或包含数字的名称、数组或引用，您要以此函数获得其样本总体的分布不对称度。
SKEW.P 使用下面的公式：
备注
参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零 (0) 值的单元格将计算在内。SKEW.P 使用样本总体的标准偏差，而非一个样本。如果参数值无效，SKEW.P 返回错误值 #NUM!。如果参数使用的数据类型无效，SKEW.P 返回错误值 #VALUE!。如果数据点个数少于三，或者样本标准偏差为零，SKEW.P 返回错误值 #p/0!。
案例
SLOPE 函数
描述
返回通过 known_y's 和 known_x's 中数据点的线性回归线的斜率。斜率为垂直距离除以线上任意两个点之间的水平距离，即回归线的变化率。
用法
SLOPE(known_y's, known_x's)
SLOPE 函数用法具有下列参数：
Known_y's必需。数字型因变量数据点数组或单元格区域。Known_x's必需。自变量数据点集合。
备注
参数可以是数字，或者是包含数字的名称、数组或引用。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。如果 known_y's 和 known_x's 为空或其数据点个数不同，函数 SLOPE 返回错误值 #N/A。回归直线的斜率计算公式如下：
其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)。
SLOPE 和 INTERCEPT 函数中使用的下层算法与 LINEST 函数中使用的下层算法不同。当数据未定且共线时，这些算法之间的差异会导致不同的结果。例如，如果参数 known_y's 的数据点为 0，参数 known_x's 的数据点为 1：SLOPE 和 INTERCEPT 返回错误 #p/0!。 SLOPE 和 INTERCEPT 的算法用于只查找一个答案，在这种情况下，还可能会出现多个答案。LINEST 会返回值 0。 LINEST 的算法用来返回共线数据的合理结果，在这种情况下至少可找到一个答案。
案例
SMALL 函数
描述
返回数据集中的第 k 个最小值。使用此函数以返回在数据集内特定相对位置上的值。
用法
SMALL(array,k)
SMALL 函数用法具有下列参数：
Array必需。需要找到第 k 个最小值的数组或数值数据区域。K必需。要返回的数据在数组或数据区域里的位置（从小到大）。
备注
如果 array 为空，则 SMALL 返回错误值 #NUM!。如果 k ≤ 0 或 k 超过了数据点个数，则 SMALL 返回错误值 #NUM!。如果 n 为数组中的数据点个数，则 SMALL(array,1) 等于最小值，SMALL(array,n) 等于最大值。
案例
STANDARDIZE 函数
描述
返回由 mean 和 standard_dev 表示的分布的规范化值。
用法
STANDARDIZE(x, mean, standard_dev)
STANDARDIZE 函数用法具有下列参数：
X必需。需要进行正态化的数值。Mean必需。分布的算术平均值。standard_dev必需。分布的标准偏差。
备注
如果 standard_dev ≤ 0，则 STANDARDIZE 返回错误值 #NUM!。规范化值的公式为：
案例
STDEV.P 函数
描述
计算基于以参数形式给出的整个样本总体的标准偏差（忽略逻辑值和文本）。
标准偏差可以测量值在平均值（中值）附近分布的范围大小。
用法
STDEV.P(number1,[number2],...)
STDEV.P 函数用法具有下列参数：
Number1必需。对应于总体的第一个数值参数。Number2, ...可选。对应于总体的 2 到 254 个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
STDEV.P 假定其参数是整个总体。如果数据代表总体样本，请使用 STDEV 计算标准偏差。对于大样本容量，函数 STDEV.S 和 STDEV.P 计算结果大致相等。此处标准偏差的计算使用“n”方法。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 STDEVPA 函数。函数 STDEV.P 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
STDEV.S 函数
描述
基于样本估算标准偏差（忽略样本中的逻辑值和文本）。
标准偏差可以测量值在平均值（中值）附近分布的范围大小。
用法
STDEV.S(number1,[number2],...)
STDEV.S 函数用法具有下列参数：
Number1必需。对应于总体样本的第一个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。Number2, ...可选。对应于总体样本的 2 到 254 个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
STDEV.S 假设其参数是总体样本。如果数据代表整个总体，请使用 STDEV.P 计算标准偏差。此处标准偏差的计算使用“n-1”方法。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 STDEVA 函数。函数 STDEV.S 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
STDEVA 函数
描述
根据样本估计标准偏差。标准偏差可以测量值在平均值（中值）附近分布的范围大小。
用法
STDEVA(value1, [value2], ...)
STDEVA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。对应于总体样本的 1 到 255 个值。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
STDEVA 假定其参数是总体样本。如果数据代表整个总体，则必须使用 STDEVPA 计算标准偏差。此处标准偏差的计算使用“n-1”方法。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 STDEV 函数。STDEVA 使用下面的公式：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
以上是所有EXCEL的统计函数（8）描述用法以及使用案例。这次分享中存在哪些疑问或者哪些不足，可以在下面进行评论。如果觉得不错，可以分享给你的朋友，让大家一起掌握这些excel的统计函数（8）。

标准差excel函数