中企动力 > 商学院 > 标准差excel函数
  • ?

    Top30数据分析师常见面试题(附答案)!

    乐巧

    展开

    【IT168 评论】这是一个用数据说话的时代,也是一个依靠数据竞争的时代。各大互联网公司都在不断完善自己的数据分析团队,数据分析师的薪酬也是水涨船高。业内人士透露,应届毕业生的平均薪资大概在6K左右,1至3年经验的大概在10K到20K之间,5至10年经验的大概在25K以上。薪资还是十分诱人的,那么,如何快速成长为一名年薪百万的数据分析师呢?快来看看,以下30道数据分析相关面试题,你会多少?

    1、分析数据还要写java代码是不是效率有点低?

    2、成为一名数据分析师需要具备哪些技能?

    要成为一名数据分析师,需要掌握丰富的报告软件包(Business Objects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识以及分析大型数据集(SAS,Excel,SPSS等)的统计软件包知识。

    3、分析项目的各个步骤是什么?

    分析项目的各个步骤包括:

    ·问题定义

    ·数据挖掘

    数据准备

    模型化

    数据认证

    实施跟踪

    4、分析的结果数据特别大,在线请求这些结果数据扛不住了,咋搞?

    5、列出数据清理的最佳实践?

    一些数据清理的最佳实践包括:

    按不同的属性排序数据

    对于大数据集,逐步清理并改进数据,直到获得良好的数据质量

    对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度

    要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值

    如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题

    分析每列的汇总统计数据(标准差,均值,缺失值的数量)

    保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作

    6、海量日志数据,提取出某日访问百度次数最多的那个IP。

    7、可用于数据分析的一些最佳工具清单有什么?

    Tableau

    RapidMiner

    OpenRefine

    KNIME

    Google Search Operators

    Solver

    NodeXL

    io

    Wolfram Alpha’s

    Google Fusion tables

    8、数据挖掘和数据分析之间的区别是什么?

    数据挖掘和数据分析之间的区别在于:

    数据分析:针对个别属性的实例分析。提供有关属性的各种信息,如值范围,离散值及其频率,空值的发生,数据类型,长度等。

    数据挖掘:重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。

    9、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

    10、用于处理分布式计算环境中应用程序大数据集的Apache框架有哪些?

    Hadoop和MapReduce是由Apache开发的用于处理分布式计算环境中应用程序大数据集的编程框架。

    11、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在40亿个数当中?

    12、解释KNN插补方法是什么?

    在KNN插补中,通过使用与其值缺失的属性最相似的属性值来推断缺少的属性值。通过使用距离函数,确定两个属性的相似度。

    13、数据分析师使用的数据验证方法是什么?

    通常,数据分析师用于数据验证的方法是数据筛选和数据验证。

    14、解释应该如何处理可疑或缺失数据?

    准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间

    有经验的数据分析师应该检查可疑数据以确定其可接受性

    应该找出无效数据并用验证码替换

    对缺失数据进行处理,使用最佳分析策略,如删除,单一插补方法,基于模型的方法等。

    15、如何避免过拟合?

    过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers。常见的解决办法是正则化:增大数据集,正则化

    16、解释异常值是什么?

    异常值是分析师使用的一个术语,指的是一个远远超出样本总体模式的值。有两种类型的异常值:

    Univariate

    Multivariate

    17、解释分层聚类算法是什么?

    分层聚类算法结合并划分现有的组,创建分层结构并展示组划分或合并的顺序。

    18、解释K均值算法是什么?

    K均值是一种著名的分区方法。对象被分类为属于K个组中的一个,k是先验选择的。

    在K均值算法中:

    簇是球形的:簇中的数据点以该簇为中心

    簇的方差/扩展是相似的:每个数据点属于最接近的簇

    19、数据分析师所需掌握的关键技能是什么?

    数据科学家必须具备以下技能:

    数据库知识

    数据库管理

    数据混合

    数据查询

    数据操作

    预测分析

    基本描述性统计

    预测建模

    高级分析

    大数据知识

    大数据分析

    非结构化数据分析

    机器学习

    演示技巧

    数据可视化

    报告设计

    20、解释协同过滤是什么?

    协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组件是用户对项目的兴趣。

    协同过滤一个很好的例子就是购物网站上出现的类似“为您推荐”的模块,该模块通常会获取用户的浏览记录信息,以弹出用户可能喜欢或需要的商品。

    21、大数据中通常会使用到哪些工具?

    大数据中使用的工具包括:

    Hadoop

    Hive

    Pig

    Flume

    Mahout

    Sqoop

    22、解释什么是KPI,实验设计和80/20规则?

    关键绩效指标(KPI):它代表关键绩效指标(Key Performance Indicator),它是关于业务流程的报告或图表

    实验设计:这是用于分解数据,采样和建立数据以进行统计分析的初始过程

    80/20规则:这意味着你收入的80%来自客户的20%

    23、解释Map Reduce是什么?

    Map-Reduce是一个处理大型数据集的框架,可以将它们分解成子集,在不同的服务器上处理每个子集,然后混合每个子集上获得的结果。

    24、解释聚类是什么?聚类算法的属性?

    聚类是一种应用于数据的分类方法。聚类算法将数据集划分为自然组或集群。

    聚类算法的属性是:

    Hierarchical or flat

    Iterative

    Hard and soft

    Disjunctive

    25、对数据分析师有用的统计方法是什么?

    对数据科学家有用的统计方法是

    贝叶斯方法

    马尔科夫过程

    空间和集群进程

    统计数据,百分位数,异常值检测

    计算技巧等

    简单的算法

    数学优化

    26、时间序列分析是什么?

    时间序列分析可以在频域和时域两个域中完成。在时间序列分析中,可以通过指数平滑,对数线性回归等各种方法分析数据,来预测特定过程输出。

    27、解释空间自相关分析是什么?

    空间自相关分析是地理空间分析的常用形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,它可以用于构建基于距离的数据相关图。

    28、散列表是什么?散列表冲突是什么?如何避免?

    在计算中,哈希表(散列表)是键值对的映射,这是一个用于实现关联数组的数据结构。它使用散列函数来计算一个时隙阵列的索引,从中可以获取所需的值。

    当两个不同的键散列到相同的值时,发生散列表冲突。两个数据不能存储在阵列的同一个插槽中。

    为了避免散列表碰撞,有很多技巧,这里列出两个:

    分离链接:它使用数据结构来存储散列到同一个插槽的多个项目。

    再探测:在找到查找位置的index的index-1,index+1位置查找,index-2,index+2查找,依次类推。这种方法称为线性再探测。

    29、解释 imputation是什么?列出不同类型的插补技术?哪种插补方法更有利?

    在插补过程中,我们用替代值替换丢失的数据。插补技术涉及的类型有:

    单一插补

    热点插补:从随机选择的类似记录中推断缺失值

    冷却板插补:与热点插补相同,但更先进,从其他数据集中选择供体

    平均估算:在所有其他情况下,用该变量的平均值代替缺失值

    回归插补:用基于其他变量的变量预测值替换缺失值

    随机回归:与回归插补一样,但它将平均回归方差加入到回归估计中

    多重插补:与单个插补不同,多重插补会多次估计值

    虽然单一插补法被广泛使用,但并不能反映随机丢失数据所造成的不确定性。因此,在数据丢失的情况下,多重插补更有利。

    30、解释N-gram是什么?

    N-gram是来自给定序列文本或语音的n个项目的连续序列。这是一种以(n-1)形式预测下一个项目的概率语言模型。

  • ?

    怎样把复杂的数据变简单?用R语言做主成分分析呗

    凌以冬

    展开

    作者:麦子

    当我们做完基因、RNA等芯片之后通常会拿到一组特别恐怖的数据,几百个基因几×几十个样本,这时候我想看这些基因的表达差异是否影响到样本的分布。可是有这么多基因,它们各自肯定都有影响,一个个看是不是很不现实。

    比如这个样子,甲基化芯片检测了416个位点的甲基化程度,看不同样本间是否有差异。一共132个样本,分两组。

    这当然只展示了一很小的部分。

    每个样本由416个位点来描述,也就是416个变量,或叫416个维度。咱们生活的空间是3维的啊,如果要精确描述这132个样本的位置,就是建一个416维的空间把它们定位,这是很不现实的。所以要对它进行降维处理之后再观察。

    主成分分析(PCA)就是常用的一种降维方法,提取出这么多变量中对样本影响最大的成分。但它不是挑选出某几个变量,而是根据它们的方差贡献,经过线性变换,得到新的变量,即“主成分”。

    但再仔细观察,你会发现这表格的坑相当多,从代测公司拿回来就这样。我拉开展示变量名称的那几列,都只是在用不同的参数描述一个样本!

    小数点前面是样本编号;小数点后面的Signal A是非甲基化等位基因密度(U),Signal B是甲基化等位基因密度(M),Beta值即甲基化水平值,Beta = M / (M+U+100),而Intensity就是Signal A + Signal B。

    况且,它这样样本为行甲基化位点为列,做出来的PCA其实反应的是样本对不同位点甲基化水平的影响,这跟我们的研究目的是相反的,所以要把它倒过来。

    你再仔细找找说不定还有缺失值,也有可能等你做了一半才发现,这都是惨淡的现实。

    你已经能想到处理它要有多头痛了。不仅要提取每个样本的beta值那一列,还要把它的行和列翻转过来^0.0^我知道大家毕竟医学出身,对R语言代码有点怵,但如果表格简单一点、规模小一点,用SPSS也可以简单完成,但面对如此严酷的事实,咱们还是硬着头皮敲代码吧。其实做下来也不是那么难。

    数据预处理

    先检查一下缺失值,还都是beta值(唉我是做到一半才发现的,不得不倒回来处理)。在Excel中打开表格,全选,Ctrl+G,在弹出的对话框中点定位条件,查找空值:

    确定之后会自动选中缺失值的单元格,我们随便填个颜色标注出来。处理缺失值的一般方法,可以删除那个样本,或者以均值或中值填充。但既然在本案例中我们知道它的含义,而且有条件算出来,那我还是计算一下吧。

    找到一个填了颜色的空值,在其中按Excel格式输入公式,使其符合beta值的计算方法,比如D82的空值就应该输入“=F82/(E82+F82+100)”,然后选中该单元格并Ctrl+C,保持它被选中有虚线围绕的状态。

    然后再做一次找空值的操作,这回可以全选表格来查找,也可以只选中有数据的表格(因为后面有几列是跟PCA无关的内容)。找到空值之后Ctrl+V,就把刚才的公式填上了。这样就可以导入RStudio。

    下面,书写的格式,就按R中的习惯吧,“##”后面的文字是大步骤,“#”后面的文字是对上一行代码的注释

    ## 准备工作环境

    rm(list = ls)

    # 把工作空间先清理干净

    setwd("D:/PCA")

    # 设置工作目录

    library(pca3d)

    library(rgl)

    library(readxl)

    # 载入以上这些R包。如果你还没安装,就先用install.packages(‘包的名称’)装上,再运行library。装包的时候好像要翻墙,其他时候不用。

    Raw<- read_excel("Raw.xlsx", sheet = "Tissues")

    #用read_excel函数读取原Excel文件,并把它命名为Raw。其实也可以从菜单“File→Import Dataset→From Excel”导入,反正也是调用这个函数。随意啦。

    这样就可以在Environment选项卡中看到这个超大的表格。以后操作过程中可以随时观察这个选项卡中添加了哪些元素。

    ## 提取所需数据

    num<- seq(from = 4, to = 663, by = 5)

    # 定义我们需要的大表格中列的编号。回去观察那个大表,第一个样本的beta值在第4列,所有芯片数据的最后一列是第663列,是个Intensity,from和to就是选定这个范围。我们需要的是beta值,每隔5列出现一个,所以by=5。同理,如果我们需要的是single_A,那么from=5。

    Data<- Raw[,num]

    # 把从大表格中提取出来的小表格命名为Data。后面的[,num]就是刚才挑选的列号了。

    DataRev<- t(Data)

    # 把小表格的行和列翻转过来,形成一个新的表,命名为DataRev。可以在Environment中可以点击各表查看效果。

    Group<- c(rep('Ca',66), rep('NA',66))

    # 因为患者的个体编号和分组编号混起来了,所以我们要另外添加一列Group,表示分组。这是定义Group的内容,66个Ca(癌组织)和66个NA(癌旁组织)。

    DataRevG<- data.frame(DataRev, Group = Group)

    # 把上面的Group添加到DataRev表中,形成的新表命名为DataRevG。

    到这里,准备工作才做完。

    PCA运算及绘图

    ## 主成分分析

    DataRevG_sub<- subset(DataRevG, select = -Group)

    # 因为PCA是不需要Group那列的,那是为将来绘图准备的,所以要建一个子表,把那列减去,命名为新表,原名加上后缀_sub。

    DataRevG.pca<- prcomp(DataRevG_sub, scale. = TRUE)

    #用prcomp函数对那个子表做分析,并把结果拎出来,命名为DataRevG.pca的一个大集合。

    Pca.sum<- summary(DataRevG.pca)

    #对PCA结果做描述性分析,命名为pca.sum。可以从这里查看分析的各项结果。

    Importance<- data.frame(Pca.sum$importance)

    # 提取pca.sum中的Importance,独立出来成为一个叫Importance的新数据框,它展示的是主成分的重要度。其实不提取也可以,但提出来是为了方便观察。点开它可以看到,它分为标准差、方差贡献率、累积贡献率三行。我们主要看累积贡献率。

    PC1是第一个主成分(Principal Component),它的贡献率是30.51%,PC2贡献了8.95%,两者累积39.46%,依此累推。这就决定我们选取几个主成分来观察样本。一般来说,选取累积贡献率达到80%-90%的前几个,有时候2个就满足了,可以做个二维图,不行就三维。

    但本例中有点意外,前3个PC贡献率并没有那么高,说明影响较大的主成分比较多。这时可以画个碎石图来观察主成分的分布规律。

    screeplot(DataRevG.pca, type = 'line', lwd = 2)

    # 画碎石图,type就是碎石图的类型,lwd是线宽。

    这样看来,第三个主成分之后,方差贡献趋于平缓,那我们还是选取前三个来作图分析。

    ## 作图

    open3d

    # 打开3D图形窗口。

    par3d(windowRect = c(100, 100, 612, 612))

    # 重设窗口大小。

    pca3d(DataRevG.pca, components = 1:3, group = DataRevG$Group, col = c('Ca' = 'light blue', 'NA' = 'yellow'), show.axes = T, show.axe.titles = F, shape = 'sphere', show.plane = F)

    # 画散点图。Componets选第1-3个,group则按DataRevG中的Group这一列来分,col是分别给每组的样本选个颜色,show.axes是显示坐标轴,T是指True,即显示,后面的是坐标轴名,F自然就是False不显示了。这些都可根据自己的喜好设置,更详细的参数可以在RStudio的Help中搜索函数名pca3d来查看。

    axes3d(edges = 'bbox', labels = T, box = F)

    # 给图加个带坐标的边框。

    legend3d("topright", legend = c('Ca','NA'), col = c('light blue','yellow'), pch = 16, cex = 1, inset = c(0.02))

    # 加上图例。注意颜色和组名的顺序要跟上面作图时一致。

    好了,终于可以看效果了:

    在这个小窗口里,3D图是可以旋转的。找到个好角度,就可以截图下来了。截图,当然不是用日常工具了~用下面这个函数,截成期刊需要的格式:

    rgl.postscript('Example.eps', fmt = 'eps', drawText = T)

    # 这是截成eps格式。另外也支持ps、tex、pdf、svg、pgf这些优质图片的格式。就是截出来的矢量图文件有点大。

    就这样做好了。

  • ?

    使用R计算方差与标准差

    梦臆

    展开

    概述

    描述样本值的离散程度,最常用的指标是方差和标准差,它们与前面所说的全距(极差)只使用了两个极值情况不同,它们利用了样本的全部信息去描述数据取值的分散性。

    计算方差的公式

    方差是各样本相对均值的偏差平方和的平均。使用s2来表示,其公式如下:

    计算方差的公式

    当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

    计算标准差的公式

    样本方差的开方称为样本标准差,记为s,其计算公式如下:

    计算标准差的公式

    标准差越大,数据的离散程度越大,反之越小。但标准差与方差不同的地方是,标准差是有量纲的,它与变量值的计量单位相同,因此具有较强的实际意义,在实际应用较广泛。

    R中计算方差与标准差

    在R中使用var函数和sd函数分别计算方差和标准差。

    var函数的语法形式如下:

    var(x, y = NULL, na.rm = FALSE, use)

    参数x是一个数值型向量,矩阵或数据框;

    参数y是与x维度相容的一个向量、矩阵或数据框,默认为NULL值;

    na.rm为逻辑值,指示是否移除缺失值,默认为FALSE;

    use是一个可选参数,是一个字符型字符串。用于指明在有缺失值时计算协方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.orplete", or "pairwiseplete.obs"中值之一。

    sd函数的语法形式如下:

    sd(x, na.rm = FALSE)

    各参数的含义与var函数对应的参数相同,但是x是一个数值型向量。

    下面使用一个例子来说明具体使用方法。

    设从某班某门课程中随机抽取了20个学生的成绩,具体如下:

    51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.

    计算其方差和标准差。

    编写R程序如下:

    grade<- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)ss <- var(grade)s <- sd(grade)print(ss)print(s)

    计算结果如下图所示:

    R中计算方差与标准差的结果

    即方差为:222.87,标准差为:14.93

    如果你喜欢这篇文章,请关注我。我会定期更新有关R语言、Python、SPSS、Excel等数据分析方面的文章。让我们共同学习和进步。

  • ?

    函数 | Excel中的孤独隐者

    嗜血

    展开

    北风凌冽,旌旗飘飘……

    伴随着一声哭啼,一名男婴降临人世间,让焦虑不安的氛围瞬间化为喜悦。然而在大金的占领区,却未能享受着和平和安宁。

    自此,他开始了抗金归宋之路,一路金戈铁马,披荆斩棘,先后任江西安抚使、福建安抚使等职。但因与主和派政见不合,后被弹劾落职,退隐山居。

    于是写下了

    白发空垂三千丈,一笑人间万事

    问何物,能令公喜

    我见青山多妩媚,料青山见我应如是

    情与貌

    略相似

    他就是 -辛弃疾

    一生以恢复为志,以功业自许,却命运多舛、备受排挤、壮志难酬。

    一位孤独的隐者

    然而在Excel领域,也同样有着这么一位孤独隐者,其功能强大,但却鲜为人知。它就是今天的主题SUBTOTAL

    谈到求和,你知道用SUM

    谈到计数,你知道用COUNT 或COUNTA

    谈到平均,你知道用AVERAGE

    谈到最值,你知道用MAX 或MIN

    谈到方差,你知道用VAR

    谈到标准差,你知道用STDEV

    ……

    但是,SUBTOTAL却可以全部搞定,一点都不含糊,其战斗力指数可想而知,是何其的强大。

    同时,它还兼顾着统计中的数据,是否隐藏的问题。

    比如看下面的例子,采用传统的方式,对销售额进行求和加总和平均,但是数据一旦涉及到隐藏或者筛选,就该傻眼了。

    此时就该SUBTOTAL 登场,其效果如下

    求和公式:=SUBTOTAL(109,D2:D13)

    平均公式:=SUBTOTAL(101,D3:D14)

    从公式来看,发现只是SUBTOTAL里面第1个参数在改变,所以要会用这个函数,就必须知道第1个参数代表什么意思,当然,你也不需要记,因为在输入公式的时候会提示,不过为了便于全面了解,现整理如下:

    说明:针对SUBTOTAL,它是一个全能函数,所以你要求和的话,只需要输入对应的代码就可以了,比如这里是9或者109,区别在于,如果是9的话,其结果和sum一样,即使隐藏了筛选了,都依旧统计。但是109的话,却可以忽略隐藏值,如上面例子展示。

    再比如:一张数据表里面,涵盖了各部门的信息,但是要筛选后,逐个打印出来,但是此时的序号是个问题,如下:

    序号随着筛选,出现了断层,不连贯,因为涉及到了隐藏行,故依旧还是要用SUBTOTAL进行处理。如下:

    公式:=SUBTOTAL(103,$B$2:B2)

    说明:103好理解,其效果等同于COUNTA(忽略隐藏值),$B$2:B2 是固定B2单元格,往下延展。关于$的用法,请看,[技巧 | 隐藏在Excel中的定海神针]

    这样筛选的时候,新序号栏位,就会不断层

    但是细心的你,发现了一个问题没?当你筛选销售2部的时候,最后一行,有一个销售4部乱入,所以还是有点问题,如何解决呢?

    很简单,将公式调整一下:=SUBTOTAL(103,$B$2:B2)*1 结果乘以1,效果如下:

    原因是官方在处理这个函数的时候,将最后一行作为了会总行,这里面原理就不在细说,知道如何处理即可。

    再看一个比较常见的,要对有颜色标记的人员的销售额进行求和,基本看到这种问题很头疼,因为默认的sum求和并不对颜色进行处理,所以,看看下文:

    通过SUBTOTAL配合筛选,解决了按照颜色求和的问题。

    SUBTOTAL其强大的聚合多函数的功能,但却知之甚少,像一个孤独的隐者。

    SO

    胖斯基说:

    我见青山多妩媚,料青山见我应如是!

    也许你很强大,但无人可知。无妨!忍住孤独,守住寂寞,厚积薄发,总有那么一天,你会闪闪发光!

  • ?

    八年职场老手总结的22个Excel技巧,学会后薪资不翻倍都难!

    叶仙儿

    展开

    你知道当我听到说还有刚毕业的大学生说自己不会用Excel 表格时候,我的表情是有多震惊吗!

    前几天我在指导刚进公司的一位负责市场的实习生做数据统计时候,我眼看着他打开Excel 然后墨迹了半天无从下手,然后他很一脸无辜告诉我,自己忘了Excel 怎么用了。

    我一脸纳闷,难道现在大学生都不学这些基础计算机办公软件操作了吗??

    实习生继续一脸无辜的告诉我,大一时候学过,但是三年没用过然后全忘了……

    我服啦,那今天明叔就写篇如何教你用好Excel 的文章!就写给那些不长记性学过就忘的人,建议收藏。

    Excel表格是一款无论是学生、白领、老师等等工作人员都会用到的办公软件。其实Excel中有很多方便快捷的功能,可以让你效率翻好几倍。

    1.不同工作表之间的快速切换:

    “Ctrl+PgDn”可以切换到右边的工作表

    “Ctrl+PgUp”可以切换到左边的工作表

    2.双击格式刷,可以把同一个格式“刷”给多个单元格。

    3.快速应用函数:

    当你设置好第一行单元格的函数,只需要把光标移动到单元格的右下角,当它变成一个小加号时,双击,公式就会被应用到这一列剩下的所有单元格里。

    4.快速调整列宽

    看下图,是否觉得单元格太宽了?

    别急,纵向选中他们,将光标移至选中区域内的任一条纵向分割线上。

    当光标十字形出现的样子时,双击;

    大功告成!是不是宽度缩小了呢?!

    5.快速增加或删除一列

    按住“Ctrl+shift+ ’+’(加号)”就可以在选中的那一列左边再加一列,“Ctrl+shift+ ’-’(减号)”可以删除选中的那一列。

    6.快速求和:

    快速按下“Alt”和“=”,然后选中一列数字,就可以求出一列数字的和。

    7.快速选定不连续的单元格

    按下“shift+F8”激活“添加选定”模式,此时工作表状态栏会显示“添加到所选内容”字样,之后分别单击不连续的单元格或单元格区域,即可选定。

    8.快速改变数字格式

    “Ctrl+shift+4”可以将数字加上美元符号($)

    “Ctrl+shift+5”可以让数字变成百分比格式(%)

    “Ctrl+shift+1”可以让小数点后面的数字变成两位数格式,如0.5变0.50

    9.检查数字错误

    “Ctrl+、”可以让数字背后的公式显示出来,一目了然;

    10.Excel搜索框快速定位查找指定的内容

    按Ctrl+ F打开搜索框,当你不确定搜索关键字的时候,可以试试通配符问号(?)和星号(*)。

    通配符就是通过符号指代一些文本,Excel中的通配符很简单,只有问号(?)、星号(*)和转义符号(~)三个。

    问号(?)表示任意单个字符。

    星号(*)表示任意多个字符,比如要查找的内容是:“西门*”,可以查找到“西门梁子”、“西门卫子”、“西门庆子”等所有以“西门”开头的内容。

    要查找问号和星号本身时,需要在前面加上转义符号(~),比如要查找星号(*),就要在搜索框中输入: ~*

    11.SUBTOTAL函数

    SUBTOTAL函数可谓是全能王,可以对数据进行求平均值、求和、最大最小、相乘、标准差、标准差、计数。

    这里还有一些可能会用到的函数,不妨先收着!

    1.Count函数:统计数字的个数

    PS:大小不一的合并单元格填充公式,要使用Ctrl+Enter。

    2.Counta函数:统计非空单元格个数

    Countif函数:依据条件统计个数

    Countifs函数:多条件统计个数

    3.Frequency函数:统计数字区间的频率

    4.Sumproduct函数:多条件计数求和

    5.average函数:计算数据的平均数

    averageif函数:依据条件计算平均值,比如,AVERAGEIF(A1:A10,”>0”),返回的是A1到A10这十个数中,所有大于0的数的平均值。

    6.Sum函数:对数据进行求和

    7.Max函数:提取一组数中的最大值。比如:MAX(A1:A10)

    8.Min函数:提取一组数中的最小值。比如:MIN(A1:A10)

    9.Large函数:返回第N个最大值

    10.Small函数:返回第N个最小值

    11.Mode函数:返回一组数中出现最多的数字

    很实用是吧,说的就你,赶紧上手试试吧!

  • ?

    身为SEMer的你,知道这些Excel函数吗?

    天蓉

    展开

    不得不说,每一位SEMer想要让自己的工作更加的高效快捷,必须让自己成为多项工具的“使用说明书”。即使不能很详尽地将每个工具利用得纯熟透彻,但起码得懂、得会用。

    SEMer需要掌握的工具很多,比如关键词拓词工具,比如创意生成工具,偏一点的还有Photoshop等,在数据分析中,又不得不说Excel是基础,是必须掌握,如果再会使用SASS等其他的数据分析工具,那也是给自己的加分项了。

    那么,关于数据分析,世界上就应该分为两种数据分析师,一种是Excel数据分析师,一种是其他数据分析工具的数据分析师。

    今天,小优就跟大家讲讲每位SEMer赖以生存的Excel到底有哪些函数。

    一、源数据处理类

    我们很多时候得到的数据并非拿来即用,需要进行加工处理,比如多了个空格字符?又比如不需要某个字符,该如何处理呢?

    Trim:清除字符串两边的空格。

    Concatenate:=Concatenate(单元格1,单元格2,单元格3…),合并单元格中的内容,也可使用作为每个单元格连接符,如”我””是””SEMer”=我是SEMer。

    Replace:=Replace(指定单元格字符串,从字符串什么位置开始替换,替换几个字符,替换成什么),替换单元格制定的字符串。

    SUBSTITUTE:和Replace同样属于替换字符函数,Substitute属于全局替换。

    Len/Lenb:计算指定单元格字符串长度,两者区别在于,Len计算中文为一个,而LenB为两个。

    FIND:=FIND(要查找的字符,指定查找字符串,从第几个字符开始)

    二、匹配关联类型

    越复杂的表格数据,此类函数用的越多,因为要讲究效率。

    LOOKUP:=LOOKUP(要查找的值,值所在的位置,返回相应位置的值)

    Vlookup:=VLOOKUP(要查找的值,查找的值所在的区域,区域中第几列,是否精确匹配)

    INDEX:=INDEX(查找的区域,区域内的第几行,区域内的第几列)

    OFFSET:=OFFSET(指定一个点,偏移行数,偏移列数,返回行数,返回列数)

    三、运算逻辑类型函数

    一个SEMer在做数据分析,逻辑运算肯定是免不了的。

    IF:如果怎样,否则怎样,经典的函数。

    AND:全部为真,则返回真,常用于多条件判断。

    OR:一个为真,则返回真,常用于多条件判断。

    四、统计计算类型

    SUM:求和函数。

    SUMPRODUCT:统计总和相关,如果有两列数据销量和单价,现在要求卖出增加,用sumproduct是最方便的。

    MAX:返回区域最大值。

    MIN:返回区域最小值。

    RANK:=RANK(指定值,指定区域),返回指定值在引用区域的排名,重复值排同一名。

    AVERAGEA:返回平均值。

    SUBSTOTAL:=SUBSTOTAL(引用区域,参数),将平均值、计数、最大最小、相乘、标准差、求和、方差等参数化。

    INT/ROUND:=ROUND(3.1415926,2),返回3.14。

    五、时间类

    YEAR:返回日期中的年份。

    MONTH:返回日期中的月份。

    WEEKDAY:=WEEKDAY(指定时间,参数),返回指定时间为一周中的第几天,参数1则从星期天为第一天算起,参数2则从星期一为第一天算起。

    WEEKNUM:=WEEKNUM(指定时间,参数),返回一年中的第几个星期。

    DAY:返回日期中的日。

    DATE:=DATE(年,月,日),等于将YAER(),MONTH(),DAY()合并。

    NOW:返回当前时间

    TODAY:返回当前日期

    DATEDIF:DATEDIF(开始日期,结束日期,参数),计算两日期的差,参数决定返回值是年或月。

    小优总结:其实上面只归类了部分函数,仍然有些函数没有归类出来。接下来,我们将会为大家普及更多的EXCEL使用技巧,帮助各位SEMer在进行数据分析时更加高效快捷。

  • ?

    Excel 日常频率超高函数公式汇总,复制粘贴直接使用,拿走不谢!

    惠一寡

    展开

    在我们的日常工作当中,如果涉及数据的处理,就离不开办公软件Excel的使用,而表格中的函数公式,可以让Excel更加强大,同时可以提高我们的工作效率,节省我们的时间。

    常用公式:

    1、查找重复内容公式:

    =lF(COUNTIF(A:A,A2)>1,"重复")。

    2、用出生年月来计算年龄公式:

    =TRUNC((DAYS360(H6,"2009/8/30",FALSE))/360,0)。

    3、从输人的18位身份证号的出生年月计算公式:

    =CONCATENATE(MID(E2,7,4),"/",MID(E2,11,2),"/",MID(E2,13,2))。

    4、从输人的身份证号码内让系统自动提取性别,可以输人以下公式:

    =lF(LEN(C2)=15,IF(MOD(MID(C2,15,1),2)=1,"男","女"),IF(MOD(MID(C2,17,1),2)=1,"男","女"))公式内的C2”代表的是输人身份证号码的单元格。

    常用计算:

    1、求和:=SUM(K2:K56)

    一对K2到K56这一区域进行求和;

    2、平均数:=AVERAGE(K2:K56)

    一对K2K56这一区域求平均数;

    3、排名:=RANK(K2,K$2:K$56)

    一对55名学生的成,绩进行排名;

    4、等级:=lF(K2>=85,"优",IF(K2>=74,"良",IF(K2>=60,"及格","不及格")))

    5、学期总评:=K2*0.3+M2*0.3+N2*0.4

    一假设K列、M列和N列分别存放着学生的“平时总评"“期中期末”三项成绩;

    6、最高分:=MAX(K2:K56)

    一求K2到K56区域(55名学生)的最高分;

    7、最低分:=MIN(K2:K56)

    一求K2到K56区域(55名学生)的最低分;

    8、分数段人数统计:

    (1)=COUNTIF(K2:K56,"100")

    一求K2到K56区域100分的人数;假设把结果存放于K57单元格;

    (2)=COUNTIF(K2:K56,">=95")-K57

    一求K2到K56区域95~99.5分的人数假设把结果存放于K58单元格

    (3)=COUNTIF(K2:K56,">=90")-SUM(K57:K58)

    一求K2到K56区域90~94.5分的人数;假设把结果存放于K59单元格;

    (4)=COUNTIF(K2:K56,">=85")-SUM(K57:K59)

    一求K2到K56区域85~89.5分的人数;假设把结果存放于K60单元格;

    (5)=COUNTIF(K2:K56,">=70")-SUM(K57:K60)

    一求K2到K56区域70~84.5分的人数;假设把结果存放于K61单元格;

    (6)=COUNTIF(K2:K56,">=60")-SUM(K57:K61)

    一求K2到K56区域60~69.5分的人数;假设把结果存放于K62单元格;

    (7)=COUNTIF(K2:K56,"<60")

    一求K2到K56区域60分以下的人数;假设把结果存放于K63单元格;说明:COUNTIF函数也可计算某一区域男、女生人数。如:=COUNTIF(C2:C351,"男")一求C2到C351区域(共350人)男性人数;

    9、优秀率:=SUM(K57:K60)/55*100

    10、及格率:=SUM(K57:K62)/55*100

    11、标准差:=STDEV(K2:K56)

    一求K2到K56区域(55人)的成绩波动情况数值越小,说明该班学生间的成绩差异较小,反之,说明该班存在两极分化);

    12、条件求和:=SUMIF(B2:B56,"男",K2:K56)

    一假设B列存放学生的性别,K列存放学生的分数,则此函数返回的结果表示求该班男生的成绩之和;

    13、多条件求和:1=SUM(IF(C3:C322="男",IF(G3:G322=1,1,)))

    一假设C列(C3:C322区域)存放学生的性别,G列(G3:G322区域)存放学生所在班级代码(1、2、3、4、5),则此函数返回的结果表示求一班的男生人数;这是一个数组函数,输完后要按Ctrl+Shift+Enter组合键(产生“.....了“{}”不能手工输人,只能用组合键产生。

    14、根据出生日期自动计算周岁:=TRUNC(DAYS360(D3,NOW0())/360,0)

    一假设D列存放学生的出生日期,E列输人该函数后则产生该生的周岁。

    问题:

    问一:Excel中当某一单元格符合特定条件,如何在另一单元格显示特定的颜色

    A1>1时,C1显示红色0

    方法如下:

    1.单元击C1单元格,点“格式”“条件格式”条件1设为:公式=A1=1

    2.点“格式”>“字体”>“颜色”点击红色后点“确定”条件2设为:公式=AND(A1>0,A1<1)

    3.点“格式”>“字体”>“颜色”点击绿色后点”确定”条件3设为:公式=A1<0

    点“格式”>“字体”“颜色”点击黄色后点”确定”

    4、三个条件设定好后,点“确定”即出。

    问二:EXCEL中如何控制每列数据的长度并避免重复录人

    1、用数据有效性定义数据长度

    用鼠标选定你要输,人的数据范围,点"数据"->"有效性"->"设置","有效性条件”设成”允许111文本长度"等于""5"(具体条件可根据你的需要改变)。

    还可以定义一些提示信息,出错警告信息和是否打开中文输入法等,定义好后点"确定”。

    2、用条件格式避免重复

    选定A列,点”格式"->"条件格式",将条件设成“公式=COUNTIF($A:$A,$A1)>1”点"格式"->"字体"->"颜色",选定红色后点两次"确定"。

    这样设定好后你输人数据如果长度不对会有提示,如果数据重复字体将会变成红色。

    问三:在EXCEL中如何把B列与A列不同之处标识出来?

    1、如果是要求A、B两列的同一行数据相比较:

    假定第一行为表头,单击A2单元格,点“格式”>“条件格式”将条件设为:

    单元格数值”不等于"=B2

    点“格式”>“字体颜色”,选中红色,点两次”确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。

    2、如果是A列与B列整体比较(即相同数据不在同一行)

    假定第一行为表头,单击A2单元格,点“格式”>“条件格式”将条件设为:

    公式"COUNTIF($B:$B,$A2)=0

    点“格式”“字体”“颜色”选中红色,点两次“确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。

    按以上方法设置后,AB列均有的数据不着色,A列有B列无或者B列有A列无的数据标记为红色字体。

    问四:EXCEL中怎样批量地处理按行排序

    假定有大量的数据(数值),需要将每一-行按从大到小排序,如何操作?

    由于按行排序与按列排序都是只能有一一个主关键字,主关键字相同时才能按次关键字排序。所以,这一问题不能用排序来解决。解决方法如下:

    假定你的数据在A至E列,请在F1单元格输入公式:=LARGE($A1:$E1,COLUMN(A1))

    用填充柄将公式向右向下复制到相应范围。

    你原有数据将按行从大到小排序出现在F至J列。如有需要可用“选择性粘贴/数值”复制到其他地方。

    注:第1步的公式可根据你的实际情况(数据范围)作相应的修改。如果要从小到大排序,公式改为:=SMALL($A1:$E1,COLUMN(A1))

    问五:巧用函数组合进行多条件的计数统计

    例:第一行为表头,A列是“姓名",B列是“班级",C列是“语文成绩",D列是“录取结果”,现在要统计“班级为“二”"“语文成绩”大于等于104,"录取结果”为“重本”的人数。统计结果存放在本工作表的其他列。公式如下:

    =SUM(IF((B2:B9999="二")*(C2:C9999>=104)*(D2:D9999="重本"),1,0))

    输入完公式后按Ctrl+Shift+Enter键,让它自动加上数组公式符号"{"。

    问六:如何判断单元格里是否包含指定文本?

    假定对A1单元格进行判断有无”指定文本",以下任--公式均可:

    =IF(COUNTIF(A1,"*"&"指定文本"&"*")=1,"有","无")=lF(ISERROR(FIND("指定文本",A1,1)),"无","有")

    求某一区域内不重复的数据个数

    例如求A1:A100范围内不重复数据的个数,某个数重复多次出现只算一个。有两种计算方法:一是利用数组公式:

    =SUM(1/COUNTIF(A1:A100,A1:A100))

    输人完公式后按Ctrl+Shift+Enter键,让它自动加上数组公式符号"{"。

    二是利用乘积求和函数:

    =SUMPRODUCT(1/COUNTIF(A1:A100,A1:A100))

    问七:一个工作薄中有许多工作表如何快速整理出-一个目录工作表

    1.用宏3.0取出各工作表的名称,方法:

    Ctrl+F3出现自定义名称对话框,取名为X,在“引用位置框中输入:

    =MID(GET.WORKBOOK(1),FIND("]",GET.WORKBOOK(1))+1,100)确定

    2、用HYPERLINK函数批量插入连接,方法:

    在目录工作表(一般为第一个sheet)的A2单元格输人公式:

    =HYPERLINK("#""&INDEX(X,ROW())&"!A1",INDEX(X,ROW())

    将公式向下填充,直到出错为止,目录就生成了。

    善于使用表格中的公式,能够让我们的工作事半功倍,极大的提高我们的工作效率,节约我们个人时间,表格中的函数功能非常强大,如果我们能够熟练的使用函数和嵌套函数的话,无论我们遇到什么样的数据处理问题,都可以使用表格来进行解决。

    图片来源于网络,如有侵权,请联系删除。

  • ?

    这些Excel公式,简单却超实用!

    Ora

    展开

    就业等位来【这些Excel公式,简单却超实用!】①查找重复内容公式:=IF(COUNTIF(A:A,A2)>1,"重复","") ②求和:=SUM(K2:K56) ——对K2到K56这一区域进行求和 ③平均数:=AVERAGE(K2:K56) ——对K2 K56这一区域求平均数 ④排名: =RANK(K2,K$2:K$56) ——对55人的成绩进行排名。 @央视新闻:就业等位来【快转走!常用Excel公式都在这儿了!】求和、平均数、最大值、标准差……如何查找重复值;如何自动标出符合条件的数值……进阶版Excel超实用技巧。存好!有用!

    版权声明:如涉及版权问题,请作者持权属证明与本网联系

    来源:央视新闻

  • ?

    2018年最全的excel函数大全14—统计函数(9)

    途往

    展开

    上次给大家分享了《2018年最全的excel函数大全14—统计函数(8)》,这次分享给大家统计函数(9)。

    STDEVPA 函数

    描述

    根据作为参数(包括文字和逻辑值)给定的整个总体计算标准偏差。 标准偏差可以测量值在平均值(中值)附近分布的范围大小。

    用法

    STDEVPA(value1, [value2], ...)

    STDEVPA 函数用法具有下列参数:

    Value1, value2, ...Value1 是必需的,后续值是可选的。 对应于总体的 1 到 255 个值。 也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。

    备注

    STDEVPA 假定其参数是整个总体。 如果数据代表总体样本,则必须使用 STDEVA 计算标准偏差。对于规模很大的样本,STDEVA 和 STDEVPA 返回近似值。此处标准偏差的计算使用“n”方法。参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 STDEVP 函数。STDEVPA 使用下面的公式:

    其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。

    案例

    STEYX 函数

    描述

    返回通过线性回归法预测每个 x 的 y 值时所产生的标准误差。 标准误差是在针对单独 x 预测 y 时的错误量的一个度量值。

    用法

    STEYX(known_y's, known_x's)

    STEYX 函数用法具有下列参数:

    Known_y's必需。 因变量数据点数组或区域。Known_x's必需。 自变量数据点数组或区域。

    备注

    参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果 known_y's 和 known_x's 的数据点个数不同,函数 STEYX 返回错误值 #N/A。如果 known_y's 和 known_x's 为空或其数据点个数小于三,则 STEYX 返回错误值 #p/0!。预测值 y 的标准误差计算公式如下:

    其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's),且 n 是样本大小。

    案例

    T.DIST 函数

    描述

    返回学生的左尾 t 分布。 t 分布用于小型样本数据集的假设检验。 可以使用该函数代替 t 分布的临界值表。

    用法

    T.DIST(x,deg_freedom, cumulative)

    T.DIST 函数用法具有以下参数:

    X必需。 需要计算分布的数值。Deg_freedom必需。 一个表示自由度数的整数。cumulative必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 T.DIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。

    备注

    如果任一参数是非数值的,则 T.DIST 返回 错误值 #VALUE!。如果 deg_freedom 1,则 T.DIST 返回一个错误值。 Deg_freedom 不得小于 1。

    案例

    T.DIST.2T 函数

    描述

    返回学生的双尾 t 分布。

    学生的 t 分布用于小样本数据集的假设检验。 可以使用该函数代替 t 分布的临界值表。

    用法

    T.DIST.2T(x,deg_freedom)

    T.DIST.2T 函数用法具有以下参数:

    X必需。 需要计算分布的数值。Deg_freedom必需。 一个表示自由度数的整数。

    备注

    如果任一参数是非数值的,则 T.DIST.2T 返回 错误值 #VALUE!。如果 deg_freedom 1,则 T.DIST.2T 返回 错误值 #NUM!。如果 x 0,则 T.DIST.2T 返回 错误值 #NUM!。

    案例

    T.DIST.RT 函数

    描述

    返回学生的右尾 t 分布。

    t 分布用于小型样本数据集的假设检验。 可以使用该函数代替 t 分布的临界值表。

    用法

    T.DIST.RT(x,deg_freedom)

    T.DIST.RT 函数用法具有以下参数:

    X必需。 需要计算分布的数值。Deg_freedom必需。 一个表示自由度数的整数。

    备注

    如果任一参数是非数值的,则 T.DIST.RT 返回 错误值 #VALUE!。如果 deg_freedom 1,则 T.DIST.RT 返回 错误值 #NUM!。

    案例

    T.TEST 函数

    描述

    返回与学生 t-检验相关的概率。 使用函数 T.TEST 确定两个样本是否可能来自两个具有相同平均值的基础总体。

    用法

    T.TEST(array1,array2,tails,type)

    T.TEST 函数用法具有下列参数:

    Array1必需。 第一个数据集。Array2必需。 第二个数据集。tails必需。 指定分布尾数。 如果 tails = 1,则 T.TEST 使用单尾分布。 如果 tails = 2,则 T.TEST 使用双尾分布。Type必需。 要执行的 t 检验的类型。

    参数

    备注

    如果 array1 和 array2 的数据点个数不同,且 type = 1(成对),则 T.TEST 返回错误值 #N/A。参数 tails 和 type 将被截尾取整。如果 tails 或 type 是非数值的,则 T.TEST 返回 错误值 #VALUE!。如果 tails 是除 1 或 2 之外的任何值,则 T.TEST 返回 错误值 #NUM!。T.TEST 使用 array1 和 array2 中的数据计算非负 t 统计值。 如果 tails=1,在假设 array1 和 array2 是具有相同平均值的总体中的样本的情况下,T.TEST 返回较高 t 统计值的概率。 tails=2 时,T.TEST 返回的值是 tails=1 时返回值的两倍,并对应假设“总体平均值相同”时较高的 t 统计绝对值的概率。

    案例

    TREND 函数

    描述

    返回线性趋势值。 找到适合已知数组 known_y's 和 known_x's 的直线(用最小二乘法)。 返回指定数组 new_x's 在直线上对应的 y 值。

    用法

    TREND(known_y's, [known_x's], [new_x's], [const])

    TREND 函数用法具有下列参数:

    Known_y's必需。 关系表达式 y = mx + b 中已知的 y 值集合。如果数组 known_y's 在单独一列中,则 known_x's 的每一列被视为一个独立的变量。如果数组 known_y's 在单独一行中,则 known_x's 的每一行被视为一个独立的变量。Known_x's必需。 关系表达式 y = mx + b 中已知的可选 x 值集合。数组 known_x's 可以包含一组或多组变量。 如果仅使用一个变量,那么只要 known_x's 和 known_y's 具有相同的维数,则它们可以是任何形状的区域。 如果用到多个变量,则 known_y's 必须为向量(即必须为一行或一列)。如果省略 known_x's,则假设该数组为 {1,2,3,...},其大小与 known_y's 相同。New_x's必需。 需要函数 TREND 返回对应 y 值的新 x 值。New_x's 与 known_x's 一样,对每个自变量必须包括单独的一列(或一行)。 因此,如果 known_y's 是单列的,known_x's 和 new_x's 应该有同样的列数。 如果 known_y's 是单行的,known_x's 和 new_x's 应该有同样的行数。如果省略 new_x's,将假设它和 known_x's 一样。如果 known_x's 和 new_x's 都省略,将假设它们为数组 {1,2,3,...},大小与 known_y's 相同。Const可选。 一个逻辑值,用于指定是否将常量 b 强制设为 0。如果 const 为 TRUE 或省略,b 将按正常计算。如果 const 为 FALSE,b 将被设为 0(零),m 将被调整以使 y = mx。

    备注

    有关 Microsoft Excel 对数据进行直线拟合的详细信息,请参阅 LINEST 函数。可以使用 TREND 函数计算同一变量的不同乘方的回归值来拟合多项式曲线。 例如,假设 A 列包含 y 值,B 列含有 x 值。 可以在 C 列中输入 x^2,在 D 列中输入 x^3,等等,然后根据 A 列,对 B 列到 D 列进行回归计算。对于返回结果为数组的公式,必须以数组公式的形式输入。

    注意:在 Excel Online 中,不能创建数组公式。

    当为参数(如 known_x's)输入数组常量时,应当使用逗号分隔同一行中的数据,用分号分隔不同行中的数据。

    案例

    TRIMMEAN 函数

    描述

    返回数据集的内部平均值。 TRIMMEAN 计算排除数据集顶部和底部尾数中数据点的百分比后取得的平均值。 当您要从分析中排除无关的数据时,可以使用此函数。

    用法

    TRIMMEAN(array, percent)

    TRIMMEAN 函数用法具有下列参数:

    Array必需。 需要进行整理并求平均值的数组或数值区域。百分比必需。 从计算中排除数据点的分数。 例如,如果 percent=0.2,从 20 点 (20 x 0.2) 的数据集中剪裁 4 点:数据集顶部的 2 点和底部的 2 点。

    备注

    如果 percent 0 或 percent 1,则 TRIMMEAN 返回 错误值 #NUM!。函数 TRIMMEAN 将排除的数据点数向下舍入到最接近的 2 的倍数。 如果 percent = 0.1,30 个数据点的 10% 等于 3 个数据点。 为了对称,TRIMMEAN 排除数据集顶部和底部的单个值。

    案例

    VAR.P 函数

    描述

    计算基于整个样本总体的方差(忽略样本总体中的逻辑值和文本)。

    用法

    VAR.P(number1,[number2],...)

    VAR.P 函数用法具有下列参数:

    Number1必需。对应于总体的第一个数值参数。Number2, ...可选。对应于总体的 2 到 254 个数值参数。

    备注

    VAR.P 假定其参数是整个总体。如果数据代表总体样本,请使用 VAR.S 计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本,请使用 VARPA 函数。函数 VAR.P 的计算公式如下:

    其中 x 为样本平均值 AVERAGE(number1,number2,…),n 为样本大小。

    案例

    VAR.S 函数

    描述

    估算基于样本的方差(忽略样本中的逻辑值和文本)。

    用法

    VAR.S(number1,[number2],...)

    VAR.S 函数用法具有下列参数:

    Number1必需。对应于总体样本的第一个数值参数。Number2, ...可选。对应于总体样本的 2 到 254 个数值参数。

    备注

    函数 VAR.S 假设其参数是样本总体中的一个样本。如果数据为整个样本总体,则应使用函数 VAR.P 来计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本,请使用 VARA 函数。函数 VAR.S 的计算公式如下:

    其中 x 为样本平均值 AVERAGE(number1,number2,…),n 为样本大小。

    案例

    VARA 函数

    描述

    计算基于给定样本的方差。

    用法

    VARA(value1, [value2], ...)

    VARA 函数用法具有下列参数:

    Value1, value2, ...Value1 是必需的,后续值是可选的。 这些是对应于总体样本的 1 到 255 个数值参数。

    备注

    VARA 假定其参数是总体样本。 如果数据代表的是样本总体,则必须使用函数 VARPA 来计算方差。参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 VAR 函数。函数 VARA 的计算公式如下:

    其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。

    案例

    VARPA 函数

    描述

    根据整个总体计算方差。

    用法

    VARPA(value1, [value2], ...)

    VARPA 函数用法具有下列参数:

    Value1, value2, ...Value1 是必需的,后续值是可选的。 对应于总体的 1 到 255 个值参数。

    备注

    VARPA 假定其参数是整个总体。 如果数据代表总体样本,则必须使用 VARA 计算方差。参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 VARP 函数。VARPA 的公式为:

    其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。

    案例

    WEIBULL.DIST 函数

    描述

    返回 Weibull 分布。 可以将该分布用于可靠性分析,例如计算设备出现故障的平均时间。

    用法

    WEIBULL.DIST(x,alpha,beta,cumulative)

    WEIBULL.DIST 函数用法具有下列参数:

    X必需。 用来计算函数的值。Alpha必需。 分布参数。Beta必需。 分布参数。cumulative必需。 确定函数的形式。

    备注

    如果 x、alpha 或 beta 是非数值的,则 WEIBULL.DIST 返回 错误值 #VALUE!。如果 x 0,则 WEIBULL.DIST 返回 错误值 #NUM!。如果 alpha ≤ 0 或 beta ≤ 0,则 WEIBULL.DIST 返回 错误值 #NUM!。Weibull 累积分布函数的公式为:

    Weibull 概率密度函数的公式为:

    当 alpha = 1,函数 WEIBULL.DIST 返回指数分布:

    案例

    Z.TEST 函数

    ...
  • ?

    2018年最全的excel函数大全14—统计函数(8)

    语兰

    展开

    上次给大家分享了《2018年最全的excel函数大全14—统计函数(7)》,这次分享给大家统计函数(8)。

    RANK.AVG 函数

    描述

    返回一列数字的数字排位:数字的排位是其大小与列表中其他值的比值;如果多个值具有相同的排位,则将返回平均排位。

    用法

    RANK.AVG(number,ref,[order])

    RANK.AVG 函数用法具有下列参数:

    Number必需。 要找到其排位的数字。Ref必需。 数字列表的数组,对数字列表的引用。 Ref 中的非数字值会被忽略。Order可选。 一个指定数字排位方式的数字。

    备注

    如果 Order 为 0(零)或省略,Excel 对数字的排位是基于 ref 为按降序排列的列表。如果 Order 不为零,Excel 对数字的排位是基于 ref 为按升序排列的列表。

    案例

    RANK.EQ 函数

    描述

    返回一列数字的数字排位。 其大小与列表中其他值相关;如果多个值具有相同的排位,则返回该组值的最高排位。

    如果要对列表进行排序,则数字排位可作为其位置。

    用法

    RANK.EQ(number,ref,[order])

    RANK.EQ 函数用法具有下列参数:

    Number必需。 要找到其排位的数字。Ref必需。 数字列表的数组,对数字列表的引用。 Ref 中的非数字值会被忽略。Order可选。 一个指定数字排位方式的数字。

    备注

    如果 Order 为 0(零)或省略,Excel 对数字的排位是基于 Ref 为按降序排列的列表。如果 Order 不为零, Excel 对数字的排位是基于 Ref 为按照升序排列的列表。RANK.EQ 赋予重复数相同的排位。 但重复数的存在将影响后续数值的排位。 例如,在按升序排序的整数列表中,如果数字 10 出现两次,且其排位为 5,则 11 的排位为 7(没有排位为 6 的数值)。要达到某些目的,可能需要使用将关联考虑在内的排位定义。 在上一案例中,可能需要将数字 10 的排位修改为 5.5。 这可以通过向 RANK.EQ 返回的值添加以下修正系数来实现。 此修正系数适用于按降序排序(order = 0 或省略)和按升序排序(order = 非零值)计算排位的情况。

    关联排位的修正系数 =[COUNT(ref) + 1 – RANK.EQ(number, ref, 0) – RANK.EQ(number, ref, 1)]/2。

    在工作簿中的案例中,RANK.EQ(A3,A2:A6,1) 等于3。 修正系数为 (5 + 1 – 2 – 3)/2 = 0.5,将关联考虑在内的修订排位为 3 + 0.5 = 3.5。 如果数字在 ref 中仅出现一次,此修正系数将为 0,因为无需调整 RANK.EQ 以进行关联。

    案例

    RSQ 函数

    描述

    通过 known_y's 和 known_x's 中的数据点返回皮尔生乘积矩相关系数的平方。有关详细信息,请参阅PEARSON 函数。R 平方值可以解释为 y 方差可归于 x 方差的比例。

    用法

    RSQ(known_y's,known_x's)

    RSQ 函数用法具有下列参数:

    Known_y's必需。 数组或数据点区域。Known_x's必需。 数组或数据点区域。

    备注

    参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果 known_y's 和 known_x's 为空或其数据点个数不同,函数 RSQ 返回错误值 #N/A。如果 known_y's 和 known_x's 只包含 1 个数据点,则 RSQ 返回 错误值 #p/0!。皮尔生(Pearson)乘积矩相关系数 r 的计算公式如下:

    其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)。

    RSQ 返回 r2,即相关系数的平方。

    案例

    SKEW 函数

    描述

    返回分布的偏斜度。 偏斜度表明分布相对于平均值的不对称程度。 正偏斜度表明分布的不对称尾部趋向于更多正值。 负偏斜度表明分布的不对称尾部趋向于更多负值。

    用法

    SKEW(number1, [number2], ...)

    SKEW 函数用法具有下列参数:

    number1, number2, ...Number1 是必需的,后续数字是可选的。 用于计算偏斜度的 1 到 255 个参数。 也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。

    备注

    参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果数据点个数少于三,或者样本标准偏差为零,则 SKEW 返回 错误值 #p/0!。偏斜度公式的定义如下:

    案例

    SKEW.P 函数

    描述

    返回基于样本总体的分布不对称度:表明分布相对于平均值的不对称程度。

    用法

    SKEW.P(number 1, [number 2],…)

    SKEW.P 函数用法具有下列参数。

    Number 1, number 2,…Number 1 是必选项,后续数字是可选项。Number 1、number 2、… 等是 1 至 254 个数字,或包含数字的名称、数组或引用,您要以此函数获得其样本总体的分布不对称度。

    SKEW.P 使用下面的公式:

    备注

    参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零 (0) 值的单元格将计算在内。SKEW.P 使用样本总体的标准偏差,而非一个样本。如果参数值无效,SKEW.P 返回错误值 #NUM!。如果参数使用的数据类型无效,SKEW.P 返回错误值 #VALUE!。如果数据点个数少于三,或者样本标准偏差为零,SKEW.P 返回错误值 #p/0!。

    案例

    SLOPE 函数

    描述

    返回通过 known_y's 和 known_x's 中数据点的线性回归线的斜率。 斜率为垂直距离除以线上任意两个点之间的水平距离,即回归线的变化率。

    用法

    SLOPE(known_y's, known_x's)

    SLOPE 函数用法具有下列参数:

    Known_y's必需。 数字型因变量数据点数组或单元格区域。Known_x's必需。 自变量数据点集合。

    备注

    参数可以是数字,或者是包含数字的名称、数组或引用。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。如果 known_y's 和 known_x's 为空或其数据点个数不同,函数 SLOPE 返回错误值 #N/A。回归直线的斜率计算公式如下:

    其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)。

    SLOPE 和 INTERCEPT 函数中使用的下层算法与 LINEST 函数中使用的下层算法不同。 当数据未定且共线时,这些算法之间的差异会导致不同的结果。 例如,如果参数 known_y's 的数据点为 0,参数 known_x's 的数据点为 1:SLOPE 和 INTERCEPT 返回 错误 #p/0!。 SLOPE 和 INTERCEPT 的算法用于只查找一个答案,在这种情况下,还可能会出现多个答案。LINEST 会返回值 0。 LINEST 的算法用来返回共线数据的合理结果,在这种情况下至少可找到一个答案。

    案例

    SMALL 函数

    描述

    返回数据集中的第 k 个最小值。 使用此函数以返回在数据集内特定相对位置上的值。

    用法

    SMALL(array,k)

    SMALL 函数用法具有下列参数:

    Array必需。 需要找到第 k 个最小值的数组或数值数据区域。K必需。 要返回的数据在数组或数据区域里的位置(从小到大)。

    备注

    如果 array 为空,则 SMALL 返回 错误值 #NUM!。如果 k ≤ 0 或 k 超过了数据点个数,则 SMALL 返回 错误值 #NUM!。如果 n 为数组中的数据点个数,则 SMALL(array,1) 等于最小值,SMALL(array,n) 等于最大值。

    案例

    STANDARDIZE 函数

    描述

    返回由 mean 和 standard_dev 表示的分布的规范化值。

    用法

    STANDARDIZE(x, mean, standard_dev)

    STANDARDIZE 函数用法具有下列参数:

    X必需。 需要进行正态化的数值。Mean必需。分布的算术平均值。standard_dev必需。分布的标准偏差。

    备注

    如果 standard_dev ≤ 0,则 STANDARDIZE 返回错误值 #NUM!。规范化值的公式为:

    案例

    STDEV.P 函数

    描述

    计算基于以参数形式给出的整个样本总体的标准偏差(忽略逻辑值和文本)。

    标准偏差可以测量值在平均值(中值)附近分布的范围大小。

    用法

    STDEV.P(number1,[number2],...)

    STDEV.P 函数用法具有下列参数:

    Number1必需。对应于总体的第一个数值参数。Number2, ...可选。对应于总体的 2 到 254 个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。

    备注

    STDEV.P 假定其参数是整个总体。如果数据代表总体样本,请使用 STDEV 计算标准偏差。对于大样本容量,函数 STDEV.S 和 STDEV.P 计算结果大致相等。此处标准偏差的计算使用“n”方法。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本,请使用 STDEVPA 函数。函数 STDEV.P 的计算公式如下:

    其中 x 为样本平均值 AVERAGE(number1,number2,…),n 为样本大小。

    案例

    STDEV.S 函数

    描述

    基于样本估算标准偏差(忽略样本中的逻辑值和文本)。

    标准偏差可以测量值在平均值(中值)附近分布的范围大小。

    用法

    STDEV.S(number1,[number2],...)

    STDEV.S 函数用法具有下列参数:

    Number1必需。对应于总体样本的第一个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。Number2, ...可选。对应于总体样本的 2 到 254 个数值参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。

    备注

    STDEV.S 假设其参数是总体样本。如果数据代表整个总体,请使用 STDEV.P 计算标准偏差。此处标准偏差的计算使用“n-1”方法。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本,请使用 STDEVA 函数。函数 STDEV.S 的计算公式如下:

    其中 x 为样本平均值 AVERAGE(number1,number2,…),n 为样本大小。

    案例

    STDEVA 函数

    描述

    根据样本估计标准偏差。 标准偏差可以测量值在平均值(中值)附近分布的范围大小。

    用法

    STDEVA(value1, [value2], ...)

    STDEVA 函数用法具有下列参数:

    Value1, value2, ...Value1 是必需的,后续值是可选的。 对应于总体样本的 1 到 255 个值。 也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。

    备注

    STDEVA 假定其参数是总体样本。 如果数据代表整个总体,则必须使用 STDEVPA 计算标准偏差。此处标准偏差的计算使用“n-1”方法。参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本,将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 STDEV 函数。STDEVA 使用下面的公式:

    其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。

    案例

    以上是所有EXCEL的统计函数(8)描述用法以及使用案例。这次分享中存在哪些疑问或者哪些不足,可以在下面进行评论。如果觉得不错,可以分享给你的朋友,让大家一起掌握这些excel的统计函数(8)。

标准差excel函数

所有视频需要登录后,才能观看

请先登录您的帐号,即可完整播放,如果您尚未注册帐号,请先点击注册。

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP