> >

?

数据分析必须懂的假设检验

裴菲鹰

展开

欢迎关注天善智能hellobi，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学院、问答、找工作，一站式搞定！
本文是《如何七周成为数据分析师》的第十六篇教程，如果想要了解写作初衷，可以先行阅读七周指南。温馨提示：如果您已经熟悉概率分布，大可不必再看这篇文章，或只挑选部分。
在前一篇讲完概率分布后，我们再接再厉拿下假设检验，也就是大名鼎鼎的AB Testing。俗话说得好，再优秀的产品经理也跑不过一半AB测试。
抽样
数据分析中，虽然数据越多越齐越好，可是受限于各类因素的制约，我们并不能获取全部的数据。比如Excel的性能限制，比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。
抽样是一种应对方法，通过样本来推断总体，抽样结果提供的仅仅是相应总体特征的估计，「估计」这一点很重要。
抽样有很多方式，样本首要满足随机性。比如进行社会访谈，你不能只选择商场人流区，因为采访到的人群明显是同一类人群，反而会遗漏郊区和乡镇的人群，遗漏宅男，遗漏老人。
互联网产品中，抽样也无处不在，大名鼎鼎的AB测试就是一种抽样，选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字，比如末尾选择0～4，于是抽样出了50%的用户，这既能保证随机性，也能保证控制性。
毕竟抽样的目的是验证和检验，需要始终保证用户群体的完全隔离，不能用户一会看到老界面，一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战，用户分群等。
至于放回抽样，分层抽样，在互联网的数据分析中用不太到，这里就略过了。
点估计
既然我们已经知道如何选择一个样本，接下来需要从样本推断总体。
列举一个场景。产品和运营人员每周都会进行一次用户调研，调研随机抽取30位用户对产品进行打分，分数0～10。根据历史数据计算出平均7.5分，标准差为1分。
现在的问题是，用户调研能否反应一些产品的状况？比如发布新版本，或者做了营销活动后，怎么判断是正面影响还是负面？假设本月产品经理们发布了一次新版本，这次调研抽取30位用户平均评分是7.3，究竟是正常的波动还是做糟糕了？
在统计学中，把总体的平均值标准差等称为总体参数，把样本的种种指标称为点估计量。s是样本标准差，σ是总体标准差。n是样本，N是总体。
点估计在原有的符号上加横线表示，比如样本均值
，念做x拔（打出这个字符麻烦，我简称为拔了）。
x拔是样本均值，现实中不可能保证每次调研的数据都是一致的，假设将抽样过程一而再，再而三的进行下去，那么调研获得的平均分也是波动的。此时，样本均值x拔是一个随机变量，称它的概率分布为x拔的抽样分布。
每次抽样得出的不同均值，必然会有一个期望值，E(x拔) = u，E(x拔)就是所有大量抽样的可能值的均值。对简单随机抽样，我们可以认为其数学期望等于u总体均值。当点估计量的期望值等于总体参数时，称为无偏估计。
当样本量占总体5%以上时，有求样本标准差公式如下：
当样本量占总体5%以下时，公式可以简化成：
研的用户量肯定小于总体5%，于是能求出样本的标准差为0.18。
上述数学期望和标准差的计算适用于所有总体，可如果想要知道具体的概率呢？比如分数小于等于7.3的可能性？如果是10%，那么说明这是稀少的情况，产品的改版未必尽如人意。如果是90%，说明这是数据的正常波动。
x拔作为概率分布，也非为正态分布和非正态分布。根据统计学中的中心极限定理，当样本数足够时（n>30），x拔的抽样分布可近似于正态分布。
只要是正态分布就好办了，把问题转换成标准正态分布的概率求解。调研样本评分x=7.3分，标准差σ为0.18。总体均值u为7.5分。
z = （7.3-7.5）／0.18 = -1.11。于是P(x<=7.3)=P(z<=-1.1) = 13.3%。上述结果说明，本次抽样得到7.3分（或者更低）的概率为13.3%，产品人员或许可以相信，这次改版并不好。
通过抽样估算总体，它的概率计算是以样本标准差作为依据的，换言之，如果样本标准差变化，则概率一定变化。而样本标准差和样本容量n息息相关。如果调研用户数是100位，那么哪怕其他数字没变化，最终概率也会变成2.2%。这是样本容量增加，均值的标准差减少了误差。
区间估计
点估计是用于估计总体参数的样本统计量，我们不可能通过点估计就给出总体参数的一个精确值，更稳妥的方法是加减一个边际误差，通过一个区间值来估计。
上文的用户调研案例，已经知道了总体均值和标准差。可是它的总体均值也只是通过历次调研作出的假设，并不能反应产品所有用户的评价。一个更实际的应用是，如何通过一次调研来计算用户的总体评价。这是反其道而行之。
通过调研的历史数据，已经知道了用户打分的标准差是1。最近产品人员进行了一次大规模的调研，访问了200位用户，得到样本均值7.5分。现在需要计算总体均值的区间。
通过点估计公式，可以得出样本标准差为0.07。在正态分布的经验公式中，已知任何正态分布的随机变量都有95%的值落在均值附近1.96个标准差以内。因此x拔的值一定有95%落在均值u的1.96个标准差以内。
此时，1.96个标准差等于1.96*0.07 = 0.13。利用总体均值的区间估计公式：
将数据代入：
这里多出了一个新的符号Zσ/2，称之为置信水平，之所以除2是因为正态分布左右对称。它代表的是「随机变量都有95%的值落在均值附近1.96个标准差以内」，即均值有95%的概率落在这个区间内，也叫做95%置信水平。推广开来，也有90%置信水平，99%置信水平等。
1.96是95%置信水平的Zσ/2值，我在上文已经求出边际误差为0.13，最后加入平均值得到答案7.36~7.64，于是可以说，通过调研样本均值估计，总体用户的打分有95%的概率在7.36～7.64之间。我们把[7.36,7.64]叫做置信区间。
大家可能也已经猜出来了，为了获得更高的置信水平，必然会得到更宽的置信区间。比如我假设一个置信区间是[7,8]，那么它的置信度肯定无限接近100，因为它几乎囊括了所有的可能。如何选择置信水平和区间，是数据分析中的要点之一。
区间估计中还有一种常见情况，即σ未知，上文的案例我们知道了总体的标准差，如果标准差也不知道呢？毕竟案例也只是以历史调研数据假设了标准差，未必反应了用户真实的情况。于是再给出一个新的问题，访问了200位用户，得到样本均值7.5分，标准差为2，那么总体均值是多少？
通过样本标准差估计总体标准差，总体均值是以t分布（上文对应的叫做z分布）的概率分布为依据。t分布假设抽样总体满足正态分布，但是非正态分布中，也是能用t的，效果不错。
t分布依赖一种叫自由度df的的参数。与标准正态分布曲线相比，df越小，t分布曲线愈平坦；df愈大，t分布曲线愈接近正态分布曲线，当df=∞时，t分布曲线为标准正态分布曲线。区间估计公式如下：
公式没有大的变化，总体标准差σ变化为样本标准差s，置信水平由t概率表计算。t概率的区间分布，需要自由度和置信水平两个参数。自由度=样本量-1，案例中的自由度为199。然后使用Excel的TINV( )函数计算，当置信水平为95%时，TINV(0.05,199)=1.97。代入公式：
得到区间[7.22,7.77]，在总体标准差未知的情况下，可以通过样本均值7.5和标准差2计算总体均值有95%的概率落在7.22～7.77之间。
假设检验
在熟悉掌握点估计和区间估计之后，深入学习假设检验。
何为假设检验？假设检验是对总体参数做一个尝试性的假设，该尝试性的假设称为原假设，然后定义一个和原假设完全对立的假设叫做备选假设。假设检验就是通过样本数据对两个对立假设进行检验。
假设检验有一套成熟的方法论。从参数看，即可以计算平均数，也可以计算比率。从样本看，可以划分为单样本和双样本。单样本是从总体中抽取一部分进行样本均数和总体均数的比较。用户调研就是一个典型的单样本。从假设的条件看，有单侧检验（仅大于或小于的可能性）和双侧（仅不可能，包含大于和小于两种情况）检验。
数据分析中更多的情况是两组样本的比较，譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏。因为篇幅原因，案例将重点放在双样本检验中，单样本检验熟悉点估计和区间估计后不难。
回到最开始的案例，当通过调研发现用户对产品评分下降了，接下来得讨论怎么做。产品经理们说：用户都傻兮兮的，它们对产品改版无法作出有效的判断，所以打分不算数，应该用一套更好的判断方法。
这时以产品改版后的活跃相关指标作为标准，其中一半用户不做改变，还是原始功能，成为对照组。另外一半用户体验新功能，为改进组，然后根据一段时间后的表现来判断改版好与不好。
活跃指标怎么设立很大程度影响如何用假设检验。既可以用均值法，即用户平均使用时长，或一段时间窗口内的平均活跃用户数来衡量，也可以用比例法，即某一时间内的活跃率。两者对应不同的公式，这里以平均活跃用户数举例。
假设检验首先需要设立原假设和备选假设，这里很容易犯错。在许多假设检验中，都以备选假设为出现点，它是希望得到支持的结论。因为之前用户调研的评分是下降的，于是检验更希望「拒绝」活跃上升或不变，从而得出下降的结论。
原假设H0：活跃提升或不变；备选假设Ha：活跃下降。如果样本结果得出拒绝H0的结论，那么可以做出Ha为真的推断。
不同的样本量和总体方差使用的检验方法不同，下图是不同情况下使用的检验方法。样本是否大于小于30是因为中心极限定理，在大样本量，且总体方差未知时，使用t检验还是z检验均可，因为t分布近似于z分布。我们使用z检验做双样本均值。
将用户分割出两个群体体验产品功能，原始对照组和改进组都有50000用户。对照组的七日平均活跃数u1=8500，标准差为s1=1250，改进组的七日平均活跃数为u2=8300，标准差s2=1240。当总体标准差未知时，有公式：
计算出z=25.399，远大于1.96，p值无限接近0，几乎不可能发生，也就说明改进组的活跃上升或者等于是个极小概率事件，我们拒绝了原假设，接受了备选假设。若还想深入的查看活跃究竟下降了多少，使用双样本均值计算置信区间：
两个样本均值之差的95%置信区间为[183.566,215.433]。也就是说七日平均活跃数有95%的可能性下降了183～215之间。
假设检验的难点在于诸多知识点和业务的结合使用，限于文章的篇幅，我省略了不少概念点，这块需要大家多练习，比如用曾经文章的练习数据，计算上海和杭州的数据分析师工资均值是否相等，金融的工资是不是比电商的高。实际分析中不会有那么复杂的计算，我知道大家公式看晕了，不论Excel、R或者Python都有简便的函数使用，只要知道结果的符号意义就行了。
————
统计的内容告一段落了，这些都是比较基础的知识点，没有写得过于复杂，其一因为我统计本身不擅长（读书时没好好学），其二应用中我也不追求背后的数学原理。这大概是我写得最吃力的系列了。虽然还有时间序列，方差分析等内容，就留待以后吧。
下一篇文章写业务，因为历史文章已经涉及不少，反复讲没啥意思，所以一篇文章足矣，将数据中涉及的各类业务指标和知识点明即可。然后就是Python了。嗯，基础数据分析的内容已经倒计时了。
本文来源：天善社区秦路老师博客
原文链接：https://ask.hellobi/blog/qinlu/7959
?

嘿！这才是您理想的SPC软件

布兰登

展开

SPC软件其实就是一种工具。选择好的SPC工具会让您事半功倍。
SPC 理论提出至今已近100年，其实现工具也经历了从纸质绘图到自动化、电子化软件系统的巨大转变。如今，在工业信息化高速发展的背景下，传统纸质绘图的方式广为诟病，众多企业寻求现代化的SPC工具。但市场上能见到的SPC却五花八门。究竟什么样的SPC软件才是一款理想的质量预警分析系统呢？
本文将通过对几款常用SPC软件工具系统分析，介绍理想的SPC 质量分析系统应具备的要素。
当前，常用SPC 软件集中在以下几种：
基于电子表格的软件工具，如EXCEL。专业SPC分析工具。定制开发的SPC分析模块。基于电子表格的统计分析软件：以EXCEL为例
特点：
人工收集数据，并将数据填入电子表格中。调用软件自带公式，自动计算相应统计量。如，均值、极差、标准差、控制限，等。调用软件自带的绘图插件自动绘图描点。人工分析图表并作出决策。根据图表上描点信息，人工分析过程是否存在异常；控制限是否适用；过程能力是否达到要求。不足：
对分析人员素质要求高。不仅需要具备统计技术知识，还要掌握一定的软件应用技巧。标准化难。除非严格规定模板，否则由于分析人员水平和习惯不同，将出现图形风格不一、公式使用不同等情况，从而导致分析效果不佳。图表种类少。由于此类软件不是专门为SPC应用而设计，所以图表种类有限。数据冗余，决策滞后。由于信息必须通过制表人员发布给所有相关人员，导致同一数据有多个备份，如需修改又不能确保所有备份同时改动，从而导致数据冗余，决策滞后。数据安全性低。由于图表和数据存储在同一个文件中，一旦文件损坏，所有信息将全部丢失。专业SPC分析工具
由于企业对产品质量的重视程度不断提高，一些专业软件公司开始将SPC应用功能逐一固化，此时，SPC分析工具便如同当年的傻瓜相机一般，只要数据进入系统，后续分析工作都将自动完成（除决策行为外），进一步降低了人为因素带来的风险。
特点：
除人工采集外，增加了多种数据采集方式。如，通过天平、卡尺等电子检测设备串口直接采集数据；从Excel电子表格、文本文件等外部文件中直接将数据导入。数据存储与图表显示分别存放在不同文件中，相关人员一般接触的是图表展示文件，即使此文件受损，原始数据也不会丢失（此阶段已有软件支持数据存储在数据库中）。设置简单角色权限划分，不同角色进入系统后的操作界面和功能有所区别。业务过程在一定程度上固化。业务步骤形成统一标准，数据进入系统后自动生成相应分析图表。支持多种控制图。基本包含所有常规控制图。不足：
数采接口种类少。不支持OPC等底层数采接口，不能从其他数据库中抓取数据。集成性差。SPC软件是独立的封闭系统，与其他信息化系统无法集成。分析方法单一。只包含了常规的分析方法。多用于事后分析报表。由于系统不能第一时间获取现场数据，也不能及时将报警信息自动发送给现场，所以多用于工程师做质量分析，没有起到事先预防的效果。定制开发的SPC分析模块
由于质量分析业务只是生产制造业务的一部分，所以质量分析系统与整个生产制造系统相比量级较小，加之大多数企业质量管理重心还是质量合规性检验，因此，这类企业往往在MES或ERP系统中定制开发质量分析模块。通常在某一平台或控件上采用、Java等语言开发。
特点：
数据采集接口丰富，数据完整、安全性高。由于SPC质量分析系统是整个生产制造系统的一部分，所以能够共享所有生产制造系统数据，最大程度实现数据自动化采集。用户界面漂亮、操作友好。由于系统为定制开发，所以能够最大限度满足用户的使用习惯及视觉要求。功能与业务结合紧密。定制开发的SPC系统能够更好的与业务流程绑定，提高系统使用效率。不足：
数据需做二次整理。由于数据与其他生产业务共享，虽然数据完整性得以保证，但是数据结构不是按照质量分析角度设计，因此数据需按照分析目的做二次整理。数据二次整理效率不高。信息化程度高的企业，为了保证“数出一门”，往往会在分析时调用数据，分析后释放数据。这就要求在检索分析所需数据的同时，按照要求组织数据，从而增加了检索语句的复杂度，降低了系统的运行速度。另外，由于此操作往往涉及代码更新，如果业务用户分析角度变化频繁，会导致不断更新程序，降低系统运行效率，同时增加开发成本。分析方法单一。由于是定制开发，开发人员缺乏质量管控专业知识，导致系统只包含用户提出的分析方法。如使用系统不包含的分析方法，就只能将数据导出至第三方专业系统，或追加开发费用增加功能。由于分析方法灵活多样，穷举追加的方式不论从经济成本还是技术实现角度来看，都不现实。需要借助其它工具分析。由于分析方法单一，加之数据需要二次整理，当客户需要用系统中没有的分析方法时，需将数据导出至EXCEL等其它离线工具中进行，分析实时性无法保证。划重点：理想的SPC软件什么样
通过上述分析，我们可看到一个理想的SPC软件工具除具备以下业务要素外，还应兼备以下软件功能。
业务要素：
数据采集实时监控分析异常事件分析与处理过程能力分析阶段性汇总分析周期性自审核过程持续改进功能要素：
多种数据采集接口多种分析报表提醒和监控样本采集自动报警通知图表删选灵活功能可配置化
显而易见，这不是单纯的系统设计和开发能力所能达到，只有专业性非常强的SPC软件解决方案提供商才能提供这样的服务。
?

实验标准偏差的估计方法有几种，该如何选择

汤白梦

展开

实验标准偏差：它是用有限次测量的数据得到的标准偏差的估计值，是表征测量值分散性的量。实验标准偏差可以简称实验标准差，用符号s表示。
测量的重复性（分散性）是用实验标准偏差来表示的。
一，实验标准偏差的估计方法
1.贝塞尔公式法
2.最大残差法
3.极差法
4.较差法
二，实验标准偏差方法的选择
贝塞尔公式法是一种基本的方法，适用于测量次数较多的情况；
最大残差法和极差法计算简单，适用于测量次数较少时采用，或当数据的概率分布接近正太分布时；
较差法适用于随机过程的方差分析，比如用于频率稳定度测量或者天文观测等领域。
?

八年职场老手总结的22个Excel技巧，学会后薪资不翻倍都难！

巴乔

展开

你知道当我听到说还有刚毕业的大学生说自己不会用Excel 表格时候，我的表情是有多震惊吗！
前几天我在指导刚进公司的一位负责市场的实习生做数据统计时候，我眼看着他打开Excel 然后墨迹了半天无从下手，然后他很一脸无辜告诉我，自己忘了Excel 怎么用了。
我一脸纳闷，难道现在大学生都不学这些基础计算机办公软件操作了吗？？
实习生继续一脸无辜的告诉我，大一时候学过，但是三年没用过然后全忘了……
我服啦，那今天明叔就写篇如何教你用好Excel 的文章！就写给那些不长记性学过就忘的人，建议收藏。
Excel表格是一款无论是学生、白领、老师等等工作人员都会用到的办公软件。其实Excel中有很多方便快捷的功能，可以让你效率翻好几倍。
1.不同工作表之间的快速切换：
“Ctrl+PgDn”可以切换到右边的工作表
“Ctrl+PgUp”可以切换到左边的工作表
2.双击格式刷，可以把同一个格式“刷”给多个单元格。
3.快速应用函数：
当你设置好第一行单元格的函数，只需要把光标移动到单元格的右下角，当它变成一个小加号时，双击，公式就会被应用到这一列剩下的所有单元格里。
4.快速调整列宽
看下图，是否觉得单元格太宽了？
别急，纵向选中他们，将光标移至选中区域内的任一条纵向分割线上。
当光标十字形出现的样子时，双击；
大功告成！是不是宽度缩小了呢？！
5.快速增加或删除一列
按住“Ctrl+shift+ ’+’（加号）”就可以在选中的那一列左边再加一列，“Ctrl+shift+ ’-’（减号）”可以删除选中的那一列。
6.快速求和：
快速按下“Alt”和“=”，然后选中一列数字，就可以求出一列数字的和。
7.快速选定不连续的单元格
按下“shift+F8”激活“添加选定”模式，此时工作表状态栏会显示“添加到所选内容”字样，之后分别单击不连续的单元格或单元格区域，即可选定。
8.快速改变数字格式
“Ctrl+shift+4”可以将数字加上美元符号（$）
“Ctrl+shift+5”可以让数字变成百分比格式（%）
“Ctrl+shift+1”可以让小数点后面的数字变成两位数格式，如0.5变0.50
9.检查数字错误
“Ctrl+、”可以让数字背后的公式显示出来，一目了然；
10.Excel搜索框快速定位查找指定的内容
按Ctrl+ F打开搜索框，当你不确定搜索关键字的时候，可以试试通配符问号（?）和星号（*）。
通配符就是通过符号指代一些文本，Excel中的通配符很简单，只有问号（?）、星号（*）和转义符号（~）三个。
问号（?）表示任意单个字符。
星号（*）表示任意多个字符，比如要查找的内容是：“西门*”，可以查找到“西门梁子”、“西门卫子”、“西门庆子”等所有以“西门”开头的内容。
要查找问号和星号本身时，需要在前面加上转义符号（~），比如要查找星号（*），就要在搜索框中输入： ~*
11.SUBTOTAL函数
SUBTOTAL函数可谓是全能王，可以对数据进行求平均值、求和、最大最小、相乘、标准差、标准差、计数。
这里还有一些可能会用到的函数，不妨先收着！
1.Count函数：统计数字的个数
PS:大小不一的合并单元格填充公式，要使用Ctrl+Enter。
2.Counta函数：统计非空单元格个数
Countif函数：依据条件统计个数
Countifs函数：多条件统计个数
3.Frequency函数：统计数字区间的频率
4.Sumproduct函数：多条件计数求和
5.average函数：计算数据的平均数
averageif函数：依据条件计算平均值，比如，AVERAGEIF(A1：A10,”>0”)，返回的是A1到A10这十个数中，所有大于0的数的平均值。
6.Sum函数：对数据进行求和
7.Max函数：提取一组数中的最大值。比如：MAX(A1：A10)
8.Min函数：提取一组数中的最小值。比如：MIN(A1：A10)
9.Large函数：返回第N个最大值
10.Small函数：返回第N个最小值
11.Mode函数：返回一组数中出现最多的数字
很实用是吧，说的就你，赶紧上手试试吧！
?

用Excel计算平均值，RSD以及对数值进行四舍五入

彭夜天

展开

对Excel表的数据进行平均值average，相对标准偏差RSD的计算以及按指定的位数对数值进行四舍五入。
平均值的计算。把鼠标放在目标框，在输入栏里面输“=”，选中输入栏左边的函数“AVERAGE”，弹出一个对话框，拖动鼠标选中需要计算平均值的数据，点“确定”，即可。如图所示。
相对标准偏差RSD的计算。把鼠标放在目标框，在输入栏里面输“=”，选中输入栏左边的函数“STDEV”，弹出一个对话框，拖动鼠标选中需要计算相对标准偏差的数据，点“确定”。该公式得到的是标准偏差。
在输入栏的公式中继续输入“/平均值*100”表示标准偏差除以平均值，按 Enter键，得到的是RSD（%）。
对数值进行四舍五入。例如如图，计算得到了一连串的数值，把它修约至两位小数。
单击要修约的数值，在输入栏的原公式中加上“round（原公式，2）”，按 Enter键，得到修约值，如图
如图，在“开始”工具栏里面，点击显示小数点位数按钮，得到最终计算结果。
?

2018年最全的excel函数大全14—统计函数（9）

虞听蓉

展开

上次给大家分享了《2018年最全的excel函数大全14—统计函数（8）》，这次分享给大家统计函数（9）。
STDEVPA 函数
描述
根据作为参数（包括文字和逻辑值）给定的整个总体计算标准偏差。标准偏差可以测量值在平均值（中值）附近分布的范围大小。
用法
STDEVPA(value1, [value2], ...)
STDEVPA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。对应于总体的 1 到 255 个值。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备注
STDEVPA 假定其参数是整个总体。如果数据代表总体样本，则必须使用 STDEVA 计算标准偏差。对于规模很大的样本，STDEVA 和 STDEVPA 返回近似值。此处标准偏差的计算使用“n”方法。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 STDEVP 函数。STDEVPA 使用下面的公式：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
STEYX 函数
描述
返回通过线性回归法预测每个 x 的 y 值时所产生的标准误差。标准误差是在针对单独 x 预测 y 时的错误量的一个度量值。
用法
STEYX(known_y's, known_x's)
STEYX 函数用法具有下列参数：
Known_y's必需。因变量数据点数组或区域。Known_x's必需。自变量数据点数组或区域。
备注
参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果 known_y's 和 known_x's 的数据点个数不同，函数 STEYX 返回错误值 #N/A。如果 known_y's 和 known_x's 为空或其数据点个数小于三，则 STEYX 返回错误值 #p/0!。预测值 y 的标准误差计算公式如下：
其中 x 和 y 是样本平均值 AVERAGE(known_x's) 和 AVERAGE(known_y's)，且 n 是样本大小。
案例
T.DIST 函数
描述
返回学生的左尾 t 分布。 t 分布用于小型样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST(x,deg_freedom, cumulative)
T.DIST 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。cumulative必需。决定函数形式的逻辑值。如果 cumulative 为 TRUE，则 T.DIST 返回累积分布函数；如果为 FALSE，则返回概率密度函数。
备注
如果任一参数是非数值的，则 T.DIST 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST 返回一个错误值。 Deg_freedom 不得小于 1。
案例
T.DIST.2T 函数
描述
返回学生的双尾 t 分布。
学生的 t 分布用于小样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST.2T(x,deg_freedom)
T.DIST.2T 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。
备注
如果任一参数是非数值的，则 T.DIST.2T 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST.2T 返回错误值 #NUM!。如果 x 0，则 T.DIST.2T 返回错误值 #NUM!。
案例
T.DIST.RT 函数
描述
返回学生的右尾 t 分布。
t 分布用于小型样本数据集的假设检验。可以使用该函数代替 t 分布的临界值表。
用法
T.DIST.RT(x,deg_freedom)
T.DIST.RT 函数用法具有以下参数：
X必需。需要计算分布的数值。Deg_freedom必需。一个表示自由度数的整数。
备注
如果任一参数是非数值的，则 T.DIST.RT 返回错误值 #VALUE!。如果 deg_freedom 1，则 T.DIST.RT 返回错误值 #NUM!。
案例
T.TEST 函数
描述
返回与学生 t-检验相关的概率。使用函数 T.TEST 确定两个样本是否可能来自两个具有相同平均值的基础总体。
用法
T.TEST(array1,array2,tails,type)
T.TEST 函数用法具有下列参数：
Array1必需。第一个数据集。Array2必需。第二个数据集。tails必需。指定分布尾数。如果 tails = 1，则 T.TEST 使用单尾分布。如果 tails = 2，则 T.TEST 使用双尾分布。Type必需。要执行的 t 检验的类型。
参数
备注
如果 array1 和 array2 的数据点个数不同，且 type = 1（成对），则 T.TEST 返回错误值 #N/A。参数 tails 和 type 将被截尾取整。如果 tails 或 type 是非数值的，则 T.TEST 返回错误值 #VALUE!。如果 tails 是除 1 或 2 之外的任何值，则 T.TEST 返回错误值 #NUM!。T.TEST 使用 array1 和 array2 中的数据计算非负 t 统计值。如果 tails=1，在假设 array1 和 array2 是具有相同平均值的总体中的样本的情况下，T.TEST 返回较高 t 统计值的概率。 tails=2 时，T.TEST 返回的值是 tails=1 时返回值的两倍，并对应假设“总体平均值相同”时较高的 t 统计绝对值的概率。
案例
TREND 函数
描述
返回线性趋势值。找到适合已知数组 known_y's 和 known_x's 的直线（用最小二乘法）。返回指定数组 new_x's 在直线上对应的 y 值。
用法
TREND(known_y's, [known_x's], [new_x's], [const])
TREND 函数用法具有下列参数：
Known_y's必需。关系表达式 y = mx + b 中已知的 y 值集合。如果数组 known_y's 在单独一列中，则 known_x's 的每一列被视为一个独立的变量。如果数组 known_y's 在单独一行中，则 known_x's 的每一行被视为一个独立的变量。Known_x's必需。关系表达式 y = mx + b 中已知的可选 x 值集合。数组 known_x's 可以包含一组或多组变量。如果仅使用一个变量，那么只要 known_x's 和 known_y's 具有相同的维数，则它们可以是任何形状的区域。如果用到多个变量，则 known_y's 必须为向量（即必须为一行或一列）。如果省略 known_x's，则假设该数组为 {1,2,3,...}，其大小与 known_y's 相同。New_x's必需。需要函数 TREND 返回对应 y 值的新 x 值。New_x's 与 known_x's 一样，对每个自变量必须包括单独的一列（或一行）。因此，如果 known_y's 是单列的，known_x's 和 new_x's 应该有同样的列数。如果 known_y's 是单行的，known_x's 和 new_x's 应该有同样的行数。如果省略 new_x's，将假设它和 known_x's 一样。如果 known_x's 和 new_x's 都省略，将假设它们为数组 {1,2,3,...}，大小与 known_y's 相同。Const可选。一个逻辑值，用于指定是否将常量 b 强制设为 0。如果 const 为 TRUE 或省略，b 将按正常计算。如果 const 为 FALSE，b 将被设为 0（零），m 将被调整以使 y = mx。
备注
有关 Microsoft Excel 对数据进行直线拟合的详细信息，请参阅 LINEST 函数。可以使用 TREND 函数计算同一变量的不同乘方的回归值来拟合多项式曲线。例如，假设 A 列包含 y 值，B 列含有 x 值。可以在 C 列中输入 x^2，在 D 列中输入 x^3，等等，然后根据 A 列，对 B 列到 D 列进行回归计算。对于返回结果为数组的公式，必须以数组公式的形式输入。
注意:在 Excel Online 中，不能创建数组公式。
当为参数（如 known_x's）输入数组常量时，应当使用逗号分隔同一行中的数据，用分号分隔不同行中的数据。
案例
TRIMMEAN 函数
描述
返回数据集的内部平均值。 TRIMMEAN 计算排除数据集顶部和底部尾数中数据点的百分比后取得的平均值。当您要从分析中排除无关的数据时，可以使用此函数。
用法
TRIMMEAN(array, percent)
TRIMMEAN 函数用法具有下列参数：
Array必需。需要进行整理并求平均值的数组或数值区域。百分比必需。从计算中排除数据点的分数。例如，如果 percent=0.2，从 20 点 (20 x 0.2) 的数据集中剪裁 4 点：数据集顶部的 2 点和底部的 2 点。
备注
如果 percent 0 或 percent 1，则 TRIMMEAN 返回错误值 #NUM!。函数 TRIMMEAN 将排除的数据点数向下舍入到最接近的 2 的倍数。如果 percent = 0.1，30 个数据点的 10% 等于 3 个数据点。为了对称，TRIMMEAN 排除数据集顶部和底部的单个值。
案例
VAR.P 函数
描述
计算基于整个样本总体的方差（忽略样本总体中的逻辑值和文本）。
用法
VAR.P(number1,[number2],...)
VAR.P 函数用法具有下列参数：
Number1必需。对应于总体的第一个数值参数。Number2, ...可选。对应于总体的 2 到 254 个数值参数。
备注
VAR.P 假定其参数是整个总体。如果数据代表总体样本，请使用 VAR.S 计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 VARPA 函数。函数 VAR.P 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
VAR.S 函数
描述
估算基于样本的方差（忽略样本中的逻辑值和文本）。
用法
VAR.S(number1,[number2],...)
VAR.S 函数用法具有下列参数：
Number1必需。对应于总体样本的第一个数值参数。Number2, ...可选。对应于总体样本的 2 到 254 个数值参数。
备注
函数 VAR.S 假设其参数是样本总体中的一个样本。如果数据为整个样本总体，则应使用函数 VAR.P 来计算方差。参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果参数是一个数组或引用，则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算包含引用中的逻辑值和代表数字的文本，请使用 VARA 函数。函数 VAR.S 的计算公式如下：
其中 x 为样本平均值 AVERAGE(number1,number2,…)，n 为样本大小。
案例
VARA 函数
描述
计算基于给定样本的方差。
用法
VARA(value1, [value2], ...)
VARA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。这些是对应于总体样本的 1 到 255 个数值参数。
备注
VARA 假定其参数是总体样本。如果数据代表的是样本总体，则必须使用函数 VARPA 来计算方差。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 VAR 函数。函数 VARA 的计算公式如下：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
VARPA 函数
描述
根据整个总体计算方差。
用法
VARPA(value1, [value2], ...)
VARPA 函数用法具有下列参数：
Value1, value2, ...Value1 是必需的，后续值是可选的。对应于总体的 1 到 255 个值参数。
备注
VARPA 假定其参数是整个总体。如果数据代表总体样本，则必须使用 VARA 计算方差。参数可以是下列形式：数值；包含数值的名称、数组或引用；数字的文本表示；或者引用中的逻辑值，例如 TRUE 和 FALSE。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。包含 TRUE 的参数作为 1 来计算；包含文本或 FALSE 的参数作为 0（零）来计算。如果参数为数组或引用，则只使用其中的数值。数组或引用中的空白单元格和文本值将被忽略。如果参数为错误值或为不能转换为数字的文本，将会导致错误。如果要使计算不包括引用中的逻辑值和代表数字的文本，请使用 VARP 函数。VARPA 的公式为：
其中 x 是样本平均值 AVERAGE(value1,value2,…) 且 n 是样本大小。
案例
WEIBULL.DIST 函数
描述
返回 Weibull 分布。可以将该分布用于可靠性分析，例如计算设备出现故障的平均时间。
用法
WEIBULL.DIST(x,alpha,beta,cumulative)
WEIBULL.DIST 函数用法具有下列参数：
X必需。用来计算函数的值。Alpha必需。分布参数。Beta必需。分布参数。cumulative必需。确定函数的形式。
备注
如果 x、alpha 或 beta 是非数值的，则 WEIBULL.DIST 返回错误值 #VALUE!。如果 x 0，则 WEIBULL.DIST 返回错误值 #NUM!。如果 alpha ≤ 0 或 beta ≤ 0，则 WEIBULL.DIST 返回错误值 #NUM!。Weibull 累积分布函数的公式为：
Weibull 概率密度函数的公式为：
当 alpha = 1，函数 WEIBULL.DIST 返回指数分布：
案例
Z.TEST 函数
...
?

无需专业的数学软件，看看在Excel中是如何做方差分析的！

宫满天

展开

调用函数
STDEV
估算样本的标准偏差。标准偏差反映相对于平均值(mean)的离散程度。
语法
STDEV(number1,number2,...)
Number1,number2,...为对应于总体样本的1到30个参数。也可以不使用这种用逗号分隔参数的形式，而用单个数组或对数组的引用。
说明
函数STDEV假设其参数是总体中的样本。如果数据代表全部样本总体，则应该使用函数STDEVP来计算标准偏差。
此处标准偏差的计算使用“无偏差”或“n-1”方法。
函数STDEV的计算公式如下：
其中x为样本平均值AVERAGE(number1,number2,…)，n为样本大小。
忽略逻辑值（TRUE或FALSE）和文本。如果不能忽略逻辑值和文本，请使用STDEVA工作表函数。
示例
假设有10件工具在制造过程中是由同一台机器制造出来的，并取样为随机样本进行抗断强度检验。
如果您将示例复制到空白工作表中，可能会更易于理解该示例。
操作方法
创建空白工作簿或工作表。
请在“帮助”主题中选取示例。不要选取行或列标题。
从帮助中选取示例。
按Ctrl+C。
在工作表中，选中单元格A1，再按Ctrl+V。
若要在查看结果和查看返回结果的公式之间切换，请按Ctrl+`（重音符），或在“工具”菜单上，指向“公式审核”，再单击“公式审核模式”。
A
1强度
21345
31301
41368
51322
61310
71370
81318
91350
101303
111299
公式说明（结果）
=STDEV(A2:A11)假定仅生产了10件工具，其抗断强度的标准偏差(27.46391572)
方差分析
EXCEL的数据处理除了提供了很多的函数外，但这个工具必须加载相应的宏后才能使用，操作步骤为：点击菜单“工具-加载宏”，会出现一个对话框，从中选择“分析工具库”，点击确定后，在工具菜单栏内出现了这个分析工具。
如果你的电脑中没有出现分析工具库，则需要使用OFFICE的安装光盘，运行安装程序。在自定义中点开EXCEL，找到分析工具库，选择“在本机运行”，安装添加即可。
在数据分析工具库中提供了3种基本类型的方差分析：单因素方差分析、双因素无重复试验和可重复试验的方差分析，本节将分别介绍这三种方差分析的应用：
单因素方差分析
在进行单因素方差分析之前，须先将试验所得的数据按一定的格式输入到工作表中，其中每种水平的试验数据可以放在一行或一列内，具体的格式如表，表中每个水平的试验数据结果放在同一行内。
数据输入完成以后，操作“工具-数据分析”，选择数据分析工具对话框内的“单因素方差分析”，出现一个对话框，对话框的内容如下：
1．输入区域：选择分析数据所在区域，可以选择水平标志，针对表中数据进行分析时选取（绿色）和***区域。
2．分组方式：提供列与行的选择，当同一水平的数据位于同一行时选择行，位于同一列时选择列，本例选择行。
3．如果在选取数据时包含了水平标志，则选择标志位于第一行，本例选取。
4．α：显著性水平，一般输入0.05，即95%的置信度。
5．输出选项：按需求选择适当的分析结果存储位置。
双因素无重复试验方差分析
与单因素方差分析类似，在分析前需将试验数据按一定的格式输入工作表中。
数据输入完成以后，操作“工具-数据分析”，选择数据分析工具库中的“双因素无重复方差分析”，出现一个对话框，对话框的内容如下：
1．输入区域：选择数据所在区域，可以包含因素水平标志。
2．如果数据输入时选择了因素水平标志，请选择标志按钮。
3．显著性水平α：根据实际情况输入，一般选择0.05。
4．输出选项：按需要选择分析结果存储的位置。
双因素可重复方差分析
双因素可重复方差分析与双因素无重复方差分析数据输入的区别在于对重复试验数据的处理，就是将重复试验的数据叠加起来。
数据输入完成以后，操作“工具-数据分析”，选择数据分析工具库中的“双因素可重复方差分析”，出现一个对话框，对话框的内容基本与双因素无重复方差分析相同，区别在于每一样本的行数选项，在此输入重复试验的次数即可。
若须对数据进行方差分析时，在输入区域选择数据所在区域及因素水平标志，在每一样本的行数处输入3，即每种组合重复3次试验，显著性水平选择0.05。在输出选项中可以按照需求选择分析结果储存的位置。选择确定以后分析结果。
（本文内容由百度知道网友hvc258贡献）
?

Excel 日常频率超高函数公式汇总，复制粘贴直接使用，拿走不谢！

朱丹云

展开

在我们的日常工作当中，如果涉及数据的处理，就离不开办公软件Excel的使用，而表格中的函数公式，可以让Excel更加强大，同时可以提高我们的工作效率，节省我们的时间。
常用公式：
1、查找重复内容公式:
=lF(COUNTIF(A:A,A2)>1,"重复")。
2、用出生年月来计算年龄公式:
=TRUNC((DAYS360(H6,"2009/8/30",FALSE))/360,0)。
3、从输人的18位身份证号的出生年月计算公式:
=CONCATENATE(MID(E2,7,4),"/",MID(E2,11,2),"/",MID(E2,13,2))。
4、从输人的身份证号码内让系统自动提取性别，可以输人以下公式:
=lF(LEN(C2)=15,IF(MOD(MID(C2,15,1),2)=1,"男","女"),IF(MOD(MID(C2,17,1),2)=1,"男","女"))公式内的C2”代表的是输人身份证号码的单元格。
常用计算：
1、求和:=SUM(K2:K56)
一对K2到K56这一区域进行求和;
2、平均数:=AVERAGE(K2:K56)
一对K2K56这一区域求平均数;
3、排名:=RANK(K2,K$2:K$56)
一对55名学生的成,绩进行排名;
4、等级:=lF(K2>=85,"优",IF(K2>=74,"良",IF(K2>=60,"及格","不及格")))
5、学期总评:=K2*0.3+M2*0.3+N2*0.4
一假设K列、M列和N列分别存放着学生的“平时总评"“期中期末”三项成绩;
6、最高分:=MAX(K2:K56)
一求K2到K56区域(55名学生)的最高分;
7、最低分:=MIN(K2:K56)
一求K2到K56区域(55名学生)的最低分;
8、分数段人数统计:
(1)=COUNTIF(K2:K56,"100")
一求K2到K56区域100分的人数;假设把结果存放于K57单元格;
(2)=COUNTIF(K2:K56,">=95")-K57
一求K2到K56区域95~99.5分的人数假设把结果存放于K58单元格
(3)=COUNTIF(K2:K56,">=90")-SUM(K57:K58)
一求K2到K56区域90~94.5分的人数;假设把结果存放于K59单元格;
(4)=COUNTIF(K2:K56,">=85")-SUM(K57:K59)
一求K2到K56区域85~89.5分的人数;假设把结果存放于K60单元格;
(5)=COUNTIF(K2:K56,">=70")-SUM(K57:K60)
一求K2到K56区域70~84.5分的人数;假设把结果存放于K61单元格;
(6)=COUNTIF(K2:K56,">=60")-SUM(K57:K61)
一求K2到K56区域60~69.5分的人数;假设把结果存放于K62单元格;
(7)=COUNTIF(K2:K56,"<60")
一求K2到K56区域60分以下的人数;假设把结果存放于K63单元格;说明:COUNTIF函数也可计算某一区域男、女生人数。如:=COUNTIF(C2:C351,"男")一求C2到C351区域(共350人)男性人数;
9、优秀率:=SUM(K57:K60)/55*100
10、及格率:=SUM(K57:K62)/55*100
11、标准差:=STDEV(K2:K56)
一求K2到K56区域(55人)的成绩波动情况数值越小，说明该班学生间的成绩差异较小，反之，说明该班存在两极分化);
12、条件求和:=SUMIF(B2:B56,"男",K2:K56)
一假设B列存放学生的性别，K列存放学生的分数，则此函数返回的结果表示求该班男生的成绩之和;
13、多条件求和:1=SUM(IF(C3:C322="男",IF(G3:G322=1,1,)))
一假设C列(C3:C322区域)存放学生的性别，G列(G3:G322区域)存放学生所在班级代码(1、2、3、4、5),则此函数返回的结果表示求一班的男生人数;这是一个数组函数，输完后要按Ctrl+Shift+Enter组合键(产生“.....了“{}”不能手工输人，只能用组合键产生。
14、根据出生日期自动计算周岁:=TRUNC(DAYS360(D3,NOW0())/360,0)
一假设D列存放学生的出生日期,E列输人该函数后则产生该生的周岁。
问题：
问一：Excel中当某一单元格符合特定条件，如何在另一单元格显示特定的颜色
A1>1时，C1显示红色0
方法如下:
1.单元击C1单元格，点“格式”“条件格式”条件1设为:公式=A1=1
2.点“格式”>“字体”>“颜色”点击红色后点“确定”条件2设为:公式=AND(A1>0,A1<1)
3.点“格式”>“字体”>“颜色”点击绿色后点”确定”条件3设为:公式=A1<0
点“格式”>“字体”“颜色”点击黄色后点”确定”
4、三个条件设定好后，点“确定”即出。
问二：EXCEL中如何控制每列数据的长度并避免重复录人
1、用数据有效性定义数据长度
用鼠标选定你要输，人的数据范围，点"数据"->"有效性"->"设置","有效性条件”设成”允许111文本长度"等于""5"(具体条件可根据你的需要改变)。
还可以定义一些提示信息,出错警告信息和是否打开中文输入法等，定义好后点"确定”。
2、用条件格式避免重复
选定A列,点”格式"->"条件格式",将条件设成“公式=COUNTIF($A:$A,$A1)>1”点"格式"->"字体"->"颜色",选定红色后点两次"确定"。
这样设定好后你输人数据如果长度不对会有提示，如果数据重复字体将会变成红色。
问三：在EXCEL中如何把B列与A列不同之处标识出来?
1、如果是要求A、B两列的同一行数据相比较:
假定第一行为表头，单击A2单元格,点“格式”>“条件格式”将条件设为:
单元格数值”不等于"=B2
点“格式”>“字体颜色”，选中红色，点两次”确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。
2、如果是A列与B列整体比较(即相同数据不在同一行)
假定第一行为表头，单击A2单元格,点“格式”>“条件格式”将条件设为:
公式"COUNTIF($B:$B,$A2)=0
点“格式”“字体”“颜色”选中红色，点两次“确定”用格式刷将A2单元格的条件格式向下复制。B列可参照此方法设置。
按以上方法设置后，AB列均有的数据不着色,A列有B列无或者B列有A列无的数据标记为红色字体。
问四：EXCEL中怎样批量地处理按行排序
假定有大量的数据(数值),需要将每一-行按从大到小排序，如何操作?
由于按行排序与按列排序都是只能有一一个主关键字，主关键字相同时才能按次关键字排序。所以，这一问题不能用排序来解决。解决方法如下:
假定你的数据在A至E列,请在F1单元格输入公式:=LARGE($A1:$E1,COLUMN(A1))
用填充柄将公式向右向下复制到相应范围。
你原有数据将按行从大到小排序出现在F至J列。如有需要可用“选择性粘贴/数值”复制到其他地方。
注:第1步的公式可根据你的实际情况(数据范围)作相应的修改。如果要从小到大排序，公式改为:=SMALL($A1:$E1,COLUMN(A1))
问五：巧用函数组合进行多条件的计数统计
例:第一行为表头,A列是“姓名",B列是“班级",C列是“语文成绩",D列是“录取结果”,现在要统计“班级为“二”"“语文成绩”大于等于104,"录取结果”为“重本”的人数。统计结果存放在本工作表的其他列。公式如下:
=SUM(IF((B2:B9999="二")*(C2:C9999>=104)*(D2:D9999="重本"),1,0))
输入完公式后按Ctrl+Shift+Enter键，让它自动加上数组公式符号"{"。
问六：如何判断单元格里是否包含指定文本?
假定对A1单元格进行判断有无”指定文本"，以下任--公式均可:
=IF(COUNTIF(A1,"*"&"指定文本"&"*")=1,"有","无")=lF(ISERROR(FIND("指定文本",A1,1)),"无","有")
求某一区域内不重复的数据个数
例如求A1:A100范围内不重复数据的个数,某个数重复多次出现只算一个。有两种计算方法:一是利用数组公式:
=SUM(1/COUNTIF(A1:A100,A1:A100))
输人完公式后按Ctrl+Shift+Enter键,让它自动加上数组公式符号"{"。
二是利用乘积求和函数:
=SUMPRODUCT(1/COUNTIF(A1:A100,A1:A100))
问七：一个工作薄中有许多工作表如何快速整理出-一个目录工作表
1.用宏3.0取出各工作表的名称，方法:
Ctrl+F3出现自定义名称对话框,取名为X,在“引用位置框中输入:
=MID(GET.WORKBOOK(1),FIND("]",GET.WORKBOOK(1))+1,100)确定
2、用HYPERLINK函数批量插入连接，方法:
在目录工作表(一般为第一个sheet)的A2单元格输人公式:
=HYPERLINK("#""&INDEX(X,ROW())&"!A1",INDEX(X,ROW())
将公式向下填充,直到出错为止，目录就生成了。
善于使用表格中的公式，能够让我们的工作事半功倍，极大的提高我们的工作效率，节约我们个人时间，表格中的函数功能非常强大，如果我们能够熟练的使用函数和嵌套函数的话，无论我们遇到什么样的数据处理问题，都可以使用表格来进行解决。
图片来源于网络，如有侵权，请联系删除。
?

转存！工作常用Excel公式都在这儿了！

Koge

展开

就业有位来【转存！工作常用Excel公式都在这儿了！】求和、平均数、最大值、标准差……如何查找重复值？如何自动标出符合条件的数值？进阶版Excel超实用技巧。转给职场新人！有用！
版权声明：如涉及版权问题，请作者持权属证明与本网联系
来源：央视新闻
?

使用R计算方差与标准差

醉意浓

展开

概述
描述样本值的离散程度，最常用的指标是方差和标准差，它们与前面所说的全距（极差）只使用了两个极值情况不同，它们利用了样本的全部信息去描述数据取值的分散性。
计算方差的公式
方差是各样本相对均值的偏差平方和的平均。使用s2来表示，其公式如下：
计算方差的公式
当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。
计算标准差的公式
样本方差的开方称为样本标准差，记为s，其计算公式如下：
计算标准差的公式
标准差越大，数据的离散程度越大，反之越小。但标准差与方差不同的地方是，标准差是有量纲的，它与变量值的计量单位相同，因此具有较强的实际意义，在实际应用较广泛。
R中计算方差与标准差
在R中使用var函数和sd函数分别计算方差和标准差。
var函数的语法形式如下：
var(x, y = NULL, na.rm = FALSE, use)
参数x是一个数值型向量，矩阵或数据框；
参数y是与x维度相容的一个向量、矩阵或数据框，默认为NULL值；
na.rm为逻辑值，指示是否移除缺失值，默认为FALSE；
use是一个可选参数，是一个字符型字符串。用于指明在有缺失值时计算协方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.orplete", or "pairwiseplete.obs"中值之一。
sd函数的语法形式如下：
sd(x, na.rm = FALSE)
各参数的含义与var函数对应的参数相同，但是x是一个数值型向量。
下面使用一个例子来说明具体使用方法。
设从某班某门课程中随机抽取了20个学生的成绩，具体如下：
51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.
计算其方差和标准差。
编写R程序如下：
grade<- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)ss <- var(grade)s <- sd(grade)print(ss)print(s)
计算结果如下图所示：
R中计算方差与标准差的结果
即方差为：222.87，标准差为：14.93
如果你喜欢这篇文章，请关注我。我会定期更新有关R语言、Python、SPSS、Excel等数据分析方面的文章。让我们共同学习和进步。

excel计算标准差的公式