中企动力 > 头条 > 基本统计分析

网站性能检测评分

注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。

基本统计分析

数据科学家需要掌握的10个基本统计技术 公司视频课程

img

美人泪

关注

IT168 编译】无论您在数据的科学性问题上持哪种看法,都无法忽视数据的持续重要性,也不能轻视分析、组织和情境化数据的能力。 根据大量的就业数据和员工反馈信息统计,在“25个最佳美国就业机会”排行榜中,数据科学家排名第一。毫无疑问,数据科学家所做的具体工作内容将会进一步拓展。随着机器学习等技术变得越来越普遍,深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动,数据科学家们在创新和技术进步的浪潮中再次崭露头角。

编码能力强大是很重要的,但数据科学并不专职于软件工程(事实上,对Python很熟悉就足够了)。数据科学家生活在编码、统计学和批判性思维的交叉点上。正如乔希·威尔斯(Josh Wills)所说的那样:“数据科学家是一个比任何程序员都要好的统计学家,而且比任何统计学家都更擅长编程。”笔者个人知道有太多的软件工程师希望转向数据科学家,并盲目利用机器学习框架TensorFlow或Apache Spark,而不透彻理解背后的统计理论。因此出现了“统计学习”,一个与机器学习有关的理论框架,包含统计到功能分析的一系列专业领域。

为什么学习统计学习?了解各种技术背后的想法是非常重要的,可以让你知道如何以及何时使用它们。由简入繁,首先要理解更简单的方法,才好把握更复杂的方法。准确地评估一种方法的性能,了解它的工作效果多好或者多糟,这一点很重要。此外,这是一个令人兴奋的研究领域,在科学,工业和金融领域有着重要的应用。最终,统计学习是培养现代数据科学家的基本要素。统计学习问题的例子有:

·确定前列腺癌的危险因素。

·根据记录周期图对录制的音素进行分类。

·根据人口统计、饮食和临床测量,预测是否有人会发生心脏病。

·自定义垃圾邮件检测系统。

·识别手写邮政编码中的数字。

·将组织样本分为几个癌症类别之一。

·建立人口调查数据中工资与人口变量之间的关系。

统计学习和机器学习之间的差异在于:

·机器学习是人工智能的一个子领域。

·统计学习是统计学的一个分支。

·机器学习更强调大规模应用和预测的准确性。

·统计学习强调模型及其可解释性,精确性和不确定性。

1 - 线性回归:

在统计学中,线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。形状的适合性是“最好的”,因为在形状的选择上没有其他位置会产生较少的误差。线性回归的2种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。

选择你在日常生活中使用的任何两件相关的东西。如每月支出,月收入和过去三年每月的旅行次数的数据。就需要回答以下问题:

我明年的每月开支是多少?

哪个因素(每月收入或每月旅行次数)在决定我的每月支出时更重要?

月收入和每月旅行如何与每月支出相关联?

2 - 分类:

分类是一种数据挖掘技术,它将类别分配给数据集合,以助进行更准确的预测和分析。有时也称为决策树,分类是用于对非常大的数据集进行分析的几种方法之一。眼下有2大分类技术脱颖而出:Logistic回归和判别分析。

Logistic回归分析是当因变量是二分(二元)时进行的适当的回归分析。像所有回归分析一样,Logistic回归是预测分析。 Logistic回归用于描述数据并解释一个相关二元变量与一个或多个标称、序数、区间或比例级别的独立变量之间的关系。逻辑回归可以检查的问题类型:

每增加一磅的超重和每天吸一包香烟,肺癌的可能性(是vs否)会发生怎样的变化?

体重卡路里摄入量,脂肪摄入量和参与者年龄对心脏病发作是否有影响(有vs无)?

在判别分析中,先验已知2个或更多个组或群或群,并基于所测量的特征将1个或更多个新观察分类到1个已知群中。判别分析在每个响应类别中分别对预测因子X的分布进行建模,然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。这样的模型可以是线性的或二次的。

线性判别分析为每个观测值计算“判别分数”,以便对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值都来自多变量高斯分布,预测因子的协方差在响应变量Y的所有k水平上是共同的。

二次判别分析提供了一种替代方法。和LDA一样,QDA假定每个Y类的观测值都是从高斯分布中得到的。但是,与LDA不同的是,QDA假定每个类都有其自己的协方差矩阵。换句话说,预测因子不被假定在Y中的每个k水平上具有共同的方差。

3 - 重采样方法:

重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说,重采样方法不涉及使用通用分布表来计算近似p概率值。

重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计,因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念,您应该理解术语Bootstrapping和交叉验证:

Bootstrapping是一种技术,可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换来进行采样,并将“未选择”的数据点作为测试用例。我们可以做这几次,并计算平均分作为我们的模型性能的估计。

另一方面,交叉验证是验证模型性能的一种技术,它是通过将训练数据分成k个部分来完成的。我们以k - 1部分作为训练集,并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后,我们将k分数的平均值作为我们的业绩估计。

通常对于线性模型,普通最小二乘法是考虑将它们适合于数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。

4 - 子集选择:

这种方法确定了我们认为与响应相关的p预测因子的一个子集。然后,我们使用子集特征的最小二乘拟合模型。

最佳子集选择:这里我们对每个可能的p预测因子组合进行单独的OLS回归,然后查看最终的模型拟合。算法分为2个阶段:(1)拟合所有包含k预测因子的模型,其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。使用测试或验证错误非常重要,而不是训练错误来评估模型拟合,因为RSS和R 2单调增加更多的变量。最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。

向前逐步选择考虑预测因子的一个小得多的子集。它从不含预测因子的模型开始,然后在模型中添加预测因子,直到所有预测因子都在模型中。被添加变量的顺序是变量,其给出对拟合的最大的加法改进,直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。

向后逐步选择开始将模型中的所有预测因子,然后迭代去除最不有用的预测因子。

混合方法遵循向前逐步回归方法,但是,在添加每个新变量之后,该方法还可以去除对模型拟合没有贡献的变量。

5 - 收缩:

这种方法适合一个涉及所有p预测因子的模型,然而,估计系数相对于最小二乘估计向零收缩。这种缩水,又称正规化,具有减少方差的作用。取决于执行什么类型的收缩,其中一些系数可能恰好被估计为零。因此这个方法也执行变量选择。将系数估计收缩为零的两个最著名的技术是岭回归和Lasso。

岭回归类似于最小二乘,通过最小化一个稍微不同的数量估计系数。像OLS一样,岭回归寻求降低RSS的系数估计值,但是当系数接近于零时,它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不用进入数学计算,知道岭回归缩小列空间方差最小的特征是有用的。像在主成分分析中一样,岭回归将数据投影到双向空间,然后比高方差分量收缩低方差分量的系数,这相当于最大和最小主分量。

岭回归至少有一个缺点:它包括最终模型中的所有p预测值。犯规条款将使它们中的许多接近于零,但不完全为零。这对于预测准确性来说通常不是问题,但它可能使模型更难以解释结果。 Lasso克服了这个缺点,并且能够迫使一些系数归零,只要s足够小。由于s = 1导致有规律的OLS回归,当s接近0时,系数收缩为零。因此,Lasso回归也执行变量选择。

6 - 维度降低:

维数减少将估计p + 1个系数的问题简化为M + 1个系数的简单问题,其中M

可以将主成分回归描述为从大量变量中导出低维特征集合的方法。数据的第一个主要组成方向是观测值变化最大的。换句话说,第一台PC是尽可能接近数据的一条线。人们可以适应不同的主要组成部分。第二个PC是与第一个PC不相关的变量的线性组合,并且受这个约束的变化最大。这个想法是主要的组成部分使用随后正交方向的数据的线性组合捕获数据中最大的变化。通过这种方式,我们也可以结合相关变量的效果,从可用数据中获取更多信息,而在正则最小二乘中,我们将不得不放弃其中一个相关变量。

我们上面描述的PCR方法包括确定最能代表预测因子的X的线性组合。这些组合(方向)以无监督的方式被识别,因为响应Y不用于帮助确定主要组件方向。也就是说,响应Y不监督主成分的识别,因此不能保证最能解释预测因子的方向对于预测响应(即使经常假设)也是最好的。偏最小二乘法(PLS)是一个监督的替代PCR。与PCR一样,PLS是一种降维方法,它首先识别一组新的较小的特征,这些特征是原始特征的线性组合,然后通过最小二乘法拟合一个线性模型到新的M特征。然而,与PCR不同的是,PLS利用响应变量来识别新的特征。

7 - 非线性模型:

在统计学中,非线性回归是回归分析的一种形式,其中观测数据是由一个函数建模的,该函数是模型参数的非线性组合,并取决于一个或多个自变量。数据通过逐次逼近的方法进行拟合。以下是一些处理非线性模型的重要技巧:

如果实数的函数可以写成区间指示函数的有限线性组合,则称实数为函数。非正式地说,一个阶梯函数是一个只有很多片段的分段常量函数。

分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的一定间隔。分段实际上是表达函数的一种方式,而不是函数本身的一个特征,但是具有额外的限定,可以描述函数的性质。例如,分段多项式函数是在其每个子域上是多项式的函数,但是每个子域上可能是不同的。

样条函数是由多项式分段定义的特殊函数。在计算机图形学中,样条是指分段多项式参数曲线。由于其结构简单,评估方便和准确,以及通过曲线拟合和交互式曲线设计逼近复杂形状的能力,样条曲线是流行的曲线。

广义加性模型是一种线性预测模型,其中线性预测变量线性依赖于某些预测变量的未知光滑函数,兴趣集中在对这些光滑函数的推理上。

8 - 基于树的方法:

基于树的方法可以用于回归和分类问题。这些涉及将预测空间分层或分割成若干简单区域。由于用于分割预测变量空间的分裂规则集合可以在树中进行概括,所以这些类型的方法被称为决策树方法。下面的方法生成多个树,然后结合在一起产生一个单一的共识预测。

套袋(Bagging)是减少预测方差的方法,通过使用重复组合来生成原始数据集中的训练数据,从而生成与原始数据相同的多样性。通过增加你的训练集的大小,你不能提高模型的预测力,只是减少方差,勉强把预测调整到预期的结果。

提升(Boosting)是一种使用几种不同的模型计算产出的方法,然后使用加权平均方法对结果进行平均。通过改变你的加权公式,结合这些方法的优点和缺陷,你可以使用不同的狭义调整模型,为更广泛的输入数据提供一个很好的预测力。

随机森林(random forest )算法实际上非常类似于套袋。你也可以绘制训练集的随机bootstrap样本。但是,除了自举样本之外,还可以绘制随机子集来训练单个树;在套袋中,你给每个树一套完整功能。由于随机特征选择,与常规套袋相比,树木之间的相互独立性更高,这通常会带来更好的预测性能(由于更好的方差偏差权衡),而且速度更快,因为每棵树只能从功能的一个子集。

9 - 支持向量机:

SVM是机器学习中监督学习模型中的一种分类技术。通俗地说,它涉及于找到超平面(2D中的线,3D中的平面和更高维中的超平面,更正式地说,超平面是n维空间中的n维空间)最大保证金从本质上讲,它是一个约束优化问题,其边界被最大化,受限于它对数据进行了完美的分类(硬边缘)。

这种“支持”这个超平面的数据点被称为“支持向量”。对于两类数据不能线性分离的情况,这些点被投影到可能线性分离的分解(高维)空间。涉及多个...

数据分析:关于社会统计学与数理统计的区别,看完长见识了 推广视频课程

img

落俗

关注

关于社会统计学与数理统计的区别

一、从历史发展方面看它们之间的区别  社会统计学自古以来就有,它的历史有3000多年,大到国家财政分配,小到百姓生活方面的各种统计,无所不在。它是一项广泛的社会实践活动形式,“统而计之”就是人们对统计的初步认识。它属于社会科学。数理统计学仅仅是在100年前伴随着概率论的发展而发展起来的。19世纪中叶以前已出现了若干重要的工作,如C.F.高斯和A.M.勒让德关于观测数据误差分析和最小二乘法的研究。到19世纪末期,经过包括K.皮尔森在内的一些学者的努力,这门学科已开始形成。但数理统计学发展成一门成熟的学科,则是20世纪上半叶的事,它在很大程度上要归功于K.Pearson、R.A. Fisher等学者的工作。特别是Fisher的贡献,对这门学科的建立起了决定性的作用。1946年H.克拉默发表的《统计学数学方法》是第一部严谨且比较系统的数理统计著作,它是数理统计学进入成熟阶段的标志。由于数理统计其本质是带着概率意义下的结论。比如:区间估计,假设检验,方差分析等。因此数理统计属于概率论的应用属于自然科学。统计学发展史说明:先有社会统计学后有数理统计学,先有变量后有随机变量;社会统计学以变量为基础,数理统计学以随机变量为基础,变量与随机变量是在一定的条件下可以相互转化的数学概念。  

二、从数学思路上看它们之间的区别  从两门统计学的数学思路来看,社会统计学主要来源于社会学、经济学、数学(主要是初等数学),这个学科所涉及的内容与实际统计工作存在着密切的联系。当统计工作发生大的变动之后,统计学也随之做出相应的反应。由于它主要是为国家的宏观管理服务的,有着鲜明的服务对象,因此在国家统计部门、宏观经济管理部门发挥着直接的作用。本文由毕业论文网http://lw54收集整理另外,这个学科中的一些名词也不属于数学名词。如:人口统计,寿命表。随着学科的不断交融和细化,相关于每个学科的统计学随之诞生,如生物统计、地质统计、地震统计、医学统计、卫生统计等等。而数理统计学的理论基础是概率论,它与数学,特别是高等数学存在着密切的联系。它本身是一门数学学科,重在应用方法的数理基础的研究。由于它有不少方法来源于生物、农业试验。因而被自然科学界普遍地认为是一种科学方法。从原则上来说它可以用于研究任何随机现象的变化。除了它的通用性之外,它还具有很强的派生性,现在许多被人们泛使用的数理方法都与数理统计学有着不可分割的联系。 

 总之,社会统计学更侧重于对解决社会、经济等现实问题数量分析方法的研究与应用,而方法本身的数理基础的科学性研究,则由相应的理论统计学去研究,事实上,推断统计方法的数理基础的科学性研究,正是数理统计的研究范畴之一。  三、从应用的角度和范围上看它们之间的区别  在研究角度上,二者的区别表现为,社会统计学主要包括社会核算和社会定量分析两部分。前者主要包括统计分类理论、统计资料搜集与整理理论、统计指标理论和核算表式理论,其核心内容是宏观经济核算表,此外还有正在开发或有待开发的环境、科技等核算领域。后者是对社会经济总量、结构、动态、趋势等方面进行分析。从整体看,统计学基本上是围绕观测指标展开的,指标设定、指标测量、指标分析是其主要内容。而数理统计学一般包括描述统计和推断统计两大部分。数理统计基本上是围绕模型展开的,模型假设、模型论证、模型运用是其主要内容。两门统计学在研究角度上虽有联系,但其区别是明显的。 

 在研究范围上,数理统计侧重于对样本数据的定量分析;而统计学不仅重视样本数据的定量分析,而且重视对所获得的总体全部数据的定量分析,同时,重视数据收集方法、数据整理方法的研究。某某统计学往往仅限于它所在的学科的具体应用。而数理统计给出的公式却可以应用在其他的众多科学领域中。如:在农业中,对田间试验进行适当的设计和统计分析;在工业生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题中起着广泛的作用;在医学中,可以用来发现和验证导致疾病的种种因素,确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力等;在自然科学和技术科学中,可以用于地震、气象和水文方面的预报、地质资源的评价等。数理统计的原理是小概率事件,其论证过程是反证法。这也是它与社会统计学的重大区别。  四、从词汇上和图书分类上看它们之间的区别  社会统计学起源于国家财政National Finance,数理统计学的英文为Mathematical statistics。社会统计学的图书分类为F,数理统计学为O。  从上述数理统计与社会统计学的比较,可以清楚地看到,随着现代统计学的发展及其在社会政治经济生活中发挥作用越来越大的趋势,数理统计研究问题的理念及其方法已对统计学的发展产生重要的革命性影响,但是,数理统计与社会统计学毕竟是两门差异较大的学科,不可能简单地加以“统一”。 尽管在社会统计学与数理统计学之间存在着很大区别,两门学科关于统计学理论问题的观点有着明显的历史和认识上的局限性,这些却并不能否定两大学派的历史功绩和未来发展。通过比较分析两大学科,全面正确地认识统计学的发展,更有利于两门学科之间的沟通、交流和借鉴,促进整个统计学的发展。   

统计分析 | 多变量技术——综合排名方法 企业视频课程

img

柳之云

关注

这篇文章是俺2009年在博客里写的多变量分析方法介绍之一,今天在微信公号分享!

综合排名问题是一个多变量分析技术!

近一时期排名非常时髦,形成了排名经济,比如:胡润富人排行榜,财富500强,慈善排名,城市竞争力排行,MBA商学院排名,大学排行榜等等!最近刚刚完成广播电视节目综合评估体系客体评估项目,其中也涉及到电视节目的综合评估问题,特别是综合排名问题。大部分情况下综合评价问题都会涉及到排名,多指标排名问题。

记住:市场研究或作研究的人从来不排名,只是做研究往往需要排名!

综合排名是一项系统综合评估研究方法,焦点是如何科学、客观地将一个多维度、多评价指标问题综合成为一个单指标形式,利用产生的综合评价指数进行排名和评价。

综合排名的的形成需要研究人员对评价对象进行大量基础性数据分析基础上,并依据专业知识和评价方法的认识,确定评估指标体系,对每个评价指标在综合评价体系中的重要程度进行测算。研究人员需根据各指标的重要性确定了权重,据此对每项不同测量尺度指标进行修正后加权并标准化无量纲,最终采用多元统计分析方法对评价指标进行了系统最佳综合,形成最终综合评价。

主要包括以下几个方面:

综合评估问题涉及面比较广,下面我们仅仅就综合排名问题讲讲,我们采用大学研究生排行榜的数据进行综合排名!我收集了某年的大学研究生排行榜,因为显示的问题我仅仅截取了前20名,

人民大学

提到了前面进入第20名!(数据源已经记不清楚出处了)

从上面我们可以看到:20家大学研究生院的综合排名情况,最左边一列是最初的排名,这个排名名次是按照六个指标得到了,六个指标分别是:

我这里并不关心这六个指标如何获得,和数据准确性问题,我们只关心应该如何在现有指标下进行综合排名问题!

当然,大家要关注这六个指标的测量尺度,取值范围,量纲的大小等,你将来总不希望把吨和克进行相加吧!

方法一:等权重求和法 T1

我们先来看看,把现在六个指标求和,得到T1=P1+P2+P3+P4+P5+P6,然后按T1降序排名;

看到了吗?该排行榜的发布就是用的加法,最简单的方法!

从数据看以看出,指标P6与其它指标单位差异较大,简单相加有缺陷,但是这种方法是大家最常用的,比如:高考录取分数就是各门考试成绩加总,得到总成绩(

高考成绩

),根据录取人数取得分位点,然后确定录取分数线,并排名从高到底录取;当然硕士研究生录取也是这种方法!

为什么要用这种方法呢?如果用复杂多变量方法,得到总指标排名,估计家长们或学生都要疯了,都不知道自己如何能够被录取,

算法

不懂,怎么被录取!显然,其它方法是不能采用的,这是最好的可执行方案!

方法二:主观加权求和法 T2

但是,录取单位总是想能不能把偏科的人录取,比如我看重数学、物理,这两个指标应该权重更大些,比如我们假设考了6门课,我们根据经验、主观判断、领导指示或专家评估最终确定:30:25:20:15:10:5的权重!

再次计算;T2=p1 * 0.30 + p2 * 0.25 + p3 * 0.20 + p4 * 0.15 + p5 * 0.10 + p6 * 0.05

我们按照T2降序排列,看一下排名,基本次序是一致的,只是在15名附近发生一点改变!

如果按照这种方式排名,首先所有指标应该在同一个量纲上,经常是在指标都是在100分制下,并且权重最好合计为1,最终得到的排名总分也是同样量纲和尺度!

这种情况最适合综合评价方式,加权平均啦!当然如何确定权重就成为关注的要点,科学性、合理性都需要明确!大部分综合评估方法在最后都是采用这种排名方法!

方法三:秩综合排名法 T3

什么是秩,秩序就是求次序!所有我们可以计算每个指标的秩,然后根据秩的大小进行求和!

SPSS软件

可以选择个案排秩,指定最大值=1,我们可以得到六个指标的秩指标次序!我们采用简单加法求和和排名,看看结果如何?

计算 T3=Rp1 + Rp2 + Rp3 + Rp4 + Rp5 + Rp6,按照T3升序排列!

从T3升序排列看,这时候大致排名与原始没有发生颠覆性变化,只是在前后名次上有了一定改变!

这种方法也是一种排名方法,经常用在比如

世界杯

最佳阵容或最佳球队评选上,假如有六个记者或专家给所有球队或球员选出最佳阵容或球队时,往往比较可操作的方法是让所有评价者给评价对象打分或者排名,排名更好操作,然后求和!

注意:往往评价者只会评出他最熟悉的,可能会产生缺省值问题,所以要根据每个评价者的情况和缺失情况进行缺省值处理!然后进行求和!

方法四:主成分排名法 T4

这种方法就是多变量分析技术了,

主成分分析

方法经常用来进行综合评估和排名!有关主成分分析技术的相关内容我将在主成分分析专题讲,这里还是关注如何进行排名!

主成分分析是根据指标和数据得到第一主成分,并根据第一主成分得分进行排名的方法!因为,第一主成分往往是凝聚了所有变量的最大变差,也就是解释了6个指标的最大差异(解释度),或者说最大综合成分,排名就是找差异吗?据此排名!

SPSS软件

没有专门命名主成分分析,是与因子分析整合的,在选择因子分析后,只要不进行旋转,就可以得到

主成分分析

结果,记住把得分保存下来,我们可以要求保存所有主成分,六个指标得到六个主成分,但我们只要保存前两个就可以了!

从主成分可以看出:第一主成分解释了6个指标变差的72.409%,把保存的第一主成分按降序排列,我们看一下排名情况;

从排名顺序我们看到,这种方法与方法二加权排名几乎一样,当然与简单求和也基本一致!这说明,这种方法是能够得到理想的综合排名的!(理论上说,如果排名对象差异很大,不同方法得当的结果基本一致!)

同时,你可以看到,成分得分

系数矩阵

的第一主成分列,实际上就是基于数据驱动的权重啦,所以这种方法不需要事先得到主观权重,完全数据驱动!但是,得到的只是排名,具体的排名得分没有实际意义了,如果你希望得到排名的得分具有实际意义,显然该方法会把人搞糊涂!但是我们也可以把主成分得分进行数值变化或映射,得到指数或什么规范得分!

说明:你也可以按照第二主成分进行排名,但这个时候完全不同了!

这里我们可以得到另外一种收获,就是可以按照第一主成分和第二主成分进行散点图分析,得到直观分析!

你会看这种图吗?

方法五:主成分综合加权法 T5

我们从上面一种排名方法看到,虽然按照第一主成分进行了排名,但第二主成分也解释了21.894%,如果综合将可以解释数据的94.303%;(学术研究有时候更追求高解释度),好了,现在我们可以按照主成分的解释度作为权重,把两个主成分进行加权求和!

计算:T5=FAC1_1 * 72.409 + FAC2_1 * 21.894

我们看看排名情况:

对照着第一列的原始排名,这时候排名结果发生了改变,特别是

人民大学

前进了几名!

这时候,我们要看看排名的指标对排名的意义和影响了,我们可以分析看出,6个评价排名指标实际上主要是两个维度,简单说就是自然科学和社会科学维度,前面四种排名方法基本上权重都在自然科学维度上,第五种方法考虑了社会科学维度!

我们看一下因子分析结果,采用最大方差旋转!

显然,第一因子我们命名为:自然科学,第二因子命名:社会科学

所以,我说我们学校总是不能进入排行榜呢?原来所谓的排行榜就是看自然科学(工科类)的排名啊!哈哈!

针对我们文科和艺术类学校,只能垫底啦!下次我要是排名,一定想法用复杂的排名技术,把我们学校排进去,相信我能做到这一点!或者咱们来个分类排名,反正咱有技术!开玩笑啦!

记住一点:方法五在采用的时候一定格外小心,因为主成分是正交的,不同方向能否综合要记住,也就是数值越大越表示好,也就是两个指标具有数值同向,才有可能满足线性可加性!不行还是方法四比较妥当!

方法六:乘法原则

在指标同是正向,我们也可以将各个指标相乘,值越大排名考前!乘法原则主要用在:一票否决,或某些指标是另一个指标的修正因子!

方法七:其它方法

你还可以采用部分乘法原则与加法原则综合法,也可以因子得分进行排名,因子得分加权排名,所有主成分或因子加权排名等等!

排名方法大致就介绍到这里了,我的工作也就完成了!

至于排行榜的发布,商业的、行政的、领导的、媒体的、企业的各种因素都会最终影响排名和结果的发布~!到底最后怎么发布也有学问,大家好好学吧!

加法原则:取长补短,互有补充!

乘法原则:一损俱损,不可或缺!

上面的排名还没有考虑指标的标准化问题,以及如何标准化:插值法,最大值最小值法,理想点法等等!

排名是技术,发布是艺术!

沈浩老师

——————

中国传媒大学新闻学院教授、博士生导师

中国传媒大学调查统计研究所所长

大数据挖掘与社会计算实验室主任

中国市场研究行业协会会长

欢迎关注沈浩老师的微信公共号

_2001

数艺智训

DAtraining

欢迎关注:灵动数艺

——数艺智训

数据艺术家

TableauHome

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP