python数据发掘

文 | 张俊红

数据加载

导入文本数据

1、导入文本格式数据(CSV)的方法：

方法一：使用pd.read_csv()，默认打开csv文件。

9、10、11行三种方式均可以导入文本格式的数据。

特殊说明：第9行使用的条件是运行文件.py需要与目标文件CSV在一个文件夹中的时候可以只写文件名。第10和11行中文件名ex1.CSV前面的部分均为文件的路径。

方法二：使用pd.read.table(),需要指定是什么样分隔符的文本文件。用sep=””来指定。

2、当文件没有标题行时

可以让pandas为其自动分配默认的列名。

也可以自己定义列名。

3、将某一列作为索引，比如使用message列做索引。通过index_col参数指定’message’。

4、要将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可。

5、文本中缺失值处理，缺失数据要么是没有(空字符串)，要么是用某个标记值表示的，默认情况下，pandas会用一组经常出现的标记值进行识别，如NA、NULL等。查找出结果以NAN显示。

6、逐块读取文本文件

如果只想读取几行(避免读取整个文件)，通过nrows进行制定即可。

7、对于不是使用固定分隔符分割的表格，可以使用正则表达式来作为read_table的分隔符。

(’\s+’是正则表达式中的字符)。

导入JSON数据

JSON数据是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标注形式之一。通过json.loads即可将JSON对象转换成Python对象。(import json)

对应的json.dumps则将Python对象转换成JSON格式。

导入EXCEL数据

直接使用read_excel(文件名路径)进行获取，与读取CSV格式的文件类似。

导入数据库数据

主要包含两种数据库文件，一种是SQL关系型数据库数据，另一种是非SQL型数据库数据即MongoDB数据库文件。

数据库文件是这几种里面比较难的，本人没有接触数据库文件，没有亲测，所以就不贴截图了。

数据整理

合并数据集

1、数据库风格的合并

数据库风格的合并与SQL数据库中的连接(join)原理一样。通过调用merge函数即可进行合并。

当没有指明用哪一列进行连接时，程序将自动按重叠列的列名进行连接，上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。

当两个对象的列名不同时，即两个对象没有共同列时，也可以分别进行指定。

Left_on是指左侧DataFrame中用作连接的列。

right_on是指右侧DataFrame中用作连接的列。

通过上面的语句得到的结果里面只有a和b对应的数据，c和d以及与之相关的数据被消去，这是因为默认情况下，merge做的是‘inner’连接，即sql中的内连接，取得两个对象的交集。也有其他方式连接：left、right、outer。用“how”来指明。

也可以根据多个键(列)进行合并，用on传入一个由列名组成的列表即可。

2、索引上的合并

(1)普通索引的合并

Left_index表示将左侧的行索引引用做其连接键

right_index表示将右侧的行索引引用做其连接键

上面两个用于DataFrame中的连接键位于其索引中，可以使用Left_index=True或right_index=True或两个同时使用来进行键的连接。

(2)层次化索引

与数据库中用on来根据多个键合并一样。

3、轴向连接(合并)

轴向连接，默认是在轴方向进行连接，也可以通过axis=1使其进行横向连接。

(1)对于numpy对象(数组)可以用numpy中的concatenation函数进行合并。

(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。

·4、合并重叠数据

对于索引全部或部分重叠的两个数据集，我们可以使用numpy的where函数来进行合并，where函数相当于if—else函数。

对于重复的数据显示出相同的数据，而对于不同的数据显示a列表的数据。同时也可以使用combine_first的方法进行合并。合并原则与where函数一致，遇到相同的数据显示相同数据，遇到不同的显示a列表数据。

重塑数据集

1、旋转数据

(1)重塑索引、分为stack(将数据的列旋转为行)和unstack(将数据的行旋转为列)。

(2)将‘长格式’旋转为‘宽格式’

2、转换数据

(1)数据替换，将某一值或多个值用新的值进行代替。(比较常用的是缺失值或异常值处理，缺失值一般都用NULL、NAN标记，可以用新的值代替缺失标记值)。方法是replace。

一对一替换：用np.nan替换-999

多对一替换：用np.nan替换-999和-1000.

多对多替换：用np.nan代替-999,0代替-1000.

也可以使用字典的形式来进行替换。

(2)离散化或面元划分，即根据某一条件将数据进行分组。

利用pd.cut()方式对一组年龄进行分组。

默认情况下，cut对分组条件的左边是开着的状态，右边是闭合状态。可以用left(right)=False来设置哪边是闭合的。

清理数据集

主要是指清理重复值，DataFrame中经常会出现重复行，清理数据主要是针对这些重复行进行清理。

利用drop_duplicates方法，可以返回一个移除了重复行的DataFrame.

默认情况下，此方法是对所有的列进行重复项清理操作，也可以用来指定特定的一列或多列进行。

默认情况下，上述方法保留的是第一个出现的值组合，传入take_last=true则保留最后一个。

End.

来源：36大数据

2017年最流行的15个数据科学Python库行业视频课程

鸽子

选自Medium

作者：Igor Bobriakov

机器之心编译

参与：朱朝阳、吴攀

Python 近几年在数据科学行业获得了人们的极大青睐，各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验，总结了数据科学家和工程师将在 2017 年最常使用的 Python 库。

核心库

1）NumPy

地址：http://numpy.org

当使用 Python 开始处理科学任务时，不可避免地需要求助 Python 的 SciPy Stack，它是专门为 Python 中的科学计算而设计的软件的集合（不要与 SciPy 混淆，它只是这个 stack 的一部分，以及围绕这个 stack 的社区）。这个 stack 相当庞大，其中有十几个库，所以我们想聚焦在核心包上（特别是最重要的）。

NumPy（代表 Numerical Python）是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化，可以提升性能，从而加快执行速度。

2）SciPy

地址：https://scipy.org

SciPy 是一个工程和科学软件库。除此以外，你还要了解 SciPy Stack 和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建立在 NumPy 的基础之上，因此它的数组大量使用了 NumPy。它通过其特定的子模块提供高效的数值例程操作，比如数值积分、优化和许多其他例程。SciPy 的所有子模块中的函数都有详细的文档，这也是一个优势。

3）Pandas

地址：http://pandas.pydata.org

Pandas 是一个 Python 包，旨在通过「标记（labeled）」和「关系（relational）」数据进行工作，简单直观。Pandas 是 data wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构：

Series：一维

Data Frames：二维

例如，当你要从这两种类型的结构中接收到一个新的「Dataframe」类型的数据时，你将通过传递一个「Series」来将一行添加到「Dataframe」中来接收这样的 Dataframe：

这里只是一小撮你可以用 Pandas 做的事情：

轻松删除并添加「Dataframe」中的列将数据结构转换为「Dataframe」对象处理丢失数据，表示为 NaN（Not a Number）功能强大的分组

可视化

4）Matplotlib

地址：https://matplotlib.org

Matplotlib 是另一个 SciPy Stack 核心软件包和另一个 Python 库，专为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件，使得 Python（在 NumPy、SciPy 和 Pandas 的帮助下）成为 MatLab 或 Mathematica 等科学工具的显著竞争对手。然而，这个库比较底层，这意味着你需要编写更多的代码才能达到高级的可视化效果，通常会比使用更高级工具付出更多努力，但总的来说值得一试。花一点力气，你就可以做到任何可视化：

线图散点图条形图和直方图饼状图茎图轮廓图场图频谱图

还有使用 Matplotlib 创建标签、网格、图例和许多其他格式化实体的功能。基本上，一切都是可定制的。

该库支持不同的平台，并可使用不同的 GUI 工具套件来描述所得到的可视化。许多不同的 IDE（如 IPython）都支持 Matplotlib 的功能。

还有一些额外的库可以使可视化变得更加容易。

5）Seaborn

地址：https://seaborn.pydata.org

Seaborn 主要关注统计模型的可视化；这种可视化包括热度图（heat map），可以总结数据但也描绘总体分布。Seaborn 基于 Matplotlib，并高度依赖于它。

6）Bokeh

地址：http://bokeh.pydata.org

Bokeh 也是一个很好的可视化库，其目的是交互式可视化。与之前的库相反，这个库独立于 Matplotlib。正如我们已经提到的那样，Bokeh 的重点是交互性，它通过现代浏览器以数据驱动文档（d3.js）的风格呈现。

7）Plotly

地址：https://plot.ly

最后谈谈 Plotly。它是一个基于 Web 的工具箱，用于构建可视化，将 API 呈现给某些编程语言（其中包括 Python）。在 plot.ly 网站上有一些强大的、开箱即用的图形。为了使用 Plotly，你需要设置你的 API 密钥。图形处理会放在服务器端，并在互联网上发布，但也有一种方法可以避免这么做。

机器学习

8）SciKit-Learn

地址：http://scikit-learn.org

Scikits 是 SciPy Stack 的附加软件包，专为特定功能（如图像处理和辅助机器学习）而设计。在后者方面，其中最突出的一个是 scikit-learn。该软件包构建于 SciPy 之上，并大量使用其数学操作。

scikit-learn 有一个简洁和一致的接口，可利用常见的机器学习算法，让我们可以简单地在生产中应用机器学习。该库结合了质量很好的代码和良好的文档，易于使用且有着非常高的性能，是使用 Python 进行机器学习的实际上的行业标准。

深度学习：Keras / TensorFlow / Theano

在深度学习方面，Python 中最突出和最方便的库之一是 Keras，它可以在 TensorFlow 或者 Theano 之上运行。让我们来看一下它们的一些细节。

9）Theano

地址：https://github/Theano

首先，让我们谈谈 Theano。Theano 是一个 Python 包，它定义了与 NumPy 类似的多维数组，以及数学运算和表达式。该库是经过编译的，使其在所有架构上能够高效运行。这个库最初由蒙特利尔大学机器学习组开发，主要是为了满足机器学习的需求。

要注意的是，Theano 与 NumPy 在底层的操作上紧密集成。该库还优化了 GPU 和 CPU 的使用，使数据密集型计算的性能更快。

效率和稳定性调整允许更精确的结果，即使是非常小的值也可以，例如，即使 x 很小，log(1+x) 也能得到很好的结果。

10）TensorFlow

地址：https://tensorflow.org

TensorFlow 来自 Google 的开发人员，它是用于数据流图计算的开源库，专门为机器学习设计。它是为满足 Google 对训练神经网络的高要求而设计的，是基于神经网络的机器学习系统 DistBelief 的继任者。然而，TensorFlow 并不是谷歌的科学专用的——它也足以支持许多真实世界的应用。

TensorFlow 的关键特征是其多层节点系统，可以在大型数据集上快速训练人工神经网络。这为 Google 的语音识别和图像识别提供了支持。

11）Keras

地址：https://keras.io

最后，我们来看看 Keras。它是一个使用高层接口构建神经网络的开源库，它是用 Python 编写的。它简单易懂，具有高级可扩展性。它使用 Theano 或 TensorFlow 作为后端，但 Microsoft 现在已将 CNTK（Microsoft 的认知工具包）集成为新的后端。

其简约的设计旨在通过建立紧凑型系统进行快速和容易的实验。

Keras 极其容易上手，而且可以进行快速的原型设计。它完全使用 Python 编写的，所以本质上很高层。它是高度模块化和可扩展的。尽管它简单易用且面向高层，但 Keras 也非常深度和强大，足以用于严肃的建模。

Keras 的一般思想是基于神经网络的层，然后围绕层构建一切。数据以张量的形式进行准备，第一层负责输入张量，最后一层用于输出。模型构建于两者之间。

自然语言处理

12）NLTK

地址：http://nltk.org

这套库的名称是 Natural Language Toolkit（自然语言工具包），顾名思义，它可用于符号和统计自然语言处理的常见任务。NLTK 旨在促进 NLP 及相关领域（语言学、认知科学和人工智能等）的教学和研究，目前正被重点关注。

NLTK 允许许多操作，例如文本标记、分类和 tokenizing、命名实体识别、建立语语料库树（揭示句子间和句子内的依存性）、词干提取、语义推理。所有的构建块都可以为不同的任务构建复杂的研究系统，例如情绪分析、自动摘要。

13）Gensim

地址：http://radimrehurek/gensim

这是一个用于 Python 的开源库，实现了用于向量空间建模和主题建模的工具。这个库为大文本进行了有效的设计，而不仅仅可以处理内存中内容。其通过广泛使用 NumPy 数据结构和 SciPy 操作而实现了效率。它既高效又易于使用。

Gensim 的目标是可以应用原始的和非结构化的数字文本。Gensim 实现了诸如分层 Dirichlet 进程（HDP）、潜在语义分析（LSA）和潜在 Dirichlet 分配（LDA）等算法，还有 tf-idf、随机投影、word2vec 和 document2vec，以便于检查一组文档（通常称为语料库）中文本的重复模式。所有这些算法是无监督的——不需要任何参数，唯一的输入是语料库。

数据挖掘与统计

14）Scrapy

地址：https://scrapy.org

Scrapy 是用于从网络检索结构化数据（如联系人信息或 URL）的爬虫程序（也称为 spider bots）的库。它是开源的，用 Python 编写。它最初是为 scraping 设计的，正如其名字所示的那样，但它现在已经发展成了一个完整的框架，可以从 API 收集数据，也可以用作通用的爬虫。

该库在接口设计上遵循著名的 Don』t Repeat Yourself 原则——提醒用户编写通用的可复用的代码，因此可以用来开发和扩展大型爬虫。

Scrapy 的架构围绕 Spider 类构建，该类包含了一套爬虫所遵循的指令。

15）Statsmodels

地址：http://statsmodels.org

statsmodels 是一个用于 Python 的库，正如你可能从名称中猜出的那样，其让用户能够通过使用各种统计模型估计方法以及执行统计断言和分析来进行数据探索。

许多有用的特征是描述性的，并可通过使用线性回归模型、广义线性模型、离散选择模型、稳健的线性模型、时序分析模型、各种估计器进行统计。

该库还提供了广泛的绘图函数，专门用于统计分析和调整使用大数据统计数据的良好性能。

结论

这个列表中的库被很多数据科学家和工程师认为是最顶级的，了解和熟悉它们是很有价值的。这里有这些库在 GitHub 上活动的详细统计：

当然，这并不是一份完全详尽的列表，还有其它很多值得关注的库、工具包和框架。比如说用于特定任务的 SciKit 包，其中包括用于图像的 SciKit-Image。如果你也有好想法，不妨与我们分享。

Python 爬取淘宝商品数据挖掘分析实战企业视频课程

心底

作者孙方辉

本文为CDA志愿者投稿作品，转载需授权

项目内容

本案例选择>>商品类目：沙发；

数量：共100页 4400个商品；

筛选条件：天猫、销量从高到低、价格500元以上。

项目目的

1.对商品标题进行文本分析词云可视化

2.不同关键词word对应的sales的统计分析

3.商品的价格分布情况分析

4.商品的销量分布情况分析

5.不同价格区间的商品的平均销量分布

6.商品价格对销量的影响分析

7.商品价格对销售额的影响分析

8.不同省份或城市的商品数量分布

9.不同省份的商品平均销量分布

注：本项目仅以以上几项分析为例。

项目步骤

1.数据采集：Python爬取淘宝网商品数据

2.对数据进行清洗和处理

3.文本分析：jieba分词、wordcloud可视化

4.数据柱形图可视化 barh

5.数据直方图可视化 hist

6.数据散点图可视化 scatter

7.数据回归分析可视化 regplot

工具&模块：

工具：本案例代码编辑工具 Anaconda的Spyder

模块：requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn等。

原代码和相关文档后台回复“淘宝”

一、爬取数据

因淘宝网是反爬虫的，虽然使用多线程、修改headers参数，但仍然不能保证每次100%爬取，所以我增加了循环爬取，每次循环爬取未爬取成功的页直至所有页爬取成功停止。

说明：淘宝商品页为JSON格式这里使用正则表达式进行解析；

代码如下：

二、数据清洗、处理：

(此步骤也可以在Excel中完成再读入数据)

代码如下：

说明：根据需求，本案例中只取了 item_loc, raw_title, view_price, view_sales这4列数据，主要对标题、区域、价格、销量进行分析。

代码如下:

三、数据挖掘与分析：

【1】.对 raw_title列标题进行文本分析：

使用结巴分词器，安装模块pip install jieba

对 title_s（list of list格式）中的每个list的元素（str）进行过滤剔除不需要的词语，即把停用词表stopwords中有的词语都剔除掉：

因为下面要统计每个词语的个数，所以为了准确性这里对过滤后的数据 title_clean中的每个list的元素进行去重，即每个标题被分割后的词语唯一。

观察 word_count表中的词语，发现jieba默认的词典无法满足需求：

有的词语（如可拆洗、不可拆洗等）却被cut，这里根据需求对词典加入新词（也可以直接在词典dict.txt里面增删，然后载入修改过的dict.txt）

词云可视化：

安装模块 wordcloud：

方法1： pip install wordcloud

方法2：下载Packages安装：pip install软件包名称

软件包下载地址：https://lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意：要把下载的软件包放在Python安装路径下。

代码如下：

分析结论：

1.组合、整装商品占比很高；

2.从沙发材质看：布艺沙发占比很高，比皮艺沙发多；

3.从沙发风格看：简约风格最多，北欧风次之，其他风格排名依次是美式、中式、日式、法式等；

4.从户型看：小户型占比最高、大小户型次之，大户型最少。

（说明：例如词语 ‘简约’，则统计商品标题中含有‘简约’一词的商品的销量之和，即求出具有‘简约’风格的商品销量之和）

代码如下：

对表df_word_sum中的 word和 w_s_sum两列数据进行可视化

（本例中取销量排名前30的词语进行绘图）

由图表可知：

1.组合商品销量最高；

2.从品类看：布艺沙发销量很高，远超过皮艺沙发；

3.从户型看：小户型沙发销量最高，大小户型次之，大户型销量最少；

4.从风格看：简约风销量最高，北欧风次之，其他依次是中式、美式、日式等；

5.可拆洗、转角类沙发销量可观，也是颇受消费者青睐的。

【3】.商品的价格分布情况分析：

分析发现，有一些值太大，为了使可视化效果更加直观，这里我们结合自身产品情况，选择价格小于20000的商品。

代码如下：

由图表可知：

1.商品数量随着价格总体呈现下降阶梯形势，价格越高，在售的商品越少；

2.低价位商品居多，价格在500-1500之间的商品最多，1500-3000之间的次之，价格1万以上的商品较少；

3.价格1万元以上的商品，在售商品数量差异不大。

【4】.商品的销量分布情况分析：

同样，为了使可视化效果更加直观，这里我们选择销量大于100的商品。

代码如下：

由图表及数据可知：

1.销量100以上的商品仅占3.4% ，其中销量100-200之间的商品最多，200-300之间的次之；

2.销量100-500之间，商品的数量随着销量呈现下降趋势，且趋势陡峭，低销量商品居多；

3.销量500以上的商品很少。

【5】.不同价格区间的商品的平均销量分布：

代码如下：

由图表可知：

1.价格在1331-1680之间的商品平均销量最高，951-1331之间的次之，9684元以上的最低；

2.总体呈现先增后减的趋势，但最高峰处于相对低价位阶段；

3.说明广大消费者对购买沙发的需求更多处于低价位阶段，在1680元以上价位越高平均销量基本是越少。

【6】.商品价格对销量的影响分析：

同上，为了使可视化效果更加直观，这里我们结合自身产品情况，选择价格小于20000的商品。

代码如下：

由图表可知：

1.总体趋势：随着商品价格增多其销量减少，商品价格对其销量影响很大；

2.价格500-2500之间的少数商品销量冲的很高，价格2500-5000之间的商品多数销量偏低，少数相对较高，但价格5000以上的商品销量均很低没有销量突出的商品。

【7】.商品价格对销售额的影响分析：

代码如下：

由图表可知：

1.总体趋势：由线性回归拟合线可以看出，商品销售额随着价格增长呈现上升趋势；

2.多数商品的价格偏低，销售额也偏低；

3.价格在0-20000的商品只有少数销售额较高，价格2万-6万的商品只有3个销售额较高，价格6-10万的商品有1个销售额很高，而且是最大值。

【8】.不同省份的商品数量分布：

代码如下：

由图表可知：

1.广东的最多，上海次之，江苏第三，尤其是广东的数量远超过江苏、浙江、上海等地，说明在沙发这个子类目，广东的店铺占主导地位；

2.江浙沪等地的数量差异不大，基本相当。

【9】.不同省份的商品平均销量分布：

代码如下：

热力型地图

作者后记

孙方辉从事数据分析工作，热爱数据统计与挖掘分析，本文献给学习Python的朋友们，欢迎大佬们的指点！

python-数据集成推广视频课程

秋元冬

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。

需要考虑字段表达不一样，以及属性冗余。将源数据在最底层上加以转换，提炼，集成。

1：数据变换

目的：适用于挖掘的任务以及算法的需要

（1）：简单函数变换：平方，开方，取对数，差分运算等

简单的函数变换用来将不具有正态分布的数据变换成具有正态分布的数据。在时间序列分析中，有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。在数据挖掘中简单的函数变换很有必要。

（2）：为了清除指标之间量纲和取值范围的差异影响，将数据按照比例进行缩放，使之落在指定的范围内。

最小---最大规范化

零---均值规范化

小数定标规范化

（3）连续属性离散化

有些分类算法（如ID3算法，Apriori算法等）要求数据是分类属性，故需要将联系性属性转换成分类属性，称连续属性离散化。

等宽法

等频法

基于聚类分析的方法

（4）属性构造

（5）小波变换

数据规约

属性规约：合并属性，逐步向前选择，逐步向后删除，决策树归纳，主成分分析

数值规约：统一数值

python数据分析笔记——数据加载与整理推广视频课程

塞尔玛

文 | 张俊红

数据加载

导入文本数据

1、导入文本格式数据(CSV)的方法：

方法一：使用pd.read_csv()，默认打开csv文件。

9、10、11行三种方式均可以导入文本格式的数据。

特殊说明：第9行使用的条件是运行文件.py需要与目标文件CSV在一个文件夹中的时候可以只写文件名。第10和11行中文件名ex1.CSV前面的部分均为文件的路径。

方法二：使用pd.read.table(),需要指定是什么样分隔符的文本文件。用sep=””来指定。

2、当文件没有标题行时

可以让pandas为其自动分配默认的列名。

也可以自己定义列名。

3、将某一列作为索引，比如使用message列做索引。通过index_col参数指定’message’。

4、要将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可。

5、文本中缺失值处理，缺失数据要么是没有(空字符串)，要么是用某个标记值表示的，默认情况下，pandas会用一组经常出现的标记值进行识别，如NA、NULL等。查找出结果以NAN显示。

6、逐块读取文本文件

如果只想读取几行(避免读取整个文件)，通过nrows进行制定即可。

7、对于不是使用固定分隔符分割的表格，可以使用正则表达式来作为read_table的分隔符。

(’\s+’是正则表达式中的字符)。

导入JSON数据

JSON数据是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标注形式之一。通过json.loads即可将JSON对象转换成Python对象。(import json)

对应的json.dumps则将Python对象转换成JSON格式。

导入EXCEL数据

直接使用read_excel(文件名路径)进行获取，与读取CSV格式的文件类似。

导入数据库数据

主要包含两种数据库文件，一种是SQL关系型数据库数据，另一种是非SQL型数据库数据即MongoDB数据库文件。

数据库文件是这几种里面比较难的，本人没有接触数据库文件，没有亲测，所以就不贴截图了。

数据整理

合并数据集

1、数据库风格的合并

数据库风格的合并与SQL数据库中的连接(join)原理一样。通过调用merge函数即可进行合并。

当没有指明用哪一列进行连接时，程序将自动按重叠列的列名进行连接，上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。

当两个对象的列名不同时，即两个对象没有共同列时，也可以分别进行指定。

Left_on是指左侧DataFrame中用作连接的列。

right_on是指右侧DataFrame中用作连接的列。

通过上面的语句得到的结果里面只有a和b对应的数据，c和d以及与之相关的数据被消去，这是因为默认情况下，merge做的是‘inner’连接，即sql中的内连接，取得两个对象的交集。也有其他方式连接：left、right、outer。用“how”来指明。

也可以根据多个键(列)进行合并，用on传入一个由列名组成的列表即可。

2、索引上的合并

(1)普通索引的合并

Left_index表示将左侧的行索引引用做其连接键

right_index表示将右侧的行索引引用做其连接键

上面两个用于DataFrame中的连接键位于其索引中，可以使用Left_index=True或right_index=True或两个同时使用来进行键的连接。

(2)层次化索引

与数据库中用on来根据多个键合并一样。

3、轴向连接(合并)

轴向连接，默认是在轴方向进行连接，也可以通过axis=1使其进行横向连接。

(1)对于numpy对象(数组)可以用numpy中的concatenation函数进行合并。

(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。

·4、合并重叠数据

对于索引全部或部分重叠的两个数据集，我们可以使用numpy的where函数来进行合并，where函数相当于if—else函数。

对于重复的数据显示出相同的数据，而对于不同的数据显示a列表的数据。同时也可以使用combine_first的方法进行合并。合并原则与where函数一致，遇到相同的数据显示相同数据，遇到不同的显示a列表数据。

重塑数据集

1、旋转数据

(1)重塑索引、分为stack(将数据的列旋转为行)和unstack(将数据的行旋转为列)。

(2)将‘长格式’旋转为‘宽格式’

2、转换数据

(1)数据替换，将某一值或多个值用新的值进行代替。(比较常用的是缺失值或异常值处理，缺失值一般都用NULL、NAN标记，可以用新的值代替缺失标记值)。方法是replace。

一对一替换：用np.nan替换-999

多对一替换：用np.nan替换-999和-1000.

多对多替换：用np.nan代替-999,0代替-1000.

也可以使用字典的形式来进行替换。

(2)离散化或面元划分，即根据某一条件将数据进行分组。

利用pd.cut()方式对一组年龄进行分组。

默认情况下，cut对分组条件的左边是开着的状态，右边是闭合状态。可以用left(right)=False来设置哪边是闭合的。

清理数据集

主要是指清理重复值，DataFrame中经常会出现重复行，清理数据主要是针对这些重复行进行清理。

利用drop_duplicates方法，可以返回一个移除了重复行的DataFrame.

默认情况下，此方法是对所有的列进行重复项清理操作，也可以用来指定特定的一列或多列进行。

默认情况下，上述方法保留的是第一个出现的值组合，传入take_last=true则保留最后一个。

End.

来源：36大数据

2017年最流行的15个数据科学Python库推广视频课程

幼萱

选自Medium

作者：Igor Bobriakov

机器之心编译

参与：朱朝阳、吴攀

Python 近几年在数据科学行业获得了人们的极大青睐，各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验，总结了数据科学家和工程师将在 2017 年最常使用的 Python 库。

核心库

1）NumPy

地址：http://numpy.org

当使用 Python 开始处理科学任务时，不可避免地需要求助 Python 的 SciPy Stack，它是专门为 Python 中的科学计算而设计的软件的集合（不要与 SciPy 混淆，它只是这个 stack 的一部分，以及围绕这个 stack 的社区）。这个 stack 相当庞大，其中有十几个库，所以我们想聚焦在核心包上（特别是最重要的）。

NumPy（代表 Numerical Python）是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化，可以提升性能，从而加快执行速度。

2）SciPy

地址：https://scipy.org

SciPy 是一个工程和科学软件库。除此以外，你还要了解 SciPy Stack 和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建立在 NumPy 的基础之上，因此它的数组大量使用了 NumPy。它通过其特定的子模块提供高效的数值例程操作，比如数值积分、优化和许多其他例程。SciPy 的所有子模块中的函数都有详细的文档，这也是一个优势。

3）Pandas

地址：http://pandas.pydata.org

Pandas 是一个 Python 包，旨在通过「标记（labeled）」和「关系（relational）」数据进行工作，简单直观。Pandas 是 data wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构：

Series：一维

Data Frames：二维

例如，当你要从这两种类型的结构中接收到一个新的「Dataframe」类型的数据时，你将通过传递一个「Series」来将一行添加到「Dataframe」中来接收这样的 Dataframe：

这里只是一小撮你可以用 Pandas 做的事情：

轻松删除并添加「Dataframe」中的列将数据结构转换为「Dataframe」对象处理丢失数据，表示为 NaN（Not a Number）功能强大的分组

可视化

4）Matplotlib

地址：https://matplotlib.org

Matplotlib 是另一个 SciPy Stack 核心软件包和另一个 Python 库，专为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件，使得 Python（在 NumPy、SciPy 和 Pandas 的帮助下）成为 MatLab 或 Mathematica 等科学工具的显著竞争对手。然而，这个库比较底层，这意味着你需要编写更多的代码才能达到高级的可视化效果，通常会比使用更高级工具付出更多努力，但总的来说值得一试。花一点力气，你就可以做到任何可视化：

线图散点图条形图和直方图饼状图茎图轮廓图场图频谱图

还有使用 Matplotlib 创建标签、网格、图例和许多其他格式化实体的功能。基本上，一切都是可定制的。

该库支持不同的平台，并可使用不同的 GUI 工具套件来描述所得到的可视化。许多不同的 IDE（如 IPython）都支持 Matplotlib 的功能。

还有一些额外的库可以使可视化变得更加容易。

5）Seaborn

地址：https://seaborn.pydata.org

Seaborn 主要关注统计模型的可视化；这种可视化包括热度图（heat map），可以总结数据但也描绘总体分布。Seaborn 基于 Matplotlib，并高度依赖于它。

6）Bokeh

地址：http://bokeh.pydata.org

Bokeh 也是一个很好的可视化库，其目的是交互式可视化。与之前的库相反，这个库独立于 Matplotlib。正如我们已经提到的那样，Bokeh 的重点是交互性，它通过现代浏览器以数据驱动文档（d3.js）的风格呈现。

7）Plotly

地址：https://plot.ly

最后谈谈 Plotly。它是一个基于 Web 的工具箱，用于构建可视化，将 API 呈现给某些编程语言（其中包括 Python）。在 plot.ly 网站上有一些强大的、开箱即用的图形。为了使用 Plotly，你需要设置你的 API 密钥。图形处理会放在服务器端，并在互联网上发布，但也有一种方法可以避免这么做。

机器学习

8）SciKit-Learn

地址：http://scikit-learn.org

Scikits 是 SciPy Stack 的附加软件包，专为特定功能（如图像处理和辅助机器学习）而设计。在后者方面，其中最突出的一个是 scikit-learn。该软件包构建于 SciPy 之上，并大量使用其数学操作。

scikit-learn 有一个简洁和一致的接口，可利用常见的机器学习算法，让我们可以简单地在生产中应用机器学习。该库结合了质量很好的代码和良好的文档，易于使用且有着非常高的性能，是使用 Python 进行机器学习的实际上的行业标准。

深度学习：Keras / TensorFlow / Theano

在深度学习方面，Python 中最突出和最方便的库之一是 Keras，它可以在 TensorFlow 或者 Theano 之上运行。让我们来看一下它们的一些细节。

9）Theano

地址：https://github/Theano

首先，让我们谈谈 Theano。Theano 是一个 Python 包，它定义了与 NumPy 类似的多维数组，以及数学运算和表达式。该库是经过编译的，使其在所有架构上能够高效运行。这个库最初由蒙特利尔大学机器学习组开发，主要是为了满足机器学习的需求。

要注意的是，Theano 与 NumPy 在底层的操作上紧密集成。该库还优化了 GPU 和 CPU 的使用，使数据密集型计算的性能更快。

效率和稳定性调整允许更精确的结果，即使是非常小的值也可以，例如，即使 x 很小，log(1+x) 也能得到很好的结果。

10）TensorFlow

地址：https://tensorflow.org

TensorFlow 来自 Google 的开发人员，它是用于数据流图计算的开源库，专门为机器学习设计。它是为满足 Google 对训练神经网络的高要求而设计的，是基于神经网络的机器学习系统 DistBelief 的继任者。然而，TensorFlow 并不是谷歌的科学专用的——它也足以支持许多真实世界的应用。

TensorFlow 的关键特征是其多层节点系统，可以在大型数据集上快速训练人工神经网络。这为 Google 的语音识别和图像识别提供了支持。

11）Keras

地址：https://keras.io

最后，我们来看看 Keras。它是一个使用高层接口构建神经网络的开源库，它是用 Python 编写的。它简单易懂，具有高级可扩展性。它使用 Theano 或 TensorFlow 作为后端，但 Microsoft 现在已将 CNTK（Microsoft 的认知工具包）集成为新的后端。

其简约的设计旨在通过建立紧凑型系统进行快速和容易的实验。

Keras 极其容易上手，而且可以进行快速的原型设计。它完全使用 Python 编写的，所以本质上很高层。它是高度模块化和可扩展的。尽管它简单易用且面向高层，但 Keras 也非常深度和强大，足以用于严肃的建模。

Keras 的一般思想是基于神经网络的层，然后围绕层构建一切。数据以张量的形式进行准备，第一层负责输入张量，最后一层用于输出。模型构建于两者之间。

自然语言处理

12）NLTK

地址：http://nltk.org

这套库的名称是 Natural Language Toolkit（自然语言工具包），顾名思义，它可用于符号和统计自然语言处理的常见任务。NLTK 旨在促进 NLP 及相关领域（语言学、认知科学和人工智能等）的教学和研究，目前正被重点关注。

NLTK 允许许多操作，例如文本标记、分类和 tokenizing、命名实体识别、建立语语料库树（揭示句子间和句子内的依存性）、词干提取、语义推理。所有的构建块都可以为不同的任务构建复杂的研究系统，例如情绪分析、自动摘要。

13）Gensim

地址：http://radimrehurek/gensim

这是一个用于 Python 的开源库，实现了用于向量空间建模和主题建模的工具。这个库为大文本进行了有效的设计，而不仅仅可以处理内存中内容。其通过广泛使用 NumPy 数据结构和 SciPy 操作而实现了效率。它既高效又易于使用。

Gensim 的目标是可以应用原始的和非结构化的数字文本。Gensim 实现了诸如分层 Dirichlet 进程（HDP）、潜在语义分析（LSA）和潜在 Dirichlet 分配（LDA）等算法，还有 tf-idf、随机投影、word2vec 和 document2vec，以便于检查一组文档（通常称为语料库）中文本的重复模式。所有这些算法是无监督的——不需要任何参数，唯一的输入是语料库。

数据挖掘与统计

14）Scrapy

地址：https://scrapy.org

Scrapy 是用于从网络检索结构化数据（如联系人信息或 URL）的爬虫程序（也称为 spider bots）的库。它是开源的，用 Python 编写。它最初是为 scraping 设计的，正如其名字所示的那样，但它现在已经发展成了一个完整的框架，可以从 API 收集数据，也可以用作通用的爬虫。

该库在接口设计上遵循著名的 Don』t Repeat Yourself 原则——提醒用户编写通用的可复用的代码，因此可以用来开发和扩展大型爬虫。

Scrapy 的架构围绕 Spider 类构建，该类包含了一套爬虫所遵循的指令。

15）Statsmodels

地址：http://statsmodels.org

statsmodels 是一个用于 Python 的库，正如你可能从名称中猜出的那样，其让用户能够通过使用各种统计模型估计方法以及执行统计断言和分析来进行数据探索。

许多有用的特征是描述性的，并可通过使用线性回归模型、广义线性模型、离散选择模型、稳健的线性模型、时序分析模型、各种估计器进行统计。

该库还提供了广泛的绘图函数，专门用于统计分析和调整使用大数据统计数据的良好性能。

结论

这个列表中的库被很多数据科学家和工程师认为是最顶级的，了解和熟悉它们是很有价值的。这里有这些库在 GitHub 上活动的详细统计：

当然，这并不是一份完全详尽的列表，还有其它很多值得关注的库、工具包和框架。比如说用于特定任务的 SciKit 包，其中包括用于图像的 SciKit-Image。如果你也有好想法，不妨与我们分享。