python 大数据

选自Medium

作者：Igor Bobriakov

机器之心编译

参与：朱朝阳、吴攀

Python 近几年在数据科学行业获得了人们的极大青睐，各种资源也层出不穷。数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验，总结了数据科学家和工程师将在 2017 年最常使用的 Python 库。

核心库

1）NumPy

地址：http://numpy.org

当使用 Python 开始处理科学任务时，不可避免地需要求助 Python 的 SciPy Stack，它是专门为 Python 中的科学计算而设计的软件的集合（不要与 SciPy 混淆，它只是这个 stack 的一部分，以及围绕这个 stack 的社区）。这个 stack 相当庞大，其中有十几个库，所以我们想聚焦在核心包上（特别是最重要的）。

NumPy（代表 Numerical Python）是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化，可以提升性能，从而加快执行速度。

2）SciPy

地址：https://scipy.org

SciPy 是一个工程和科学软件库。除此以外，你还要了解 SciPy Stack 和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建立在 NumPy 的基础之上，因此它的数组大量使用了 NumPy。它通过其特定的子模块提供高效的数值例程操作，比如数值积分、优化和许多其他例程。SciPy 的所有子模块中的函数都有详细的文档，这也是一个优势。

3）Pandas

地址：http://pandas.pydata.org

Pandas 是一个 Python 包，旨在通过「标记（labeled）」和「关系（relational）」数据进行工作，简单直观。Pandas 是 data wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构：

Series：一维

Data Frames：二维

例如，当你要从这两种类型的结构中接收到一个新的「Dataframe」类型的数据时，你将通过传递一个「Series」来将一行添加到「Dataframe」中来接收这样的 Dataframe：

这里只是一小撮你可以用 Pandas 做的事情：

轻松删除并添加「Dataframe」中的列将数据结构转换为「Dataframe」对象处理丢失数据，表示为 NaN（Not a Number）功能强大的分组

可视化

4）Matplotlib

地址：https://matplotlib.org

Matplotlib 是另一个 SciPy Stack 核心软件包和另一个 Python 库，专为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件，使得 Python（在 NumPy、SciPy 和 Pandas 的帮助下）成为 MatLab 或 Mathematica 等科学工具的显著竞争对手。然而，这个库比较底层，这意味着你需要编写更多的代码才能达到高级的可视化效果，通常会比使用更高级工具付出更多努力，但总的来说值得一试。花一点力气，你就可以做到任何可视化：

线图散点图条形图和直方图饼状图茎图轮廓图场图频谱图

还有使用 Matplotlib 创建标签、网格、图例和许多其他格式化实体的功能。基本上，一切都是可定制的。

该库支持不同的平台，并可使用不同的 GUI 工具套件来描述所得到的可视化。许多不同的 IDE（如 IPython）都支持 Matplotlib 的功能。

还有一些额外的库可以使可视化变得更加容易。

5）Seaborn

地址：https://seaborn.pydata.org

Seaborn 主要关注统计模型的可视化；这种可视化包括热度图（heat map），可以总结数据但也描绘总体分布。Seaborn 基于 Matplotlib，并高度依赖于它。

6）Bokeh

地址：http://bokeh.pydata.org

Bokeh 也是一个很好的可视化库，其目的是交互式可视化。与之前的库相反，这个库独立于 Matplotlib。正如我们已经提到的那样，Bokeh 的重点是交互性，它通过现代浏览器以数据驱动文档（d3.js）的风格呈现。

7）Plotly

地址：https://plot.ly

最后谈谈 Plotly。它是一个基于 Web 的工具箱，用于构建可视化，将 API 呈现给某些编程语言（其中包括 Python）。在 plot.ly 网站上有一些强大的、开箱即用的图形。为了使用 Plotly，你需要设置你的 API 密钥。图形处理会放在服务器端，并在互联网上发布，但也有一种方法可以避免这么做。

机器学习

8）SciKit-Learn

地址：http://scikit-learn.org

Scikits 是 SciPy Stack 的附加软件包，专为特定功能（如图像处理和辅助机器学习）而设计。在后者方面，其中最突出的一个是 scikit-learn。该软件包构建于 SciPy 之上，并大量使用其数学操作。

scikit-learn 有一个简洁和一致的接口，可利用常见的机器学习算法，让我们可以简单地在生产中应用机器学习。该库结合了质量很好的代码和良好的文档，易于使用且有着非常高的性能，是使用 Python 进行机器学习的实际上的行业标准。

深度学习：Keras / TensorFlow / Theano

在深度学习方面，Python 中最突出和最方便的库之一是 Keras，它可以在 TensorFlow 或者 Theano 之上运行。让我们来看一下它们的一些细节。

9）Theano

地址：https://github/Theano

首先，让我们谈谈 Theano。Theano 是一个 Python 包，它定义了与 NumPy 类似的多维数组，以及数学运算和表达式。该库是经过编译的，使其在所有架构上能够高效运行。这个库最初由蒙特利尔大学机器学习组开发，主要是为了满足机器学习的需求。

要注意的是，Theano 与 NumPy 在底层的操作上紧密集成。该库还优化了 GPU 和 CPU 的使用，使数据密集型计算的性能更快。

效率和稳定性调整允许更精确的结果，即使是非常小的值也可以，例如，即使 x 很小，log(1+x) 也能得到很好的结果。

10）TensorFlow

地址：https://tensorflow.org

TensorFlow 来自 Google 的开发人员，它是用于数据流图计算的开源库，专门为机器学习设计。它是为满足 Google 对训练神经网络的高要求而设计的，是基于神经网络的机器学习系统 DistBelief 的继任者。然而，TensorFlow 并不是谷歌的科学专用的——它也足以支持许多真实世界的应用。

TensorFlow 的关键特征是其多层节点系统，可以在大型数据集上快速训练人工神经网络。这为 Google 的语音识别和图像识别提供了支持。

11）Keras

地址：https://keras.io

最后，我们来看看 Keras。它是一个使用高层接口构建神经网络的开源库，它是用 Python 编写的。它简单易懂，具有高级可扩展性。它使用 Theano 或 TensorFlow 作为后端，但 Microsoft 现在已将 CNTK（Microsoft 的认知工具包）集成为新的后端。

其简约的设计旨在通过建立紧凑型系统进行快速和容易的实验。

Keras 极其容易上手，而且可以进行快速的原型设计。它完全使用 Python 编写的，所以本质上很高层。它是高度模块化和可扩展的。尽管它简单易用且面向高层，但 Keras 也非常深度和强大，足以用于严肃的建模。

Keras 的一般思想是基于神经网络的层，然后围绕层构建一切。数据以张量的形式进行准备，第一层负责输入张量，最后一层用于输出。模型构建于两者之间。

自然语言处理

12）NLTK

地址：http://nltk.org

这套库的名称是 Natural Language Toolkit（自然语言工具包），顾名思义，它可用于符号和统计自然语言处理的常见任务。NLTK 旨在促进 NLP 及相关领域（语言学、认知科学和人工智能等）的教学和研究，目前正被重点关注。

NLTK 允许许多操作，例如文本标记、分类和 tokenizing、命名实体识别、建立语语料库树（揭示句子间和句子内的依存性）、词干提取、语义推理。所有的构建块都可以为不同的任务构建复杂的研究系统，例如情绪分析、自动摘要。

13）Gensim

地址：http://radimrehurek/gensim

这是一个用于 Python 的开源库，实现了用于向量空间建模和主题建模的工具。这个库为大文本进行了有效的设计，而不仅仅可以处理内存中内容。其通过广泛使用 NumPy 数据结构和 SciPy 操作而实现了效率。它既高效又易于使用。

Gensim 的目标是可以应用原始的和非结构化的数字文本。Gensim 实现了诸如分层 Dirichlet 进程（HDP）、潜在语义分析（LSA）和潜在 Dirichlet 分配（LDA）等算法，还有 tf-idf、随机投影、word2vec 和 document2vec，以便于检查一组文档（通常称为语料库）中文本的重复模式。所有这些算法是无监督的——不需要任何参数，唯一的输入是语料库。

数据挖掘与统计

14）Scrapy

地址：https://scrapy.org

Scrapy 是用于从网络检索结构化数据（如联系人信息或 URL）的爬虫程序（也称为 spider bots）的库。它是开源的，用 Python 编写。它最初是为 scraping 设计的，正如其名字所示的那样，但它现在已经发展成了一个完整的框架，可以从 API 收集数据，也可以用作通用的爬虫。

该库在接口设计上遵循著名的 Don』t Repeat Yourself 原则——提醒用户编写通用的可复用的代码，因此可以用来开发和扩展大型爬虫。

Scrapy 的架构围绕 Spider 类构建，该类包含了一套爬虫所遵循的指令。

15）Statsmodels

地址：http://statsmodels.org

statsmodels 是一个用于 Python 的库，正如你可能从名称中猜出的那样，其让用户能够通过使用各种统计模型估计方法以及执行统计断言和分析来进行数据探索。

许多有用的特征是描述性的，并可通过使用线性回归模型、广义线性模型、离散选择模型、稳健的线性模型、时序分析模型、各种估计器进行统计。

该库还提供了广泛的绘图函数，专门用于统计分析和调整使用大数据统计数据的良好性能。

结论

这个列表中的库被很多数据科学家和工程师认为是最顶级的，了解和熟悉它们是很有价值的。这里有这些库在 GitHub 上活动的详细统计：

当然，这并不是一份完全详尽的列表，还有其它很多值得关注的库、工具包和框架。比如说用于特定任务的 SciKit 包，其中包括用于图像的 SciKit-Image。如果你也有好想法，不妨与我们分享。

java大数据与python大数据如何选择？公司视频课程

杉林

大数据是目前互联网流行的技术语言，处理大数据的编程语言比较有优势的也很多，比如java、python、go、R语言、Hadoop等等，按道理来说每种编程语言都可以处理大数据，只是处理的规模不一样而且，但是现在比较受欢迎的数据处理编程语言是java与python。

说到java编程，java工程师一直都是同行的高薪岗位，而python是从最初的2016人工智能开始爆发，从而在短短两年之内能赶超java。随着python的发展，最大赢家无疑是python。未来大数据是对于一家企业有多重要，通过对数据的分析，可以了解市场需求、发展方向，对公司未来的定位，把数量庞大、不规整的数据信息进行梳理，总结出可供查询的特征。

自从python热度赶超java之后，python在大数据方面的优势逐渐被人们认识，但是java作为20多年成熟的编程语言，在大数据处理方面已存在已久，依然是程序员开发比较喜爱的编程。

java在大数据处理方面还是比较倾向软件应用与网站数据，包括游戏数据处理，特别是金融服务数据处理，一直都是java的强项；python有着众多免费科学算法库，优势在人工智能大数据处理，当然也有使用Python在银行的基础架构中处理财务数据。可以说java与python在大数据处理各有优势。

Python用户画像准确性评测——撩开Python大数据分析的面纱企业视频课程

钮鲂

Part1 用户画像评测回顾与总结

1、为什么做用户画像评测？

将时钟拨回到2018年初，大家迫切想打破以往资讯推荐无章可循的局面，而今日的推荐算法也似乎演成了神话，用户意图这个词在WiFi管家团队被一再提及，继而AI推荐布局被推到了前台。

用户意图识别的优劣取决于对用户实时需求的了解程度，此事古来难。AI团队率先做的尝试是在一些特定场景下猜测用户意图，进行意图相关推荐，如住酒店用户，地铁上用户等，这是算法可以做的事情，那测试在这个过程中可以做些什么呢？算法验证相对滞后，有什么可以先行的呢？用户意图识别首要识别对用户场景，如果场景错了，后面的工作就无法关联起来。如，住酒店，是个动态场景，尝试进一步拆分成可衡量的静态场景，如，什么人（性别，工作，偏好等）？什么时间（出行时间）住什么酒店（酒店位置，级别等）？这些我们是有后套标签系统的，经过了解这些标签系统已经有些尝试应用，但是标签本身准确性却无从评估，因此，用户标签准确性评测就在懵懂中筹备开始了。

2、用户画像准确性怎么做？

感谢先行者浏览器团队，提供了最初的评测思路，他们的考虑很周全。而我在具体的实践过程中，根据业务的实际情况制定了最终的评测方案（下图），从第一轮标签提取开始，就暴露出各种细节问题，好在都一一解决了。

简单列下可供后来者借鉴的几个注意项：视频资料学习分享企（Q）鹅群 519970686

（1）问卷设计的原则：每一个问卷题目与后台标签对应关系提前考虑好，有的一对一有的一对多。问卷的每一个选项要与对应标签的取值对应好关系，这会大大简化后期脚本处理工作。

（2）问卷下发回收：最初下发了label数量>9的用户，用>8的用户补了1k，结果实际回收率不到50%，于是追加了>8的全量用户，总共4k多个，实际回收依然不足1k，而此间耗费了将近2周的时间。

（3）关键字选取：整个过程关键字是imei，但下发问卷时，众测平台关键字却是qq，这就在数据处理上又需要多一层转换处理了。

（4）标签系统提数：标签系统的数据是周期性更新，更新频率高，建议问卷回收后进行二次提数，尽可能减少时间差造成的数据不一致。

（5）脚本处理：因为涉及的数据量比较大，涉及到比较多文件的处理，强烈建议装两个库，jupyter notebook（交互式笔记本，可及时编写和调试代码，很好用），还有一个大数据处理的pandas，对于excel的操作实在便利太多。

（6）经纬度处理：经纬度数据没法下发问卷，因此问卷题目设计成问具体地址，大楼，小区等。数据转换接入了地图的逆地址解析接口，然后再对比具体位置信息，这里的对比也是纠结了1天时间，最终精确到2个中文字符的维度。

3、用户画像准确性怎么分析？

至问卷回收完毕，实际工作才完成一半，接下来就是远超预估的复杂繁琐的数据处理及分析过程了。我想用下面这张图来描述整个分析过程。

整个分析包括四部分：

（1）黄框：活跃用户数据处理。

1.为什么要做？

活跃用户主要下发问卷前用，这里为什么还需要做分析呢？这里的分析工作是可以省掉的，方案最后会说，先来看这里的目标是什么。因为问卷没有收集imei数据，而lable标签是根据imei进行统计的，因此这里需要多做一层merge处理，以使问卷可以补足缺失的imei信息。

2.是否可优化？是否存在风险？

细心的读者可能已经发现，这里存在一个隐患！可能导致样本数量减少，因为用户的qq和imei其实不是一一对应的，可能存在一对一或一对多情况，如果下发imei用户更换qq完成了问卷，这里的merge就会导致部分样本数据反查不到imei数据从而丢失样本。庆幸的是本次测试丢失样本数不到10个，否则我可能要从头再来了。

3.如何规避？

在用户问卷设计中让用户主动反馈imei信息。前期设计没有考虑清楚key值的设计造成了这个隐患，同时还增加了分析的工作量。

（2）蓝框：系统lable数据处理。

1.为什么要做？

细心的读者会发现，系统lable在最初已经提取了，用于做单个用户lable数量的过滤分析，这里还可以直接用原来的数据么？

答案是非常不建议！因为后台数据会周期性更新，最初提取的数据已经不能表征问卷用户当前的上报数据了。所以lable数据重新提取这一步不能省。

（3）红框：问卷数据处理。

1.为什么要做？

问卷设计的原则是便于用户理解选择，与代码数据上报实现差异很大，所以这里的数据解析是必须的，也是结果分析最核心的部分。

2.做了什么？

这里我花费了大量的时间写脚本、调试，这里大量采用pandas，感谢它大大简化了我的代码量。为了便于大家熟悉了解pandas的用法，我这里会截取部分代码来看。

Action1：drop冗余数据

经验：感谢pandas，定义droplist，通过dataframe的drop方法，两行代码：

Action2：按lableid重新定义列名

Action3：常规各列数据处理（举个栗子）

（4）绿框：diff结果分析

1.做了什么？

在脚本处理上经纬度会更复杂，但思路大同小异，便于解说，这里以常规数据举例。

关键点1：利用dataframe将一行取出来存成array：

关键点2：定义diffresult文件列名：

关键点3：遍历每一列数据，过滤掉不存在lable：

关键点4：循环遍历比较系统数据和用户数据：

在本part最后，再总结下不足，主要有如下三方面：视频资料学习分享企（Q）鹅群 519970686

（1）样本覆盖全面性不够：覆盖具有局限性，不能代表所有的用户；

（2）无法全自动化监控：问卷设计及提数暂时无法自动化，也就仅限于一次摸底；

（3）样本数量不足：单个用户的标签不全，导致标签整体数量偏少。

Part2 pandas使用总结

1、jupyter环境准备（web交互式笔记本，python快速编码运行调试神器）。

（1）pip install jupyter

解决：下载ipython-5.7.0-py2-none-any.whl，notebook-5.5.0-py2.py3-none-any.whl放到python的Scripts目录下，pip install xxx.whl。

（2）再次pipinstall jupyter

（3）使用jupyter notebook

new-选择对应类型可打开交互式笔记本界面。

2、Pandas擅长做什么？

（1）快速读写csv、excel、sql，以原表数据结构存储，便捷操作处理行、列数据；

（2）数据文档行列索引快速一键重定义；

（3）强大的函数支持大数据文件的快速统计分析；

（4）可以对整个数据结构进行操作，不必一行行循环读取……

如果您有上述需求，不妨继续往下看。

3、pandas安装

（1）安装：一般用pip，安装第三方库前不妨先更新下pip。

python -m pip install -U pip

pip install pandas

（2）导入

import pandas as pd

（3）帮助

查看python第三方库帮助，利用python自带pydoc文档生成工具

Step1：配置pydoc服务

Cmd下python –m pydoc –p 1234

Step2：浏览器打开http://localhost:1234/

4、Pandas数据结构

series：带标签的一维数组，标签可以重定义。

dataframe：二维表格性数组，导入读取的csv、excel就是这种结构，可以直接对行列做操作。

举个例子：

读取表格——得到类型是DataFrame的二维数组question_data：

其中的一列df[‘num’]就是一维数组series，像个竖起来的list。

5、pandas的数据处理

（1）数据检索处理。

（a）查询首尾；

（b）查询某行，列；

注意：iloc、loc、ix（尽量用ix，避免搞不清楚index和行号）。

loc：主要通过index索引行数据。df.loc[1:]可获取多行，df.loc[[1],[‘name’,’score’]]也可获取某行某列iloc：主要通过行号索引行数据。与loc的区别，index可以定义，行号固定不变，index没有重新定义的话，index与行号相同。

ix：结合loc和iloc的混合索引。df.ix[1]，df.ix[‘1’]。

（c）按条件查询指定行和列；

（d）多条件查询；

（2）数据增删改处理。

（a）增删行；

（b）增删列；

（c）行列数据相连：参看（3）（c）。

（3）多表数据处理；

（a）merge；

eg:合并两张表：

stu_score1 = pd.merge(df_student, df_score, on='Name')——内连接，交集。

stu_score1

stu_score2 =pd.merge(df_student, df_score, on='Name',how='left')——左连接，以左边为准。

stu_score2

how参数：inner(默认)，left，right，outer，分别为内、左、右、外连接，inner为交集，outer为并集。

（b）join——how原则同merge，默认how=‘left’

主用于索引拼接列，两张表不同列索引合并成一个DataFram，比较少用。

（c）concat——axis=0，按行合并，axis=1，按列合并

stu_score2 = pd.concat([df_student,df_score], axis=0)。

stu_score2

（4）数据统计处理；

（a）df.describe()

根据某列计算一系列统计值，df[‘xxx’].describe()，返回如下数据表：

（b）df.set_index(‘列a’)与df.reset_index(‘列a’)

需要对某列数据处理时可以通过set_index()设为索引，再用df.sort_index()进行排序，然后再通过reset_index()设回数据。

（5）文件读写处理；视频资料学习分享企（Q）鹅群 519970686

以csv为例

df = pd.read_csv("D:/pandas_test.csv", encoding='utf-8')

df.to_csv(r"D:\test.csv", index=False,sep=',', encoding='utf_8_sig')

写文件时设置encoding='utf_8_sig'可解决中文乱码问题。

（6）数据集批量处理。

（a）apply和applymap

df[‘’].apply(函数)对某列数据应用函数，df.applymap(函数)对整个表应用函数。

（b）groupby

根据某列或某几列分组，本身没有任何计算，返回，用于做分组后的数据统计，如：

group_results = total_result.groupby(['lable', 'diff_value']).size()返回每个分组的个数，常用的有max()，min()，mean()

如上是本次脚本分析涉及到的功能，此外，pandas还有作图功能，这次暂未用到，就不展开说啦。

用Python生成器处理大数据流量视频课程

炎帝

不是每个人都拥有一台超级计算机，那么如何利用一台普通计算机处理大数据？当数据大小超过你计算机的内存，这时不能一次性把大数据写入内存里，否则会产生内存溢出。大多数机器学习算法都是基于内存，即原始数据以及过程数据都保存在内存，这给普通计算机处理大数据造成困难。通过本文的学习，你将学会如何利用普通计算机处理大数据。本文主要讨论如何用Python生成器处理大数据。

普通计算机处理大数据思想是：将大数据分为几批，依次处理每一批数据，最后综合各个批次的处理结果。有关Python生成器的概念请参考我的文章《如何理解Python中的生成器？》。生成器的特点是依次不重复地生成数据，符合大数据处理思想，因此利用Python生成器处理大数据是一种很自然的想法。

利用生成器，在普通计算机里也可以进行深度学习，比如要训练一个深度神经网络，可以采取批次训练方法，对每一个批次，利用生成器从硬盘里提取一个批次的数据，并不需要把所有数据加载到内存里，对于训练过程以及结果，相应地也可以采取批次方法将结果保存到硬盘里，唯一要做的是重写代码。

本文提供一个简单案例，统计自然常数e的41万位小数点的数字0-9出现的次数，展示Python生成器，在不需要将数据写入内存的情况下，如何批次处理大数据。处理思想就是把41万位小数点依次划分为41批次，每个批次的长度10000位，统计每个批次的数字0-9出现的次数，然后汇总统计所有批次的次数。（读者可以尝试用1000万位小数点在一个内存为1G的普通计算机里处理，比较一下普通方法（参考文章《机器学习实战：用Python分析自然常数e的小数点数字出现规律》）和本文方法的效果）

1.数据

原始数据共4100行数据，每行有100位小数点，共41万位小数点，其中第1列数据为标注，需要去掉。数据文件名为e.txt，保存在Python项目目录下。

原始数据

2.构造生成器

构造一个生成器gen，用于每次从原始文件e.txt中读取一行数据。目前该生成器并没有真正读取文件，是一个机器，没启动它之前（使用内置方法next()启动它），在Python中只是一个符号，占用内存微不足道。另外优点是，该生成器并没有打开文件对象。

构造生成器gen

3.定义批处理函数

利用生成器gen一次性从原始文件读取bat_number行数据（一个批次），然后将bat_number行数据转化为列表e，接着是数据预处理，比如去掉符号“\n”和空格，最后将处理后的数据转化为Pandas的序列数据结构。即通过批处理函数batch()，能一批次从原始文件读取bat_number行数据，并最终转化为Pandas的序列数据。值得注意的是，由于生成器的特点，运行批处理函数batch()两次，就得到两批次的数据，而且第2批次的数据是接着第1批次的数据依次产生，因此不重复。

批处理函数

4.定义统计函数

利用批处理函数batch()获取一个批次的数据，并统计数字的出现次数，然后遍历所有批次，得到数字出现次数的列表。

统计函数

5.运行结果及可视化展示

作为例子，运行主程序，汇总统计数字“9”的出现次数，并绘制每个批次出现次数的曲线图。代码如下：

主程序代码

可视化：

各个批次的次数曲线图

运行结果如下：

运行结果

6.总结

本文展示了如何利用Python生成器处理大数据的全过程。所使用的方法是通用的，可以应用于机器学习、深度学习等领域。即使你没有超级计算机，也没有分布式大数据处理系统，只要你选择合适的算法、合适的数据结构和合适的工具（Python生成器），你只有一台普通计算机也可以处理大数据。

（作者：百家号/AiMath）

Python适合做大数据挖掘和分析吗？公司视频课程

酆熠彤

Python 诞生之初就被誉为最容易上手的编程语言。进入火热的 AI 人工智能时代后，它也逐渐取代 Java，成为编程界的头牌语言。更有码农圈金句：「学完 Python，可以上天」佐证其火热程度！之前有人说过R语言和JAVA语言是最适合做数据分析的计算机编程语言之一。其实，小编想说Python也是最受欢迎的大数据分析编程语言，而且Python大数据开发可以做的更好。

Python大数据开发

为什么说Python大数据开发可以做的更好，下面就来为大家分析一下。

首先，Python语言它很容易上手。它融合了R语言快速成熟的数据挖掘能力之外，还有更实际的产品构建能力。Python语言也正在迅速地获得主流人士的拥护。只要你用过Python语言，你会发现它是更直观，并且相比R语言更容易学习。它在计算机语言中的整体趋势也是上升的很快。使其在统计分析上的能力超越了之前的R语言。

Python是行业人员正在转换发展的方向。过去两年里，很明显存在由R 向Python 转化的趋势”在数据处理中，通常存在规模和技巧的权衡，Python语言作为一个折中出现了。

从对数据分析工作的处理上看，IPython notebook 和NumPy 可以用于轻量工作的处理，而 Python 则是中级规模数据处理的有力工具。丰富的数据交流社区也是 Python 的优势，它提供了大量的Python 工具包和特性。

据悉美国银行也是利用Python语言开发了新的产品以及基础设施接口。而且也用于处理金融数据。

在图灵世界里，Python被赋予的形象是蟒蛇，而蟒蛇不仅仅是灵活的象征，更有一招制敌的大杀器。在现阶段的数据体系内，只要你有所了解的话，想必你会有个感觉：怎么处处都有Python的踪影！其实每一种的计算机编程语言，似乎都有自己成名或适用的领域。比如Java更多用于系统开发，Matlab则用于数值计算及矩阵运算，而Python的自身基因，让其更符合数据领域的策略分析。

因为Python 在数据领域的独特地位，随着互联网的发展其越来越宽广灵活，所以越来越多的人蜂拥而至去学习Python语言。所有说，Python开发更适合做数据分析是没问题的。

java大数据与python大数据如何选择？推广视频课程

安静

大数据是目前互联网流行的技术语言，处理大数据的编程语言比较有优势的也很多，比如java、python、go、R语言、Hadoop等等，按道理来说每种编程语言都可以处理大数据，只是处理的规模不一样而且，但是现在比较受欢迎的数据处理编程语言是java与python。

说到java编程，java工程师一直都是同行的高薪岗位，而python是从最初的2016人工智能开始爆发，从而在短短两年之内能赶超java。随着python的发展，最大赢家无疑是python。未来大数据是对于一家企业有多重要，通过对数据的分析，可以了解市场需求、发展方向，对公司未来的定位，把数量庞大、不规整的数据信息进行梳理，总结出可供查询的特征。

自从python热度赶超java之后，python在大数据方面的优势逐渐被人们认识，但是java作为20多年成熟的编程语言，在大数据处理方面已存在已久，依然是程序员开发比较喜爱的编程。

java在大数据处理方面还是比较倾向软件应用与网站数据，包括游戏数据处理，特别是金融服务数据处理，一直都是java的强项；python有着众多免费科学算法库，优势在人工智能大数据处理，当然也有使用Python在银行的基础架构中处理财务数据。可以说java与python在大数据处理各有优势。

Python用户画像准确性评测——撩开Python大数据分析的面纱行业视频课程

薛晓灵

Part1 用户画像评测回顾与总结

1、为什么做用户画像评测？

将时钟拨回到2018年初，大家迫切想打破以往资讯推荐无章可循的局面，而今日的推荐算法也似乎演成了神话，用户意图这个词在WiFi管家团队被一再提及，继而AI推荐布局被推到了前台。

用户意图识别的优劣取决于对用户实时需求的了解程度，此事古来难。AI团队率先做的尝试是在一些特定场景下猜测用户意图，进行意图相关推荐，如住酒店用户，地铁上用户等，这是算法可以做的事情，那测试在这个过程中可以做些什么呢？算法验证相对滞后，有什么可以先行的呢？用户意图识别首要识别对用户场景，如果场景错了，后面的工作就无法关联起来。如，住酒店，是个动态场景，尝试进一步拆分成可衡量的静态场景，如，什么人（性别，工作，偏好等）？什么时间（出行时间）住什么酒店（酒店位置，级别等）？这些我们是有后套标签系统的，经过了解这些标签系统已经有些尝试应用，但是标签本身准确性却无从评估，因此，用户标签准确性评测就在懵懂中筹备开始了。

2、用户画像准确性怎么做？

感谢先行者浏览器团队，提供了最初的评测思路，他们的考虑很周全。而我在具体的实践过程中，根据业务的实际情况制定了最终的评测方案（下图），从第一轮标签提取开始，就暴露出各种细节问题，好在都一一解决了。

简单列下可供后来者借鉴的几个注意项：视频资料学习分享企（Q）鹅群 519970686

（1）问卷设计的原则：每一个问卷题目与后台标签对应关系提前考虑好，有的一对一有的一对多。问卷的每一个选项要与对应标签的取值对应好关系，这会大大简化后期脚本处理工作。

（2）问卷下发回收：最初下发了label数量>9的用户，用>8的用户补了1k，结果实际回收率不到50%，于是追加了>8的全量用户，总共4k多个，实际回收依然不足1k，而此间耗费了将近2周的时间。

（3）关键字选取：整个过程关键字是imei，但下发问卷时，众测平台关键字却是qq，这就在数据处理上又需要多一层转换处理了。

（4）标签系统提数：标签系统的数据是周期性更新，更新频率高，建议问卷回收后进行二次提数，尽可能减少时间差造成的数据不一致。

（5）脚本处理：因为涉及的数据量比较大，涉及到比较多文件的处理，强烈建议装两个库，jupyter notebook（交互式笔记本，可及时编写和调试代码，很好用），还有一个大数据处理的pandas，对于excel的操作实在便利太多。

（6）经纬度处理：经纬度数据没法下发问卷，因此问卷题目设计成问具体地址，大楼，小区等。数据转换接入了地图的逆地址解析接口，然后再对比具体位置信息，这里的对比也是纠结了1天时间，最终精确到2个中文字符的维度。

3、用户画像准确性怎么分析？

至问卷回收完毕，实际工作才完成一半，接下来就是远超预估的复杂繁琐的数据处理及分析过程了。我想用下面这张图来描述整个分析过程。

整个分析包括四部分：

（1）黄框：活跃用户数据处理。

1.为什么要做？

活跃用户主要下发问卷前用，这里为什么还需要做分析呢？这里的分析工作是可以省掉的，方案最后会说，先来看这里的目标是什么。因为问卷没有收集imei数据，而lable标签是根据imei进行统计的，因此这里需要多做一层merge处理，以使问卷可以补足缺失的imei信息。

2.是否可优化？是否存在风险？

细心的读者可能已经发现，这里存在一个隐患！可能导致样本数量减少，因为用户的qq和imei其实不是一一对应的，可能存在一对一或一对多情况，如果下发imei用户更换qq完成了问卷，这里的merge就会导致部分样本数据反查不到imei数据从而丢失样本。庆幸的是本次测试丢失样本数不到10个，否则我可能要从头再来了。

3.如何规避？

在用户问卷设计中让用户主动反馈imei信息。前期设计没有考虑清楚key值的设计造成了这个隐患，同时还增加了分析的工作量。

（2）蓝框：系统lable数据处理。

1.为什么要做？

细心的读者会发现，系统lable在最初已经提取了，用于做单个用户lable数量的过滤分析，这里还可以直接用原来的数据么？

答案是非常不建议！因为后台数据会周期性更新，最初提取的数据已经不能表征问卷用户当前的上报数据了。所以lable数据重新提取这一步不能省。

（3）红框：问卷数据处理。

1.为什么要做？

问卷设计的原则是便于用户理解选择，与代码数据上报实现差异很大，所以这里的数据解析是必须的，也是结果分析最核心的部分。

2.做了什么？

这里我花费了大量的时间写脚本、调试，这里大量采用pandas，感谢它大大简化了我的代码量。为了便于大家熟悉了解pandas的用法，我这里会截取部分代码来看。

Action1：drop冗余数据

经验：感谢pandas，定义droplist，通过dataframe的drop方法，两行代码：

Action2：按lableid重新定义列名

Action3：常规各列数据处理（举个栗子）

（4）绿框：diff结果分析

1.做了什么？

在脚本处理上经纬度会更复杂，但思路大同小异，便于解说，这里以常规数据举例。

关键点1：利用dataframe将一行取出来存成array：

关键点2：定义diffresult文件列名：

关键点3：遍历每一列数据，过滤掉不存在lable：

关键点4：循环遍历比较系统数据和用户数据：

在本part最后，再总结下不足，主要有如下三方面：视频资料学习分享企（Q）鹅群 519970686

（1）样本覆盖全面性不够：覆盖具有局限性，不能代表所有的用户；

（2）无法全自动化监控：问卷设计及提数暂时无法自动化，也就仅限于一次摸底；

（3）样本数量不足：单个用户的标签不全，导致标签整体数量偏少。

Part2 pandas使用总结

1、jupyter环境准备（web交互式笔记本，python快速编码运行调试神器）。

（1）pip install jupyter

解决：下载ipython-5.7.0-py2-none-any.whl，notebook-5.5.0-py2.py3-none-any.whl放到python的Scripts目录下，pip install xxx.whl。

（2）再次pipinstall jupyter

（3）使用jupyter notebook

new-选择对应类型可打开交互式笔记本界面。

2、Pandas擅长做什么？

（1）快速读写csv、excel、sql，以原表数据结构存储，便捷操作处理行、列数据；

（2）数据文档行列索引快速一键重定义；

（3）强大的函数支持大数据文件的快速统计分析；

（4）可以对整个数据结构进行操作，不必一行行循环读取……

如果您有上述需求，不妨继续往下看。

3、pandas安装

（1）安装：一般用pip，安装第三方库前不妨先更新下pip。

python -m pip install -U pip

pip install pandas

（2）导入

import pandas as pd

（3）帮助

查看python第三方库帮助，利用python自带pydoc文档生成工具

Step1：配置pydoc服务

Cmd下python –m pydoc –p 1234

Step2：浏览器打开http://localhost:1234/

4、Pandas数据结构

series：带标签的一维数组，标签可以重定义。

dataframe：二维表格性数组，导入读取的csv、excel就是这种结构，可以直接对行列做操作。

举个例子：

读取表格——得到类型是DataFrame的二维数组question_data：

其中的一列df[‘num’]就是一维数组series，像个竖起来的list。

5、pandas的数据处理

（1）数据检索处理。

（a）查询首尾；

（b）查询某行，列；

注意：iloc、loc、ix（尽量用ix，避免搞不清楚index和行号）。

loc：主要通过index索引行数据。df.loc[1:]可获取多行，df.loc[[1],[‘name’,’score’]]也可获取某行某列iloc：主要通过行号索引行数据。与loc的区别，index可以定义，行号固定不变，index没有重新定义的话，index与行号相同。

ix：结合loc和iloc的混合索引。df.ix[1]，df.ix[‘1’]。

（c）按条件查询指定行和列；

（d）多条件查询；

（2）数据增删改处理。

（a）增删行；

（b）增删列；

（c）行列数据相连：参看（3）（c）。

（3）多表数据处理；

（a）merge；

eg:合并两张表：

stu_score1 = pd.merge(df_student, df_score, on='Name')——内连接，交集。

stu_score1

stu_score2 =pd.merge(df_student, df_score, on='Name',how='left')——左连接，以左边为准。

stu_score2

how参数：inner(默认)，left，right，outer，分别为内、左、右、外连接，inner为交集，outer为并集。

（b）join——how原则同merge，默认how=‘left’

主用于索引拼接列，两张表不同列索引合并成一个DataFram，比较少用。

（c）concat——axis=0，按行合并，axis=1，按列合并

stu_score2 = pd.concat([df_student,df_score], axis=0)。

stu_score2

（4）数据统计处理；

（a）df.describe()

根据某列计算一系列统计值，df[‘xxx’].describe()，返回如下数据表：

（b）df.set_index(‘列a’)与df.reset_index(‘列a’)

需要对某列数据处理时可以通过set_index()设为索引，再用df.sort_index()进行排序，然后再通过reset_index()设回数据。

（5）文件读写处理；视频资料学习分享企（Q）鹅群 519970686

以csv为例

df = pd.read_csv("D:/pandas_test.csv", encoding='utf-8')

df.to_csv(r"D:\test.csv", index=False,sep=',', encoding='utf_8_sig')

写文件时设置encoding='utf_8_sig'可解决中文乱码问题。

（6）数据集批量处理。

（a）apply和applymap

df[‘’].apply(函数)对某列数据应用函数，df.applymap(函数)对整个表应用函数。

（b）groupby

根据某列或某几列分组，本身没有任何计算，返回，用于做分组后的数据统计，如：

group_results = total_result.groupby(['lable', 'diff_value']).size()返回每个分组的个数，常用的有max()，min()，mean()

如上是本次脚本分析涉及到的功能，此外，pandas还有作图功能，这次暂未用到，就不展开说啦。

Python适合做大数据挖掘和分析吗？公司视频课程

布里亚纳

Python 诞生之初就被誉为最容易上手的编程语言。进入火热的 AI 人工智能时代后，它也逐渐取代 Java，成为编程界的头牌语言。更有码农圈金句：「学完 Python，可以上天」佐证其火热程度！之前有人说过R语言和JAVA语言是最适合做数据分析的计算机编程语言之一。其实，小编想说Python也是最受欢迎的大数据分析编程语言，而且Python大数据开发可以做的更好。

Python大数据开发

为什么说Python大数据开发可以做的更好，下面就来为大家分析一下。

首先，Python语言它很容易上手。它融合了R语言快速成熟的数据挖掘能力之外，还有更实际的产品构建能力。Python语言也正在迅速地获得主流人士的拥护。只要你用过Python语言，你会发现它是更直观，并且相比R语言更容易学习。它在计算机语言中的整体趋势也是上升的很快。使其在统计分析上的能力超越了之前的R语言。

Python是行业人员正在转换发展的方向。过去两年里，很明显存在由R 向Python 转化的趋势”在数据处理中，通常存在规模和技巧的权衡，Python语言作为一个折中出现了。

从对数据分析工作的处理上看，IPython notebook 和NumPy 可以用于轻量工作的处理，而 Python 则是中级规模数据处理的有力工具。丰富的数据交流社区也是 Python 的优势，它提供了大量的Python 工具包和特性。

据悉美国银行也是利用Python语言开发了新的产品以及基础设施接口。而且也用于处理金融数据。

在图灵世界里，Python被赋予的形象是蟒蛇，而蟒蛇不仅仅是灵活的象征，更有一招制敌的大杀器。在现阶段的数据体系内，只要你有所了解的话，想必你会有个感觉：怎么处处都有Python的踪影！其实每一种的计算机编程语言，似乎都有自己成名或适用的领域。比如Java更多用于系统开发，Matlab则用于数值计算及矩阵运算，而Python的自身基因，让其更符合数据领域的策略分析。

因为Python 在数据领域的独特地位，随着互联网的发展其越来越宽广灵活，所以越来越多的人蜂拥而至去学习Python语言。所有说，Python开发更适合做数据分析是没问题的。