python金融例子

课程简介

本节为 Python 金融数据分析基础课程，将重点介绍使用 matplotlib 制作基本图表的方法，此外，也对较特别的金融常用图表进行了说明。建议初学者认真学习本节内容，已经掌握 Python 基本作图的读者可以直接跳转至金融图表部分。

学习目标

用 matplotlib 做基本的 2D 图表，主要为点线图、散点图、柱状图

用 matplotlib 做金融图表，主要为蜡状图、箱型图

用 matplotlib 做基本的 3D 图表，主要为 3D 曲面图和 3D 散点图

一、平面图表

1、生成一维数据集

「量化小讲堂」如何快速上手使用Python进行金融数据分析公司视频课程

曼安

如何快速上手使用Python进行金融数据分析

引言:

本系列帖子“量化小讲堂”，通过实际案例教初学者使用python、pandas进行金融数据处理，希望能对大家有帮助。

【必读文章】:《10年400倍策略分享-附视频逐行讲解代码》

【所有系列文章汇总】:http://bbs.pinggu.org/thread-3950124-1-1.html

第一步：好奇心

不要为了学习而去学习一门编程语言，或者任何工具。一定要心里首先有一个问题，抱着解决问题的心态，去了解并学习这个工具是如何解决问题的。驱动你去学习量化投资的，应该是你的好奇心。你认为你有一个炒股独家的窍门，你认为你发现了某个规律，你非常好奇的想用历史数据去验证你的想法。

比如我在大二的时候接触量化投资，就是因为我的好奇心。当时我看到一些入门的技术分析书上推荐KDJ这个技术指标，说KDJ低位金叉之后股票会涨，是个很好的买入信号，并且书上会配一些图，证明这个指标的有效性。我当时就很好奇，书上说的是不是真的？这几个配图是刻意挑选的还是有代表性的？是不是可以写个程序找出历史上所有的kdj金叉，看看之后涨的概率有多大?

这就是引领我入门的最初的好奇心。当时我不会编程，一开始用excel来试着验证，发现KDJ从大概率上来讲是不行的。好奇心继续升级：我调整一下KDJ默认的参数，效果会不会好一点？再配合一下其他的指标，效果会不会好一点？再加上点财务数据，效果会不会好一点......

慢慢的想测试的想法越来越多，excel渐渐的不够用，开始学习编程。我学习编程的目的性很强，就是解决我眼前的问题。对于解决我问题没有帮助的，我就先不学。一开始用的是SAS，自己找书看，论坛上发帖子问。后来觉得SAS太重，不灵活，慢慢的迁移到Python。

我是金融专业的，但是学校并不教量化投资，一切都是自己学。可想而知，若没有好奇心一直引导我去探索，这么长的一段时间我怎么可能坚持下来呢？

第二步：为什么Python

我推荐刚入门的量化投资研究者使用Python。主要理由如下：

1. 适用性

Python配合各类第三方的package（例如下面要降到的pandas），是非常适合用来处理金融数据的

2. 简单

相比于c，c#等语言，Python容易太多了。让你可以更快，更方便的的对自己的想法进行测试。life is short, use Python。

3. 全能

Matlab是另外一个金融分析领域的统治级语言，以上讲的两点适用性、简单性matlab都是具备的，在业界的使用范围应该是比Python要高的。

而Python相比于matlab的一大优势，那就是全能。matlab基本只能用于金融数据分析。但是Python除了拥有不亚于matlab的矩阵计算、科学计算能力之外，其他几乎任何事情都可以做。比如数据的清理、整理，比如从网页上抓取数据，比如进行文本信息的挖掘，比如做一个网站......现在学习一门语言，将来在任何地方都能用到。

第三步：如何入门Python

如果你有其他语言的编写经验（比如上过一个学期的编程课），有一定的编程基础。以下三步可以让你入门Python：

1. 随便找一本Pyhton入门书。这些教程网上有很多很多，论坛里面也有很多，随便搜索一下就是。我稍微整理了下，放在附件中，回复可见。

2. 挑一本Python入门书，不要花超过半天的时间，快速翻阅这本书。这个步骤不求记住什么东西，只要大概的知道这本书讲了什么，什么知识在这本书的哪一章写了就行，以便将来查阅。

3. 结合自己的好奇心，给自己寻找一个问题，简单的复杂的都可以，找一点数据(地址)，直接开始实战。遇到问题，第一步是去翻书，第二步是去google(别去百度)，第三步是论坛发帖求助。人大经管论坛、知乎以及其他平台都能够为你解决不少问题。

如果你没有任何编程的基础，那么想要入门Python，也是以上三个步骤。但是第2步，就不是仅仅花半天的时间浏览书了，而是要细细的看书。对着书上的例子，实际的操作下，大概花一个星期的时间的业余时间也就够了吧。

第四步：如何入门pandas

使用Python做金融数据分析，一定要用pandas。pandas是Python的一个第三方库，简直是金融数据分析的神器，第一次遇到它的时候让我泪流满面。了解pandas最好的途径就是他的官方文档：http://pandas.pydata.org/pandas-docs/stable/10min.html，当然也可以看我之前写的系列文章。

之后会讲的内容：

【量化小讲堂 - python & pandas技巧系列】如何根据逐笔数据计算资金流入流出数据

【量化小讲堂 - python & pandas技巧系列】如何测试海龟交易法则

【量化小讲堂 - python & pandas技巧系列】详细介绍复权价格如何计算

对文章内容有疑问、需要Python入门相关书籍的可以私信我或者留言，觉得文章内容有帮助的话，不要忘了点赞哦！

Python入门：利用Python快速收集金融数据互联网视频课程

符惜蕊

Python 作为一种开源语言提供了丰富的 API 和工具，具有较高的灵活性，同时相关的第三方库（requests+Beautiful Soup+re）也较为成熟，可以很容易的开发出数据爬取爬虫等程序，对于非专业程序员却又有编程需求的业务人员非常合适。本次我们将以采集金融数据为例讲述利用Python采集金融数据的过程。

BeautifulSoup库是解析、遍历、维护 “标签树” 的功能库，需要安装。

RE库是正则表达式库，Python自带。

在使用 Python 进行数据采集时，如果是小规模数据采集，可以使用 requests+Beautiful Soup+re 的架构来完成，使用 requests库可以自动提交网络请求和自动爬取 HTML 页面，使用 Beautiful Soup 库和 re 正则表达式可解析 HTML页面和提取页面关键信息。

在开始采集之前，我们需要对目标网站进行充分的分析。特别是URL结构和页面的HTML结构，确定好需要采集的数据和数据所在的页面。根据对目标网站（

某金融信息网站

）的分析，我这次采集的目标锁定在

某类交易商品销售情况上，将要采集

交易名称、价格、成交量、换手率、交易者、交易者地址等。此外我们还要查看网站的robots.txt 文件，以便确定爬取策略。

（一）确定数据爬取策略。

我们需要由某一页面的URL地址开始，形成目标页面的URL队列，从观察网站页面的URL变化得知，目标网站产品分类页的URL有以下规律（http：//s.####/search?q=”类别”&s=页码）URL地址的尾部由类别和页码组成，由此我们就可以制定好页面爬取URL队列的规则，只需使用Python脚本

遍历得到页面信息。每次遍历实现对单个 HTML 页面信息的获取、解析和存储。页面信息的获取调用了自定义方法getHTML （），页面信息的解析调用了自定义方法parseHTML（）。

for i in range（页面数量）：

time.sleep（2）

try：

url=start_url+str（每页商品数量 *i）

html=getHTML（url）

parseHTML（html，goodslist）

saveGoodsList（goodslist，file_path）

except：

continue

（二）获取 HTML 页面信息。Python可以通过

调用 requests 库的 get（url）方法获取 HTML 页面的源代码。

url 作为 get（url）方法参数指明了要获取的资源路径，返回的页面信息被存储为 Response 对象中。Response 对象的text 即为 HTML 的页面内容。requests 还包括 post（）、head（）等方法。使用 requests.get（url）.text 可以获得url 地址所对应的 HTML 文档内容；使用 f.write（re－quests.get（url）.content）可以将 url 所指向资源以二进制的形式获得并保存至本地硬盘。 getHTML（）方法代码如下：

r=requests.get（url，header，timeout=30）

return r.text

（三）解析 HTML 文档，提取关键信息。获取页面信息后，就要对 HTML 页面内容进行分析以提取关键信息。整个解析过程中要对 HTTP 协议及 HTML 文档结构有足够的认识。当前要获取的是交易名称、价格、成交量、换手率、交易者、交易者地址等信息，分析 HTML 页面源代码发现其结构如下：

"title"："COMEX白银 "

"price"："15.89"

"sales"："成交量"

"user"："交易者"

"item"："广东广州"

根据页面规律这些信息可以使用正则表达式直接提取，正则表达式是一个特殊的字符序列，它能方便地检查一个字符串是否与某种模式匹配。re 库是 python 的标准库，主要用于字符串匹配。re 的 findall（）可以实现在文本中检索全部能匹配的字符子串，并将检索结果以列表类型返回。re 还包括 search（）、match（）、split（）等方法。当然如果正则表达式无法提取信息也可以使用Beautiful Soup库等对页面内容进行解析。

（四）采集结果分析。当数据采集完毕，我们即可使用Python强大的数据分析库对数据进行分析。

如：NumPy、Matplotlib等。

NumPy

NumPy 是 Python 科学计算的基础包，它提供：

快速高效的多维数组对象 ndarray；

直接对数组执行数学运算及对数组执行元素级计算的函数；

线性代数运算、随机数生成;

将 C、C++、Fortran 代码集成到 Python 的工具等。

它专为进行严格的数字处理而产生。多为很多大型金融公司使用，以及核心的科学计算组织如：Lawrence Livermore，NASA 用其处理一些本来使用 C++，Fortran 或Matlab 等所做的任务。

Python入门：利用Python快速收集金融数据推广视频课程

红酥手

Python 作为一种开源语言提供了丰富的 API 和工具，具有较高的灵活性，同时相关的第三方库（requests+Beautiful Soup+re）也较为成熟，可以很容易的开发出数据爬取爬虫等程序，对于非专业程序员却又有编程需求的业务人员非常合适。本次我们将以采集金融数据为例讲述利用Python采集金融数据的过程。

BeautifulSoup库是解析、遍历、维护 “标签树” 的功能库，需要安装。

RE库是正则表达式库，Python自带。

在使用 Python 进行数据采集时，如果是小规模数据采集，可以使用 requests+Beautiful Soup+re 的架构来完成，使用 requests库可以自动提交网络请求和自动爬取 HTML 页面，使用 Beautiful Soup 库和 re 正则表达式可解析 HTML页面和提取页面关键信息。

在开始采集之前，我们需要对目标网站进行充分的分析。特别是URL结构和页面的HTML结构，确定好需要采集的数据和数据所在的页面。根据对目标网站（

某金融信息网站

）的分析，我这次采集的目标锁定在

某类交易商品销售情况上，将要采集

交易名称、价格、成交量、换手率、交易者、交易者地址等。此外我们还要查看网站的robots.txt 文件，以便确定爬取策略。

（一）确定数据爬取策略。

我们需要由某一页面的URL地址开始，形成目标页面的URL队列，从观察网站页面的URL变化得知，目标网站产品分类页的URL有以下规律（http：//s.####/search?q=”类别”&s=页码）URL地址的尾部由类别和页码组成，由此我们就可以制定好页面爬取URL队列的规则，只需使用Python脚本

遍历得到页面信息。每次遍历实现对单个 HTML 页面信息的获取、解析和存储。页面信息的获取调用了自定义方法getHTML （），页面信息的解析调用了自定义方法parseHTML（）。

for i in range（页面数量）：

time.sleep（2）

try：

url=start_url+str（每页商品数量 *i）

html=getHTML（url）

parseHTML（html，goodslist）

saveGoodsList（goodslist，file_path）

except：

continue

（二）获取 HTML 页面信息。Python可以通过

调用 requests 库的 get（url）方法获取 HTML 页面的源代码。

url 作为 get（url）方法参数指明了要获取的资源路径，返回的页面信息被存储为 Response 对象中。Response 对象的text 即为 HTML 的页面内容。requests 还包括 post（）、head（）等方法。使用 requests.get（url）.text 可以获得url 地址所对应的 HTML 文档内容；使用 f.write（re－quests.get（url）.content）可以将 url 所指向资源以二进制的形式获得并保存至本地硬盘。 getHTML（）方法代码如下：

r=requests.get（url，header，timeout=30）

return r.text

（三）解析 HTML 文档，提取关键信息。获取页面信息后，就要对 HTML 页面内容进行分析以提取关键信息。整个解析过程中要对 HTTP 协议及 HTML 文档结构有足够的认识。当前要获取的是交易名称、价格、成交量、换手率、交易者、交易者地址等信息，分析 HTML 页面源代码发现其结构如下：

"title"："COMEX白银 "

"price"："15.89"

"sales"："成交量"

"user"："交易者"

"item"："广东广州"

根据页面规律这些信息可以使用正则表达式直接提取，正则表达式是一个特殊的字符序列，它能方便地检查一个字符串是否与某种模式匹配。re 库是 python 的标准库，主要用于字符串匹配。re 的 findall（）可以实现在文本中检索全部能匹配的字符子串，并将检索结果以列表类型返回。re 还包括 search（）、match（）、split（）等方法。当然如果正则表达式无法提取信息也可以使用Beautiful Soup库等对页面内容进行解析。

（四）采集结果分析。当数据采集完毕，我们即可使用Python强大的数据分析库对数据进行分析。

如：NumPy、Matplotlib等。

NumPy

NumPy 是 Python 科学计算的基础包，它提供：

快速高效的多维数组对象 ndarray；

直接对数组执行数学运算及对数组执行元素级计算的函数；

线性代数运算、随机数生成;

将 C、C++、Fortran 代码集成到 Python 的工具等。

它专为进行严格的数字处理而产生。多为很多大型金融公司使用，以及核心的科学计算组织如：Lawrence Livermore，NASA 用其处理一些本来使用 C++，Fortran 或Matlab 等所做的任务。