中企动力 > 头条 > python资源库

网站性能检测评分

注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。

python资源库

资源 | 5 个Python 库,照亮你的机器学习之路 企业视频课程

img

Zuza

关注

选自Infoworld作者:Serdar Yegulalp参与:黄小天、李亚洲、微胖

这些 Python 库帮助你加速数据传输,通过 AWS Lambda 对大型计算工作做碎片化处理,并使用略低于 TensorFlow 的模型工作。

机器学习令人兴奋,但具体工作复杂而困难。通常它涉及很多手动提升——汇总工作流及传输渠道,设置数据源,以及在内部部署和云部署的资源之间来回分流。

用来提高工作效率的手头工具越多越好。庆幸的是,Python 是一个威力巨大的工具语言,在大数据和机器学习之中被广泛使用。下面是 5 个 Python 库,帮助你缓解来自交易提升的重负。

PyWren

地址:https://github/ericmjonas/pywren

PyWren,一个带有强大前提的简单包,能使你运行基于 Python 的科学计算工作量,以作为 AWS Lambda 函数的多个例子。项目 At The New Stack 的简介这样描述 PyWren: 把 AWS Lambda 用作一个巨大的平行处理系统,以处理那些可被切割成诸多小任务的项目,这些小任务的运行不需要占用很多内存或硬盘。

Lambda 函数的一个缺点是运行时间最长不能超过 300 秒。但是,如果你需要一个只花费几分钟就能完成的工作,并在数据集中需要运行数千次,那么 PyWren 也许是一个好选择,它可以一种用户硬件上不可用的规模平行化云端的工作。

谷歌的 TensorFlow 框架正迈入伟大时刻,因为刚发布了 1.0。人们通常会问一个问题:如何利用在上面训练的模型而无需使用 TensorFlow 本身?

Tfdeploy

地址:https://github/riga/tfdeploy

Tfdeploy 可以部分解决这个问题。将训练过的 TensorFlow 模型输出「一个简单的基于 Numpy 的可调用对象(callable)」,也就是说,借由 Tfdeploy,可以在 Python 中使用模型,而且 Numpy 的数学和统计库被作为唯一的依靠。几乎所有能在 TensorFlow 上跑的运行也能在 Tfdeploy 上跑,而且你可以通过标准 Python 隐喻方式来延伸库的行为(比如,超载一个类别)。

现在,坏的消息是:Tf 部署并不支持 GPU 加速,要是 Numpy 能克服那一点该多好。Tfdeploy 的创造者建议 gNumPy 项目是一个可行的替代。

Luigi

地址:https://github/spotify/luigi

编写成批作业通常只是处理海量数据的其中一步:你也不得不将所有这些工作串联起来,做成类似工作流程的东西。Luigi 是 Spotify 打造的,用于「解决所有通常与长期运行成批处理作业有关的管道问题。」

有了 Luigi,研发人员就可以从事几个很难、与数据无关的任务处理——「一个 Hive 询问,一个在 Jave 上完成的 Hadoop 任务,一个 Scala 上的 Spark 任务,一个从数据库中导出表格」——创造一个端到端运行它们的工作流。对任务的整个描述以及依存性被打造为 Python 模块,和 XML 配置文档或其他数据形式不同,因此,可以被组合到其他以 Python 为中心的项目中去。

Kubelib

地址:https://github/safarijv/kubelib

如果你采用 Kubernetes 作为完成机器学习工作的编排系统(orchestration system),你最不想要的就是它产生的问题比能解决的问题都多。Kubelib 为 Kubernetes 提供了一系列的 Python 接口,本来是用 Jekins scripting 作为帮助。但没有 Jenkins 的情况下也能够使用,它能够完成 暴露在 kubectl CLI 或者 Kubernetes API 中的所有事。

PyTorch

地址:https://github/pytorch/pytorch

不要忘记了最近发布的、引人注目的 Python 库新成员 Pytorch,这是 Torch 机器学习框架的一个工具。PyTorch 不仅为 Torch 添加了 Python 端口,也增加了许多其他的便利,比如 GPU 加速,共享内存完成多重处理(multiprocessing,特别是多核上隔离开的工作。) 最好的是,它们能为 Numpy 中的无加速功能提供 GPU 驱动的替代选择。

史上最全156个Python网络爬虫资源,运维收藏! 公司视频课程

img

克里斯蒂娜

关注

碉堡了~今天把Python的爬虫工具搬过来~本列表包含Python网页抓取和数据处理相关的库。

网络相关

通用

urllib-网络库(标准库)

requests-网络库

grab-网络库(基于pycurl)

pycurl-网络库(与libcurl绑定)

urllib3-具有线程安全连接池、文件psot支持、高可用的PythonHTTP库

httplib2-网络库

RoboBrowser-一个无需独立浏览器即可访问网页的简单、pythonic的库

MechanicalSoup-能完成自动网站交互的Python库

mechanize-有状态、可编程的网页浏览库。

socket-底层网络接口(标准库)

UnirestforPython-一套支持多种语言的轻量级HTTP库

hyper-PythonHTTP/2客户端

PySocks-SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品

异步

treq-基于twisted、与requests类似的API

aiohttp-asyncio的HTTP客户端/服务器(PEP-3156)

网络爬虫框架

全能型爬虫

grab-网络爬虫框架(基于pycurl/multicurl)

scrapy-网络爬虫框架(基于twisted)

pyspider-一个强力的爬虫系统

cola-一个分布式爬虫框架

其他

portia-基于Scrapy的可视化爬虫

restkit-Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目

demiurge-基于PyQuery的微型爬虫框架

HTML/XML解析

通用

lxml-高效的HTML/XML处理库。支持XPATH,用C语言写成

cssselect-解析DOM树和css选择器

pyquery-解析DOM树和jQuery选择器

BeautifulSoup-Python写成的低效HTML/XMl处理库

html5lib-根据WHATWG规范生成HTML/XML文档的DOM。WHATWG规范是现在浏览器的通行规范

feedparser-解析RSS/ATOM信息流

MarkupSafe-Python的XML/HTML/XHTML安全转义字符串工具

xmltodict-让你处理XML如同处理JSON一样

xhtml2pdf-HTML/CSStoPDF转化器

untangle-讲XML文档转化为Python项目以简化处理难度

hodor-支持lxmlandcssselect的配置驱动包装工具

清理

Bleach-清理HTML(需求html5lib)

sanitize-将混乱的数据世界恢复清楚

文本处理

解析及操作文本的库

通用

difflib-差异化计算工具(Python标准库)

Levenshtein-快速计算编辑距离及字符串相似度

fuzzywuzzy-模糊字符串比匹配

esmre-正则表达式加速器.

ftfy-将Unicode文本自动整理减少碎片化

转换

unidecode-Unicode转化为ASCII文本

字符编码

uniout-将转移字符串输出为可读形式

chardet-Python2/3兼容字符编码检测器

xpinyin-讲汉字转为拼音的库

pangu.py-CJK及字母数字文本间距格式化

Slug化

awesome-slugify-可保留Unicode的Pythonslugify库

python-slugify-讲Unicode转为ASCII的Pythonslugify库

unicode-slugify-unicodeslugs生成工具

pytils-处理俄语字符串的小工具(包含pytils.translit.slugify)

通用解析器

PLY-Pythonlex和yacc解析工具

pyparsing-用于生成解析器的通用框架

人名

python-nameparser-姓名解析组件

电话号码

phonenumbers-处理、格式化、存储、验证全球电话号码

用户代理字符串

python-user-agents-浏览器用户代理解析器

HTTPAgentParser-PythonHTTP代理解析器

fake-useragent-基于全球浏览器统计的Python用户代理欺骗器

user_agent-用户代理数据生成器

特殊格式处理

处理特编辑特殊字符格式的库

通用

tablib-处理XLS,CSV,JSON,YAML等表格数据的库

textract-从任何文档中提取文本,支持Word,PowerPoint,PDF等

messytables-杂乱的表格数据解析

rows-支持多种格式的通用且美观的表格数据处理器(现有CSV,HTML,XLS,TXT--即将支持更多)

Office

python-docx-阅读,查询和修改MicrosoftWord2007/2008docx文件

xlwt/xlrd-从Excel读取及写入数据和格式化信息

XlsxWriter-用于穿件Excel.xlsx文件的Python模块

xlwings-一个BSD许可的库,是Excel与Python互相调用更加简单

openpyxl-可读取、编辑Excel2010xlsx/xlsm/xltx/xltm文件的库

Marmir-提取Python数据结构并将其转化为表格的库

PDF

PDFMiner-从PDF文档中提取信息的工具

PyPDF2-一个分割、合并、转换PDF文件的库

ReportLab-可以快速创建大量PDF文档

pdftables-从PDF文件中精准提取表格

Markdown

Python-Markdown-一个用Python实现的JohnGruber的Markdown

Mistune-速度最快,功能全面的Markdown纯Python解析器

markdown2-一个完全用Python实现的快速的Markdown

YAML

PyYAML-一个Python的YAML解析器

CSS

cssutils-一个Python的CSS库

ATOM/RSS

feedparser-通用的feed解析器

SQL

sqlparse-一个无验证的SQL语句分析器

HTTP

http-parser-C语言实现的HTTP请求/响应消息解析器

Microformats

opengraph-一个用来解析OpenGraph协议标签的Python模块

可移植的执行体

pefile-一个多平台的用于解析和处理可移植执行体(即PE)文件的模块

PSD

psd-tools-将AdobePhotoshopPSD(即PE)文件读取到Python数据结构

自然语言处理

自然语言处理库

NLTK-Python自然语言处理领先者

Pattern-Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它

TextBlob-为深入处理自然语言的项目提供API,参考了NLTK及其他

jieba-中文分词

SnowNLP-汉字文本处理库

loso-中文分词库

genius-基于条件随机域的中文分词

langid.py-独立的语言识别系统

Korean-韩文形态库

pymorphy2-俄语形态分析器(词性标注+词形变化引擎)

PyPLN-用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库

langdetect-Python的谷歌语言检测库端口

浏览器自动化与仿真

浏览器

selenium-自动化真实浏览器(Chrome,Firefox,Opera,IE)

Ghost.py-QtWebKit封装(需求PyQT)

Spynner-具备AJAX支持的程序化网页浏览模块

Splinter-通用API浏览器模拟器(seleniumweb驱动,Django客户端,Zope)

Headless工具

xvfbwrapper-用于在X虚拟帧缓冲区(Xvfb)中运行显示的Python包装器

多进程并发

threading-Python标准库的多线程运行。因为pythonGIL限制,对于I/O密集型任务很有效,对于CPU绑定的任务没用

multiprocessing-多进程标准库

celery-基于分布式消息传递的异步任务队列/作业队列

concurrent-futures-concurrent.futures模块提供用于异步执行callable的高级接口

异步

异步网络编程库

asyncio-异步I/O,时间循环,协同程序和任务(Python3.4以上版本的Python标准库)

Twisted-基于事件驱动的网络引擎框架

Tornado-一个Web框架及异步网络库

pulsar-Python事件驱动的并发框架

diesel-Python的基于Greenlet的I/O框架

gevent-一个基于协同程序的Python网络库,使用greenlet

eventlet-有WSGI支持的异步框架

Tomorrow-异步代码的魔法

队列

celery-基于分布式消息传递的异步任务队列/作业队列

huey-小型多线程任务队列

mrq-Mr.Queue-使用redis&Gevent的Python分布式工作任务队列

RQ-基于Redis的轻量级任务队列管理器

simpleq-一个简单的,可无限扩展,基于AmazonSQS的队列

python-gearman-Gearman的PythonAPI

云计算

picloud-在云端执行Python

dominoup-在云端执行R,Python及matlab代码

电子邮件

电子邮件处理库

flanker-电子邮件及MIME处理库

Talon-Mailgun库用于提取消息的报价和签名

URL和网络地址操作

URL和网络地址操作库

URL

furl-一个小的Python库,使得操纵URL简单化

purl-一个简单的不可改变的URL以及一个干净的用于调试和操作的API

urllib.parse-用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)

tldextract-使用公共后缀列表从URL的注册域和子域中准确分离TLD

网络地址

netaddr-用于显示和操纵网络地址的Python库

网页内容提取

网页内容提取库

HTML页面的文本和元数据

newspaper-用Python进行新闻提取、文章提取和内容策展

html2text-将HTML转为Markdown格式文本

python-goose-HTML内容/文章提取器

lassie-人性化的网页内容检索工具

micawber-一个从网址中提取丰富内容的小型库

sumy-一个自动汇总文本文件和HTML网页的模块

Haul-一个可扩展的图像爬虫

python-readability-arc90readability工具的快速Python接口

scrapely-从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器

libextract-从网站提取数据

视频

youtube-dl-一个从YouTube下载视频的小型命令行工具

you-get-Python3写成的YouTube/Youku/Niconico视频下载工具

Wiki

WikiTeam-下载并保存wkiks的工具

WebSocket

用于WebSocket的库

Crossbar-开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)

AutobahnPython-提供了WebSocket协议和WAMP协议的Python实现并且开源

WebSocket-for-Python-Python2和3以及PyPy的WebSocket客户端和服务器库

DNS解析

dnsyo-在全球超过1500个的DNS服务器上检查你的DNS

pycares-ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库

计算机视觉

OpenCV-开源计算机视觉库

SimpleCV-用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)

mahotas-快速计算机图像处理算法(完全使用C++实现),完全基于numpy的数组作为它的数据类型

代理服务器

shadowsocks-一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)

tproxy-tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置

杂项

user_agent-此模块用于生成随机,有效的Web导航器的配置和用户代理HTTPheader

其他

awesome-python

pycrumbs

python-github-projects

python_reference

pythonidae

Python大神,requests库的作者放大招了 营销视频课程

img

小猪

关注

只要是学爬虫的同学,相信无人不知的,无人不晓requests库!requests这个库号称为人类而写的http库("Python HTTP Requests for Humans"),非常好用,功能强大!

它的作者就是大名鼎鼎的Kenneth Reitz,这位大神非常牛逼,功力深厚还爱好摄影,对美学有自己的追求,能把这种美学的意境运用到代码上,非常厉害!

今天去逛他的github,发现他出了一本Python-guide书,赶紧去围观学习了一下受益匪浅!本书是号称Python best practices guidebook, written for Humans,目前有一万三千多的点赞量!

这本书内容非常丰富,从win/linux/os的开发环境的安装,到开发工具推荐和设置,到如何写成优雅的代码,再到Python应用场景的指南比如(网络应用,web开发,命令行的应用,GUI的应用),数据库,系统管理,持续集成和数据库等等,下面我摘录了某一章节里面的部分片段:

Writing Great Python Code

这部分指南关注编写Python代码的最佳实践。

结构化您的工程仓库的结构结构是一把钥匙模块包面向对象编程装饰器上下文管理器动态类型可变和不可变类型提供依赖关系Runners更多阅读代码风格一般概念习语(Idiom)Python之禅PEP 8约定1.模块

Python模块是最主要的抽象层之一,并且很可能是最自然的一个,抽象层允许将代码分为 不同部分,每个部分包含相关的数据与功能:

可以使用import语句的特殊形式from modu import * 模拟更标准的行为。但 import* 通常 被认为是不好的做法,但是使用 from modu import * 的代码较难阅读而且依赖独立性不足。使用 from modu import func 能精确定位您想导入的方法并将其放到全局命名空间中。比 from modu import * 要好些,因为它明确地指明往全局命名空间中导入了什么方法。

2.动态类型

Python是动态类型语言,这意味着变量并没有固定的类型。实际上,Python 中的变量和其他语言有很大的不同,特别是静态类型语言。

变量并不是计算机内存中被写入的某个值,它们只是指向内存的 ‘标签’ 或 ‘名称’ 。

因此可能存在这样的情况,变量 ‘a’ 先代表值1,然后变成字符串 ‘a string’ , 然后又变为指向一个函数:

3.明确的代码

在存在各种黑魔法的Python中,我们提倡最明确和直接的编码方式:

4.每行一个声明

复合语句(比如说列表推导)因其简洁和表达性受到推崇,但在同一行代码中写两条独立的语句是糟糕的:

5.返回值

当一个函数变得复杂,在函数体中使用多返回值的语句并不少见。然而,为了保持函数的明确意图以及一个可持续的可读水平,更建议在函数体中避免使用返回多个有意义的值。

尽管如此,当一个函数在其正常过程中有多个主要出口点时,它会变得难以调试和返回其 结果,所以保持单个出口点可能会更好。

这也将有助于提取某些代码路径,而且多个出口点 很有可能意味着这里需要重构。

上面只是一些书里的很少的部分,大神的内容非常丰富而且全面,非常成体系!值得细细推敲和咀嚼,对提高Python的功劳大有裨益,还等什么,赶紧去围观吧.

尽管 Python 官方之前公布相应消息,会在 2020 年停止对 Python 2 的官方支持,但并未落实到具体日期。

最近 Python 之父 Guido van Rossum 在官方邮件组回复了对 Python 2.7 何时终结(EOL)的咨询。

Guido van Rossum 在回复表示:

Let's not play games with semantics. The way I see the situation for 2.7 is that EOL is January 1st, 2020, and there will be no updates, not even source-only security patches, after that date. Support (from the core devs, the PSF, and python.org) stops completely on that date. If you want support for 2.7 beyond that day you will have to pay a commercial vendor. Of course it's open source so people are also welcome to fork it. But the core devs have toiled long enough, and the 2020 EOL date (an extension from the originally annouced 2015 EOL!) was announced with sufficient lead time and fanfare that I don't feel bad about stopping to support it at all.(大意如下):好了,咱们不玩文字语义游戏了。Python 2.7 的 EOL 日期是 2020 年 1 月 1 日,之后不会有任何更新,源码的安全补丁也不会有了。2020 年元旦之后,来自 Python 核心开发团队、PSF(Python 软件基金会)、Python.org 的支持,统统都停掉。如果以后你想要对 2.7 的支持,你得给商业供应商掏钱了。当然了,因为 Python 是开源的,所以也欢迎大家来 fork。官方核心开发团队已经努力工作够长的时间了,离 2020 年的 EOL 日期还有很长,(之前曾说过在 2015 年就终结),所以停止支持 Python 2,我完全没觉得有啥糟糕的。

2017 年宣布不再支持 Python 2 的软件/库有:

就在2017年 11 月 16 日,Numpy 库官方宣布准备放弃支持 Python 2。

12 月 2 日,Python Web 开发框架 Django 官网发文宣布推送 Django 2.0 版。在 Django 2.0 的发布说明中,最大吸引注意的内容就是兼容性。

Django 1.11.x 是支持 Python 2.7 的最后版本;Django 2.0 支持 Python 3.4、3.5 和 3.6;Django 2.0 对 Python 3.4 将于 2019 年 3 月结束支持,因此 Django 2.0 也将是最后一个支持 Python 3.4 的版本。

Django 2.0 的主要新特性包括:

简化 URL 路由语法

以前是这样写:

url(r'^articles/(?P[0-9]{4})/$',views.year_archive),

现在可以这样:

path('articles//',views.year_archive),

移动友好的 contrib.admin

admin 将自适应主流移动设备。优雅性在老旧浏览器则可能会有打折咯。

新的 Window expressions

新 Window 表达式允许在查询集添加 OVER 从句。可以在表达式中使用 window 函数和 aggregate 函数。

Numpy 是 Python 的一个科学计算的库,提供了矩阵运算的功能,一般与 Scipy、matplotlib 一起使用。

今天 Numpy 的 GitHub 主页上发文称,Numpy 库准备从 2019 年 1 月 1 日起,放弃支持 Python 2。

「Python开发者」摘编如下:

Python 内核团队将于 2020 年停止支持 Python 2。NumPy 项目从 2010 年同时支持 Python 2 和 Python 3,我们发现自己有限资源无力再支持 Python 2 了。因此,我们也计划放弃支持 Python 2。

相应时间表如下:

2018 年 12 月 31 日之前,所有 NumPy 发布版均同时支持Python 2 和 Python 3。从 2019 年 1 月 1 日起,NumPy 的新特性只支持 Python 3。NumPy 的最后一个 Python 2 的版本,将被指定为一个长期支持版(LTS),意味着我们会长期持续合并 Bug 修复和制作 Bug 补丁。LTS 版将会支持到 2019 年 12 月 31 日。

从 2020 年 1 月 1 日起,NumPy 社区对 Python 2 的支持,就彻底说再见了。不过,PyPI 会继续支持 Python 2。如果有商业厂商希望在 2020 年 1 月 1 日后扩大 LTS 的支持,我们愿意让他们使用 NumPy 官方 repo 中的 LTS 分支。

如果我的分享对你有帮助,还请关注菜鸟学Python头条号,与你分享更多有用的知识。

关注私信:学习资料,获取更多学习教程,与更多人一起学习Python!

Python资源大全,让你相见恨晚的Python库! 企业视频课程

img

翠安

关注

环境管理

管理 Python 版本和环境的工具

p – 非常简单的交互式 python 版本管理工具。pyenv – 简单的 Python 版本管理工具。Vex – 可以在虚拟环境中执行命令。virtualenv – 创建独立 Python 环境的工具。virtualenvwrapper– virtualenv 的一组扩展。

包管理

管理包和依赖的工具。

pip – Python 包和依赖关系管理工具。pip-tools – 保证 Python 包依赖关系更新的一组工具。conda – 跨平台,Python 二进制包管理工具。Curdling – 管理 Python 包的命令行工具。wheel – Python 分发的新标准,意在取代 eggs。

包仓库

本地 PyPI 仓库服务和代理。

warehouse – 下一代 PyPI。Warehouse bandersnatch – PyPA 提供的 PyPI 镜像工具。devpi – PyPI 服务和打包/测试/分发工具。localshop – 本地 PyPI 服务(自定义包并且自动对 PyPI 镜像)。

分发

打包为可执行文件以便分发。

PyInstaller – 将 Python 程序转换成独立的执行文件(跨平台)。dh-virtualenv – 构建并将 virtualenv 虚拟环境作为一个 Debian 包来发布。Nuitka – 将脚本、模块、包编译成可执行文件或扩展模块。py2app – 将 Python 脚本变为独立软件包(Mac OS X)。py2exe – 将 Python 脚本变为独立软件包(Windows)。pynsist – 一个用来创建 Windows 安装程序的工具,可以在安装程序中打包 Python本身。

构建工具

将源码编译成软件。

buildout – 一个构建系统,从多个组件来创建,组装和部署应用。BitBake – 针对嵌入式 Linux 的类似 make 的构建工具。fabricate – 对任何语言自动找到依赖关系的构建工具。PlatformIO – 多平台命令行构建工具。PyBuilder – 纯 Python 实现的持续化构建工具。SCons – 软件构建工具。

交互式解析器

交互式 Python 解析器。

IPython – 功能丰富的工具,非常有效的使用交互式 Python。bpython– 界面丰富的 Python 解析器。ptpython – 高级交互式Python解析器, 构建于python-prompt-toolkit 之上。

文件

文件管理和 MIME(多用途的网际邮件扩充协议)类型检测。

imghdr – (Python 标准库)检测图片类型。mimetypes – (Python 标准库)将文件名映射为 MIME 类型。path.py – 对 os.path 进行封装的模块。pathlib – (Python3.4+ 标准库)跨平台的、面向对象的路径操作库。python-magic– 文件类型检测的第三方库 libmagic 的 Python 接口。Unipath– 用面向对象的方式操作文件和目录watchdog – 管理文件系统事件的 API 和 shell 工具

日期和时间

操作日期和时间的类库。

arrow– 更好的 Python 日期时间操作类库。Chronyk – Python 3 的类库,用于解析手写格式的时间和日期。dateutil – Python datetime 模块的扩展。delorean– 解决 Python 中有关日期处理的棘手问题的库。moment – 一个用来处理时间和日期的Python库。灵感来自于Moment.js。PyTime – 一个简单易用的Python模块,用于通过字符串来操作日期/时间。pytz – 现代以及历史版本的世界时区定义。将时区数据库引入Python。when.py – 提供用户友好的函数来帮助用户进行常用的日期和时间操作。

文本处理

用于解析和操作文本的库。

通用chardet – 字符编码检测器,兼容 Python2 和 Python3。difflib – (Python 标准库)帮助我们进行差异化比较。ftfy – 让Unicode文本更完整更连贯。fuzzywuzzy – 模糊字符串匹配。Levenshtein – 快速计算编辑距离以及字符串的相似度。pangu.py – 在中日韩语字符和数字字母之间添加空格。pyfiglet -figlet 的 Python实现。shortuuid – 一个生成器库,用以生成简洁的,明白的,URL 安全的 UUID。unidecode – Unicode 文本的 ASCII 转换形式 。uniout – 打印可读的字符,而不是转义的字符串。xpinyin – 一个用于把汉字转换为拼音的库。Slug化awesome-slugify – 一个 Python slug 化库,可以保持 Unicode。python-slugify – Python slug 化库,可以把 unicode 转化为 ASCII。unicode-slugify – 一个 slug 工具,可以生成 unicode slugs ,需要依赖 Django 。解析器phonenumbers – 解析,格式化,储存,验证电话号码。PLY – lex 和 yacc 解析工具的 Python 实现。Pygments – 通用语法高亮工具。pyparsing – 生成通用解析器的框架。python-nameparser – 把一个人名分解为几个独立的部分。python-user-agents – 浏览器 user agent 解析器。sqlparse – 一个无验证的 SQL 解析器。

特殊文本格式处理

一些用来解析和操作特殊文本格式的库。

通用tablib – 一个用来处理中表格数据的模块。OfficeMarmir – 把输入的Python 数据结构转换为电子表单。openpyxl – 一个用来读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件的库。python-docx – 读取,查询以及修改 Microsoft Word 2007/2008 docx 文件。unoconv – 在 LibreOffice/OpenOffice 支持的任意文件格式之间进行转换。XlsxWriter – 一个用于创建 Excel .xlsx 文件的 Python 模块。xlwings – 一个使得在 Excel 中方便调用 Python 的库(反之亦然),基于 BSD 协议。xlwt / xlrd – 读写 Excel 文件的数据和格式信息。relatorio – 模板化OpenDocument 文件。PDFPDFMiner – 一个用于从PDF文档中抽取信息的工具。PyPDF2 – 一个可以分割,合并和转换 PDF 页面的库。ReportLab – 快速创建富文本 PDF 文档。MarkdownMistune – 快速并且功能齐全的纯 Python 实现的 Markdown 解析器。Python-Markdown – John Gruber’s Markdown 的 Python 版实现。YAMLPyYAML – Python 版本的 YAML 解析器。CSVcsvkit – 用于转换和操作 CSV 的工具。Archiveunp – 一个用来方便解包归档文件的命令行工具。

自然语言处理

用来处理人类语言的库。

NLTK – 一个先进的平台,用以构建处理人类语言数据的 Python 程序。jieba – 中文分词工具。langid.py – 独立的语言识别系统。Pattern – Python 网络信息挖掘模块。SnowNLP – 一个用来处理中文文本的库。TextBlob – 为进行普通自然语言处理任务提供一致的 API。TextGrocery – 一简单高效的短文本分类工具,基于 LibLinear 和 Jieba。

文档

用以生成项目文档的库。

Sphinx – Python 文档生成器。awesome-sphinxdocMkDocs – 对 Markdown 友好的文档生成器。pdoc – 一个可以替换Epydoc 的库,可以自动生成 Python 库的 API 文档。Pycco – 文学编程(literate-programming)风格的文档生成器。

配置

用来保存和解析配置的库。

config – logging 模块作者写的分级配置模块。ConfigObj – INI 文件解析器,带验证功能。ConfigParser – (Python 标准库) INI 文件解析器。profig – 通过多种格式进行配置,具有数值转换功能。python-decouple – 将设置和代码完全隔离。

命令行工具

用于创建命令行程序的库。

命令行程序开发cement – Python 的命令行程序框架。click – 一个通过组合的方式来创建精美命令行界面的包。cliff – 一个用于创建命令行程序的框架,可以创建具有多层命令的命令行程序。clint – Python 命令行程序工具。colorama – 跨平台彩色终端文本。docopt – Python 风格的命令行参数解析器。Gooey – 一条命令,将命令行程序变成一个 GUI 程序。python-prompt-toolkit – 一个用于构建强大的交互式命令行程序的库。生产力工具aws-cli – Amazon Web Services 的通用命令行界面。bashplotlib – 在终端中进行基本绘图。caniusepython3 – 判断是哪个项目妨碍你你移植到 Python 3。cookiecutter – 从 cookiecutters(项目模板)创建项目的一个命令行工具。doitlive – 一个用来在终端中进行现场演示的工具。howdoi – 通过命令行获取即时的编程问题解答。httpie – 一个命令行HTTP 客户端,cURL 的替代品,易用性更好。PathPicker – 从bash输出中选出文件。percol – 向UNIX shell 传统管道概念中加入交互式选择功能。SAWS – 一个加强版的 AWS 命令行。thefuck – 修正你之前的命令行指令。mycli – 一个 MySQL 命令行客户端,具有自动补全和语法高亮功能。pgcli – Postgres 命令行工具,具有自动补全和语法高亮功能。

下载器

用来进行下载的库.

s3cmd – 一个用来管理Amazon S3 和 CloudFront 的命令行工具。s4cmd – 超级 S3 命令行工具,性能更加强劲。you-get – 一个 YouTube/Youku/Niconico 视频下载器,使用 Python3 编写。youtube-dl – 一个小巧的命令行程序,用来下载 YouTube 视频。

图像处理

用来操作图像的库.

pillow – Pillow 是一个更加易用版的 PIL。hmap – 图像直方图映射。imgSeek – 一个使用视觉相似性搜索一组图片集合的项目。nude.py – 裸体检测。pyBarcode – 不借助 PIL 库在 Python 程序中生成条形码。pygram – 类似 Instagram 的图像滤镜。python-qrcode – 一个纯 Python 实现的二维码生成器。Quads – 基于四叉树的计算机艺术。scikit-image – 一个用于(科学)图像处理的 Python 库。thumbor – 一个小型图像服务,具有剪裁,尺寸重设和翻转功能。wand – MagickWand的Python 绑定。MagickWand 是 ImageMagick的 C API 。

OCR

光学字符识别库。

pyocr – Tesseract 和 Cuneiform 的一个封装(wrapper)。pytesseract – Google Tesseract OCR 的另一个封装(wrapper)。python-tesseract – Google Tesseract OCR 的一个包装类。

音频

用来操作音频的库

audiolazy -Python 的数字信号处理包。audioread – 交叉库 (GStreamer + Core Audio + MAD + FFmpeg) 音频解码。beets – 一个音乐库管理工具及 MusicBrainz 标签添加工具dejavu – 音频指纹提取和识别django-elastic-transcoder – Django + Amazon Elastic Transcoder。eyeD3 – 一个用来操作音频文件的工具,具体来讲就是包含 ID3 元信息的 MP3 文件。id3reader – 一个用来读取 MP3 元数据的 Python 模块。m3u8 – 一个用来解析 m3u8 文件的模块。mutagen – 一个用来处理音频元数据的 Python 模块。pydub – 通过简单、简洁的高层接口来操作音频文件。pyechonest – Echo Nest API 的 Python 客户端talkbox – 一个用来处理演讲/信号的 Python 库TimeSide – 开源 web 音频处理框架。tinytag – 一个用来读取MP3, OGG, FLAC 以及 Wave 文件音乐元数据的库。mingus – 一个高级音乐理论和曲谱包,支持 MIDI 文件和回放功能。

Video

用来操作视频和GIF的库。

moviepy – 一个用来进行基于脚本的视频编辑模块,适用于多种格式,包括动图 GIFs。scikit-video – SciPy 视频处理常用程序。

地理位置

地理编码地址以及用来处理经纬度的库。

GeoDjango – 世界级地理图形 web 框架。GeoIP – MaxMind GeoIP Legacy 数据库的 Python API。geojson – GeoJSON 的 Python 绑定及工具。geopy – Python 地址编码工具箱。pygeoip – 纯 Python GeoIP API。django-countries – 一个 Django 应用程序,提供用于表格的国家选择功能,国旗图标静态文件以及模型中的国家字段。

HTTP

使用HTTP的库。

requests – 人性化的HTTP请求库。grequests – requests 库 + gevent ,用于异步 HTTP 请求.httplib2 – 全面的 HTTP 客户端库。treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。urllib3 – 一个具有线程安全连接池,支持文件 post,清晰友好的 HTTP 库。

数据库

Python实现的数据库。

pickleDB – 一个简单,轻量级键值储存数据库。PipelineDB – 流式 SQL 数据库。TinyDB – 一个微型的,面向文档型数据库。ZODB – 一个 Python 原生对象数据库。一个键值和对象图数据库。

数据库驱动

用来连接和操作数据库的库。

MySQL – awesome-mysql系列mysql-python – Python 的 MySQL 数据库连接器。mysqlclient – mysql-python 分支,支持 Python 3。oursql – 一个更好的 MySQL 连接器,支持原生预编译指令和 BLOBs.PyMySQL – 纯 Python MySQL 驱动,兼容 mysql-python。PostgreSQLpsycopg2 – Python 中最流行的 PostgreSQL 适配器。queries – psycopg2 库的封装,用来和 PostgreSQL 进行交互。txpostgres – 基于 Twisted 的异步 PostgreSQL 驱动。其他关系型数据库apsw – 另一个 Python SQLite封装。dataset – 在数据库中存储Python字典 – 可以协同SQLite,MySQL,和 PostgreSQL工作。pymssql– 一个简单的Microsoft SQL Server数据库接口。NoSQL 数据库cassandra-python-driver – Cassandra 的 Python 驱动。HappyBase – 一个为 Apache HBase 设计的,对开发者友好的库。Plyvel – 一个快速且功能丰富的 LevelDB 的 Python 接口。py2neo – Neo4j restful 接口的Python 封装客户端。pycassa – Cassandra 的 Python Thrift 驱动。PyMongo – MongoDB 的官方 Python 客户端。redis-py – Redis 的 Python 客户端。telephus – 基于 Twisted 的 Cassandra 客户端。txRedis – 基于 Twisted 的 Redis 客户端。

ORM

实现对象关系映射或数据映射技术的库。

关系型数据库awesome-sqlalchemy系列Django Models – Django 的一部分。SQLAlchemy – Python SQL 工具以及对象关系映射工具。Peewee – 一个小巧,富有表达力的 ORM。PonyORM – 提供面向生成器的 SQL 接口的 ORM。python-sql – 编写 Python 风格的 SQL 查询。NoSQL 数据库django-mongodb-engine – Django MongoDB 后端。PynamoDB – Amazon DynamoDB 的一个 Python 风格接口。flywheel – Amazon DynamoDB 的对象映射工具。MongoEngine – 一个Python 对象文档映射工具,用于 MongoDB。hot-redis – 为 Redis 提供 Python 丰富的数据类型。redisco – 一个 Python 库,提供可以持续存在在 Redis 中的简单模型和容器。其他butterdb – Google Drive 电子表格的 Python ORM。

Web 框架

全栈 web 框架。

Django – Python 界最流行的 web 框架。awesome-django系列Flask – 一个 Python 微型框架。awesome-flask系列Pyramid – 一个小巧,快速,接地气的开源Python web 框架。awesome-pyramid系列Bottle – 一个快速小巧,轻量级的 WSGI 微型 web 框架。CherryPy – 一个极简的 Python web 框架,...

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP