python3小程序

现在学习python的小伙伴越来越多，对python有兴趣的朋友，可以在平时的生活和工作中多写一点对自己有用或者有趣的小程序来方便自己，同时也能提高自己对python的兴趣和编程能力。

小编所在公司是弹性工作制，因此一到月底就想看看自己的工时还够不够，会不会浪的时间太长导致工时不够被扣工资，如果不够的话还可以趁着月底最后几天抓紧补时长。

那么该怎么写这个脚本呢，主要思路是这样的：首先把你的oa记录填写到一个文件中，然后通过python的strip和split功能将每天的起始打卡时间和最后打卡时间做一个差值，得到每天的分钟数，然后将每天的分钟数相加就是这个月你实际的工作时长，然后跟你需要的时长做对比。

这样做还比较简陋，我们还可以加上一些复杂的情况比如请假，加班，调休等等，这个就因人而异啦。是不是很简单？赶紧动手操作一下吧！

附上我的部分源码：

import time

f = open('G:\pylearn\list.txt')

for line in f.readlines():

a = line.strip().split()

b = a[4]

c = b.split('||')

stime = a[3] + ' ' + c[0]

etime = a[3] + ' ' + c[-1]

sarray = time.strptime(stime, "%Y-%m-%d %H:%M:%S")

earray = time.strptime(etime, "%Y-%m-%d %H:%M:%S")

sstamp = time.mktime(sarray)

estamp = time.mktime(earray)

diff = estamp - sstamp

diffarray

免费干货分享!Python爬虫源代码-pycharm激活码-几十套小程序源码小程序视频课程

单迎夏

Spider又叫WebCrawler或者Robot，是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上，通过给定的一些URL，利用HTTP等标准协议读取相应文档，然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档，为搜索引擎站点的数据库服务器追加和更新数据提供原始数据，这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等。

...

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。

。。。

首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。

然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理;另一方面将下载网页的URL放入已抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复抓取。对于刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列末尾，在之后的抓取调度中会下载这个URL对应的网页。如此这般，形成循环，直到待抓取URL队列为审，这代表着爬虫系统已将能够抓取的网页尽数抓完，此时完成了一轮完整的抓取过程。

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Scrap，是碎片的意思，这个Python的爬虫框架叫Scrapy。

小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架，它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等

Even though Scrapy was originally designed for screen scraping (more precisely， web scraping)， it can also be used to extract data using APIs (such as Amazon Associates Web Services) or as a general purpose web crawler.

尽管小刮刮原本是设计用来屏幕抓取(更精确的说，是网络抓取)的目的，但它也可以用来访问API来提取数据，比如Amazon的AWS或者用来当作通常目的应用的网络蜘蛛

The purpose of this document is to introduce you to the concepts behind Scrapy so you can get an idea of how it works and decide if Scrapy is what you need.

如何开始

当你准备启动一个项目时，可以从这个教程开始

折叠选择网站

选择一个网站

如果你需要从某个网站提取一些信息，但是网站不提供API或者其他可编程的访问机制，那么小刮刮可以帮助你(提取信息)

让我们看下Mininova网站，需要提取的网址，名称，描述和torrent文件的大小、添加日期

下面这个列表是所有今天新增的torrents文件的页面:参考扩展阅读1

备注:torrent是洪流的意思，这里指bit torrent，比特洪流，就是我们常说的BT文件

折叠定义数据

定义你要抓取的数据

第一件事情就是定义你要抓取的数据，在小刮刮这个是通过定义Scrapy Items来实现的(本例是BT文件)

这就是要定义的Item

折叠撰写蜘蛛

撰写一个蜘蛛来抓取数据

Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数:

urllib.urlopen()方法用于打开一个URL地址。

read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

下一步是写一个指定起始网址的蜘蛛(参考扩展阅读1)，包含follow链接规则和数据提取规则

如果你看一眼页面内容，就会发现所有的torrent网址都是类似:参考扩展阅读2的样子，其中Number是一个整数，我们将用正则表达式，例如/tor/d+.来提取规则

我们将使用Xpath，从页面的HTML Source里面选取要要抽取的数据，选取众多数据页面中的一个，例如参考阅读3

根据页面HTML 源码，建立XPath，选取:torrent name， description ， size，这些数据。

运行蜘蛛来抓取数据

最后，我们运行蜘蛛来爬取这个网站，输出为json格式scraped_data.json

scrapy crawl 参考阅读4 -o scraped_data.json -t json

这个使用了feed exports，来生成json格式，当然，你可以很简单的更改输出格式为csv，xml，或者存储在后端(ftp或者Amazon S3)

你也可以写一段item pipeline，把数据直接写入数据库，很简单

Review一下抓取的数据

查看一下数据:scraped_data.json，内容大致如下

[{"url": "参考阅读2"， "name": ["Home[2009][Eng]XviD-ovd"]， "description": ["HOME - a documentary film by ..."]， "size": ["699.69 megabyte"]}， # ... other items ... ]

关注一下数据，你会发现，所有字段都是lists(除了url是直接赋值)，这是因为selectors返回的就是lists格式，如果你想存储单独数据或者在数据上增加一些解释或者清洗，可以使用Item Loaders

折叠更多

你也看到了如何使用小刮刮从一个网站提取和存储数据，但，这只是表象，实际上，小刮刮提供了许多强大的特性，让它更容易和高效的抓取:

1>内建 selecting and extracting，支持从HTML，XML提取数据

2>内建Item Loaders，支持数据清洗和过滤消毒，使用预定义的一个过滤器集合，可以在所有蜘蛛间公用

3>内建多格式generating feed exports支持(JSON， CSV， XML)，可以在后端存储为多种方式(FTP， S3， local filesystem)

4>针对抓取对象，具有自动图像(或者任何其他媒体)下载automatically downloading images的管道线

5>支持扩展抓取extending Scrap，使用signals来自定义插入函数或者定义好的API(middlewares， extensions， and pipelines)

所有文件已经打包，直接提取。

至于所谓的关注问题，随大家的便，想关注加就关注。我不需要说关注后才给大家连接，现在的头条根本不能赚钱，除非有几十万的粉丝。

我只是分享一些自认为有用的干货，满足一下知识传播者的成就感。

—————————————————————————————————————

欢迎大家一起留言讨论和交流，谢谢！

怎么样都要学几个python的简单小程序小程序视频课程

大悦

虹之菌BUG之前在学Python的时候，参考书上或网上的代码写了几个小程序，发出来算个学习笔记，也请朋友们帮着给找找代码中错误和不严谨的地方。

一、一个简单的下载程序

用过Curl后觉得它的下载功能很帅，命令行下的，就想用Python也来写一个命令行下的下载程序。

其实用Python实现下载文件的功能很简单，用urllib模块中的urlretrieve()函数就可以了。

url是要下载文件的URL地址，frlename是文件下载后保存时的文件名，reporthook是显示下载进度的，data还不知道是干什么的。除了url参数外，另外3个参数好像都可以省略。

把代码保存为文件filedown.py。程序需要输入两个参数，一个是要下载文件的URL地址，一个是文件下载后保存时的文件名。来下载个文件测试下程序的功能。要下载的文件我挑了个比较小的——小Q书桌的安装文件（用的移动CMCC的网络，现在是周五晚上，网速很慢，只能挑个小文件来做测试了）下载后的保存文件名QDeskSetup_25_1277.exe。打开命令提示符，切换到文件filedown.py所在的目录，输入如下命令：

回车后就开始下载文件了，下载过程中程序会动态显示已经下载的文件的大小和已经完成的百分比。

来到文件filedown.py所在的目录C:\pycode2\下，发现文件QDeskSetup_25_1277.exe已经下载好了，双击运行，程序一切正常，说明程序可以完成下载文件的功能。但那个完成进度的100.08%不知道是怎么算出来的，太刺眼，要改。另外，程序好像还缺了一个常见下载程序都有的功能一一显示实时下载速度。

把代码保存为文件filedown ver4.py。这次程序加入了显示下载速度的功能，还增加了可以手工中断正在下载的文件的功能。还是来测试下程序的功能。

回车后程序显示能显示下载速度了。

不过原来的问题解决了，新的问题又来了。

同样的机子，下载同样的文件，修改后的程序用了75.140秒，而原来的程序只用了10.969秒，说明修改后的程序下载文件的速度严重变慢了。什么原因造成的呢？我一时没找到答案，考虑过是不是加入的显示文件下载速度和下载百分比的代码执行是不是比较占用CPU，下载的时候特意看了一下任务管理器中CPU的情况，结果发现CPU使用率不高，看来不是这个原因。知道怎么回事的朋友欢迎指教。

二、计算文件的SHA1值

从网上下载了几个号称MSDN原版的Windows操作系统的安装镜像，想在虚拟机里安装几个原版系统玩玩。但下载后还有点不放心，担心文件有被修改过。于是就想验证下下载的镜像文件的哈希值。MSDN官方网站上已经给出了镜像文件的SHA1值，比如我下载的网站上给出的文件的SHA1值为2CEOB2DB34D76ED3F697CE148CB7594432405E23。如果下载的文件的SHA1值也是2CEOB2DB34D76ED3F697CE148CB7594432405E23，说明文件没被修改，可以放心使用。

计算文件的SHA1值有很多工具，但手头有Python，能少用一个第三方软件就少用一个，就考虑用Python写个计算文件SHA1值的小程序。

先上网上搜索了下相关代码，网上已经有了。网上的代码用的是hashlib模块中的shal()函数来计算SHA1值。为了处理大文件，所以需要使用shal()函数的update()方法。

一看就懂的python小程序-支持多线程聊天实例小程序视频课程

离不开

在上一篇文章中，也分享了一个在python下使用socket来进行通讯的实例，不过那个实例是单线程的，也就是说服务器端和客户端是一对一的，如果客户端不止一个的话，第二个客户端同时执行的话，会导致线程阻塞，也就是会卡住。不过上一个分享的实例也是为了大家先知道python下的socket通讯是怎样的，我觉得那样可能会先让大家容易理解。

这次我给大家带来的还是python中socket相关的一个小程序实例，不过此次不是单线程的了，而是socket多线程通讯的实例，客户端基本上不变，依然可以沿用上一篇文章中的那个客户端的程序，只需要修改一下端口即可。

废话就不多说了，先展示程序实现的效果：

多线程socket服务端的效果：

多线程socket服务端接收3个客户端发送过来的信息并处理

客户端发送的信息，以及服务端将信息处理后返回的信息效果：

客户端a

客户端b

客户端c

下面会把服务端和客户端的程序截图出来，程序里已经有详细的注释，方便大家理解。

多线程socket通讯服务端代码：

socket服务端

客户端代码：

socket客户端

Python实现微信功能全自动化，微信小程序不能给的Python实现！小程序视频课程

绮梅

Python应用于微信二次开发实战。背景：

itchat仓库：

1、步骤分析

1、被添加微信好友，过滤掉关键词，看是否包含Py（可设置其它），Python 字眼，如果包含，通过请求，并添加一句欢迎的话术；

2、python代码实现

Python源码：

运行结果：

知道其API并调用即可。

然后变写Python代码实现下，先是定义一个获取群聊ID的函数：

完整的Python微信二次开发所有源码：

def get_group_id(group_name):group_list = itchat.search_chatrooms(name=group_name) return group_list[0]['UserName']if __name__ == '__main__':count = 0Timer(1800, loop_send).start()itchat.auto_login(enableCmdQR=2, hotReload=True)itchat.run()

其实说到底就是个Python开发的微信机器人，方便我们进行管理！

Python小程序你会吗，这里准备了19个给你练习的实战操作小程序视频课程

醉红尘

对于各种刚入门的python小白新手必定存在这样的烦恼！找不到好的资源和自己能够测验入手的项目（题），今日呢就给大家准备了19个很容易上手而又能够让你们全方位得到提高的Python小程序！

首先说一下，需要开发工具的和清晰学习路线图以及入门教程的，可以在本号置顶的一篇文章《Python进门不对真的可以走火入魔，学习路线大图奉上！》里获得，到了那里，需要什么~

需要开发工具的和清晰学习路线图以及入门教程的，可以在本号置顶的一篇文章《Python进门不对真的可以走火入魔，学习路线大图奉上！》里获得

特色：

1、创立

实例：

basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'} # 用花括号的方法创立一个调集set2 = set('abracadabra') # 用set()的方法创立一个调集set3 = set() # 创立一个空的调集print(basket)

仔细对照一下，你会发现，主动去除了重复，值得一提的是显现的次序并不表明Sets是有序的

经过add(key)方法能够增加元素到set中，能够重复增加，但不会有作用：

basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'} # 用花括号的方法创立一个调集print('本来的basket：', basket)basket.add('apple') # 增加一个重复的print('增加一个重复项后：', basket)basket.add('watermelon') # 增加一个不重复的print('增加一个不重复项后：', basket)

以上代码，输出：

本来的basket： {'apple', 'banana', 'pear', 'orange'}增加一个重复项后： {'apple', 'banana', 'pear', 'orange'}增加一个不重复项后： {'banana', 'apple', 'watermelon', 'orange', 'pear'}