Python 合并多个TXT文件并统计词频的实现 - IT知识教程 - 中企动力

登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

网站建设 IT知识 IT知识教程 Python 合并多个TXT文件并统计词频的实现

Python 合并多个TXT文件并统计词频的实现

2021-05-22 21:23:04

需求是：针对三篇英文文章进行分析，计算出现次数最多的 10 个单词

逻辑很清晰简单，不算难，使用 python 读取多个 txt 文件，将文件的内容写入新的 txt 中，然后对新 txt 文件进行词频统计，得到最终结果。

代码如下：(在Windows 10，Python 3.7.4环境下运行通过)

# coding=utf-8import reimport os# 获取源文件夹的路径下的所有文件sourceFileDir = 'D:\\Python\\txt\\'filenames = os.listdir(sourceFileDir)# 打开当前目录下的 result.txt 文件，如果没有则创建# 文件也可以是其他类型的格式，如 result.jsfile = open('D:\\Python\\result.txt', 'w')# 遍历文件for filename in filenames: filepath = sourceFileDir+'\\'+filename # 遍历单个文件，读取行数，写入内容 for line in open(filepath): file.writelines(line) file.write('\n')# 关闭文件file.close()# 获取单词函数定义def getTxt(): txt = open('result.txt').read() txt = txt.lower() txt = txt.replace(''', '\'') # !"@#$%^&*()+,-./:;<=>?@[\\]_`~{|} for ch in '!"'@#$%^&*()+,-/:;<=>?@[\\]_`~{|}': txt.replace(ch, ' ') return txt# 1.获取单词hamletTxt = getTxt()# 2.切割为列表格式，'' 兼容符号错误情况，只保留英文单词txtArr = re.findall('[a-z\''A-Z]+', hamletTxt)# 3.去除所有遍历统计counts = {}for word in txtArr: # 去掉一些常见无价值词 forbinArr = ['a.', 'the', 'a', 'i'] if word not in forbinArr: counts[word] = counts.get(word, 0) + 1# 4.转换格式，方便打印，将字典转换为列表，次数按从大到小排序countsList = list(counts.items())countsList.sort(key=lambda x: x[1], reverse=True)# 5. 输出结果for i in range(10): word, count = countsList[i] print('{0:<10}{1:>5}'.format(word, count))

效果如下图：

另一种更简单的统计词频的方法：

# coding=utf-8from collections import Counter# words 为读取到的结果 listwords = ['a', 'b' ,'a', 'c', 'v', '4', ',', 'w', 'y', 'y', 'u', 'y', 'r', 't', 'w']wordCounter = Counter(words)print(wordCounter.most_common(10))# output: [('y', 3), ('a', 2), ('w', 2), ('b', 1), ('c', 1), ('v', 1), ('4', 1), (',', 1), ('u', 1), ('r', 1)]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

多个TXT文件该怎么合并成一个txt?

有时需要需要合并多个TXT文件进行汇总分析出来，如何快速的实现多个文件的合并呢？1、将需要合并的多个TXT文件复制到同一文件夹下，如果文件的顺序是重要的，注意按

Python实现统计英文文章词频的方法分析

本文实例讲述了Python实现统计英文文章词频的方法。分享给大家供大家参考，具体如下：应用介绍：统计英文文章词频是很常见的需求，本文利用python实现。思路分

python实现文本文件合并

python合并文本文件示例代码。python实现两个文本合并employee文件中记录了工号和姓名catemployee.txt:100JasonSmith2

python利用多种方式来统计词频（单词个数）

python的思维就是让我们用尽可能少的代码来解决问题。对于词频的统计，就代码层面而言，实现的方式也是有很多种的。之所以单独谈到统计词频这个问题，是因为它在统计

python合并文本文件示例

python实现两个文本合并employee文件中记录了工号和姓名复制代码代码如下:catemployee.txt:100JasonSmith200JohnDo

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）All Rights Reserved

京公网安备11030102010293号京ICP证010249-2

代理域名注册服务机构：中网瑞吉思（天津）科技有限公司北京新网数码信息技术有限公司

域名注册服务机构许可证编号：京D3-20220007

中企动力域名投诉处理：400-660-5555-9 service4006@300.cn

中国互联网络信息中心（受理范围：“.CN”和“.中国”域名）投诉处理 010-58813000 service@cnnic.cn

7 x 24

全国售后支持
100 倍

故障时长赔付
26 年

26年行业服务经验
70 家

全国售后支持
1600+ 名

超千人的设计、研发团队
150 万

服务企业客户150万家

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）版权所有京公网安备11030102010293号京ICP证010249-2

在线咨询

建站在线咨询

获取方案

获取建站报价/方案

我们联系您

微信咨询

扫一扫添加
动力姐姐微信

TOP