本月的每月挑战会主题是NLP,我们会在本文帮你开启一种可能:使用pandas和python的自然语言工具包分析你Gmail邮箱中的内容。
NLP-风格的项目充满无限可能:
- 情感分析是对诸如在线评论、社交媒体等情感内容的测度。举例来说,关于某个话题的tweets趋向于正面还是负面的意见?一个新闻网站涵盖的主题,是使用了更正面/负面的词语,还是经常与某些情绪相关的词语?这个“正面”的Yelp点评不是很讽刺么?(祝最后去的那位好运!)
- 分析语言在文学中的使用,进而衡量词汇或者写作风格随时间/地区/作者的变化趋势.
- 通过识别所使用的语言的关键特征,标记是否为垃圾内容。
- 基于评论所覆盖的主题,使用主题抽取进行相似类别的划分。
- 通过NLTK's的语料库,应用Elastisearch和WordNet的组合来衡量Twitter流API上的词语相似度,进而创建一个更好的实时Twitter搜索。
- 加入NaNoGenMo项目,用代码生成自己的小说,你可以从这里大量的创意和资源入手。
将Gmail收件箱加载到pandas
让我们从项目实例开始!首先我们需要一些数据。准备你的Gmail的数据存档(包括你最近的垃圾邮件和垃圾文件夹)。
https://看下前面的展示,以找到更多的灵感!