python自带数据集

大数据文摘作品

作者：龙牧雪

2017年3月，数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购，点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》，当时双方均未透露收购细节和未来计划。接近一年过去了，Kaggle在做什么？

Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据，让全世界的统计师和数据科学家对数据集进行建模和分析，以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于，让人们有可能从无穷无尽的建模方法中，寻找到最优解。

目前在竞赛模式上，除了面向大众的竞赛，Kaggle还推出了免费的InClass模式，方便高校教师和学生在Kaggle平台上完成随堂练习。

最近，大数据文摘也观察到，Kaggle首页新增了一个Learn板块（也免费！），主打动手学数据科学（Hands-On Data Science Education），似乎在向竞赛+学习平台方向转型。

Kaggle Learn版块地址：

https://kaggle/learn

1月22日，Kaggle联合创始人Anthony Goldbloom发表了一篇博客，宣布2018年将为Kaggle平台添加新的教育资源，致力于将Kaggle社区从主要关注机器学习竞赛扩展到更广泛的数据科学和机器学习平台，希望借由比赛、公开数据集平台和Kaggle Kernels，最终让Kaggle成为可以完成一切数据科学和机器学习活动的地方。

2017年Kaggle活跃用户从2016年的471K增加到895K

大数据文摘摘录了博客中透露的部分Kaggle 2018年计划：

比赛：2018年，我们计划开始支持新的竞赛类型，以确保我们能够支持处于机器学习和人工智能领域前沿的问题。要做到这一点，我们的目标是更好地支持代码竞赛（通过Kaggle上传代码而不是解决方案文件）。这将使我们能够举办新类型的比赛，包括强化学习比赛和有计算限制的比赛。公共数据集平台：在2018年，我们希望除了因机器学习比赛而闻名之外，我们也能以公开数据集平台闻名。为此，我们需要继续增加Kaggle上高质量数据集的数量。我们正在计划整合和添加服务，使我们的社区能够通过与像BigQuery这样的数据仓库的集成来处理更大的数据集，并增加允许在实时数据集中流式传输的功能，而不仅仅是上传静态数据集。Kaggle内核（Kernels）：Kaggle内核目前最主要用于共享模型，以及分析公开数据集平台上的数据。在2018年，我们希望将Kaggle Kernels建设成为一个强大的独立产品，包括让Kagglers能够使用Kaggle内核与他们自己的私有数据集，访问GPU并支持更复杂的通道。Kaggle学习：许多用户从Kaggle开始他们的数据科学事业。为了更好地支持我们社区的这一部分，我们在https://kaggle/learn上推出了机器学习实践课程平台。我们希望它能够辅助用户创建高度精确的机器学习模型，并帮助他们快速get所需技能，以帮助他们找到第一个数据科学工作。

今天，文摘菌就带大家来实地测评一下Kaggle新上线的机器学习实践课程平台。

整个学习版块又分为4个模块：机器学习、R语言、数据可视化、深度学习。

强调实践和动手

Kaggle的课程介绍页显示，这个免费的在线课程适用于那些现在想开始学习数据科学和机器学习的人。你会花更多的时间来编写代码，而不是阅读它。你将了解必须的理论背景，以便做出良好的建模决策，但这些课程不会在阅读历史背景方面浪费你的时间——那不会帮助你成为一名能实际工作的数据科学家。

讲师选择

在讲师的选择上，也能看出Kaggle不强调理论背景，而是强调实践。三位课程制作者Dan Becker、Aleksey Bilogur和Rachael Tatman各自的履历中似乎都没有特别强调计算机或统计背景，其中Rachael Tatman更是本科学习英语专业、之后直博语言学专业。简直666666！

FAQ

我们将用到什么语言，为什么选择他们？

除了R语言模块之外，所有东西都用Python。哪种语言适合你？互联网充斥着语言选择的辩论。但是和与你合作的人用同一种语言是很有价值的。 Python是数据科学中最受欢迎的语言，R是第二大流行语言。所以我们推荐R和Python，且更倾向于Python。

我需要提前了解多少Python？

你应该熟悉变量，列表，字典，函数和循环。如果你想学习Python入门知识，我们强烈推荐Codecademy上的Learn Python系列。学完他们的第1-8节课，你将可以学习Kaggle机器学习课程。他们也有被称为pro的付费课，但是你不需要这些材料就可以在Kaggle上学习机器学习系列。

机器学习模块

下面，就让文摘菌带大家看看机器学习模块都有哪些内容：

模块分为2个等级，共15门细分课程。

等级1

模型是什么

开始你的机器学习项目

用Pandas选择和筛选数据

跑第一个模型

模型验证

欠拟合、过拟合和模型最优化

随机森林

在比赛中做提交

等级2

处理缺失数据

使用分类数据

XGBoost梯度提升

部分相关性画图

Scikit-Learn流程

交叉验证

数据泄露

让我们先来看看等级1的第一课：模型是什么。

打开课程页面之后，我们发现，课程以内嵌的Notebook方式呈现。第一课并未涉及代码，只是介绍了决策树模型。浏览完整个Notebook，也就完成了该部分课程。简直so easy！

第二课就涉及代码了。我们需要Fork讲师提供的Notebook，进入自己的编程环境。

点一下Fork，我们就进入到自己的Notebook里啦。Fork的作用是让我们复制了讲师提供的代码到自己的Notebook。

在自己的Notebook里，我们可以看到一个个代码块。代码块有2种模式可以选择：Markdown和Code。例如，在这张图里，你所看到的“Introduction”和下面的文字就是Markdown格式，Markdown方便我们展示文字。而“Write Your Code Below”下面则是Code格式，可以直接运行代码喔。我们也可以选择隐藏该代码块、在上方或下方插入新的代码块、运行代码块。和Jupyter Notebook的操作方式一致哦。

完成代码之后，我们可以下载Notebook到本地，也可以点击Publish提交，提交后的界面是一个HTML页面。

不过，我们无需担心隐私问题，因为之前选择的是“Private”模式的Notebook，提交之后，也只会显示在个人的Kernel里，只有自己能看到。

所有写过的代码也不会丢失，会在自己的Kernel下面汇总，点开后仍然可以再次编辑该Notebook。这个功能文摘菌觉得很是方便。

如果你选择公开展示Notebook，其他小伙伴也可以给你评论。

文摘菌也发现了一个提问的好地方：learn forum论坛。不过目前看来，论坛并不活跃，一个话题下通常只有一个留言。也许是大家觉得这一切都太小case了(O_O)?

就目前的课程内容来说，Kaggle推出的Learn版块所教授的内容并不深入，但是其友好的界面和动手环境非常适合数据科学与机器学习初学者。对于有代码恐惧症的童鞋（比如文摘菌）来说，这是个入门数据科学领域的好机会！如果能一步步跟着教程学下来，相信各位童鞋会对机器学习、数据可视化等领域的基本概念和基础模型有所了解，同时也将有机会敲下自己人生中的第一行代码。

正在学习的小伙伴们，举起手来让我看到~

素材来源：

http://blog.kaggle/2018/01/22/reviewing-2017-and-previewing-2018/

Python这么吊？谁给他的自信！史上最全进阶资料合集！数据库等等营销视频课程

新之

Python都说是最容易的编程语言！因为他少了很多的底层知识，可以借用很多的库和模块来实现自己的功能！虽说入门对于有编程语言的人来讲是比较容易入门，但是完全没有基础的人来讲，多少就有点难了，只是说比学其他编程语言来讲没有那么繁琐！

他可以直接拿着就上手用，但是到了进阶的高级进阶来讲就会有些难度！因为他要直接代用一些库和模块，如果是零基础的你来讲，基础知识不扎实的话是学不会的，异步IO是什么？数据库干什么用的？这些东西都会在本章讲叙到！希望大家能通过此篇来更加深入的学好Python，

IT行业月薪过万不是目标，这对于IT行业来讲完全不是事，特别是近两年火起来的Python，北上深这些一线城市，只要你能开发几个项目，15K的薪资是很容易就能拿到的！好了，废话了半天，进入咱们的主题环节！如若你看不懂此篇那么就要加深自己的基础知识。

！

Gevent

Gevent 是一个第三方库，可以轻松通过gevent实现并发同步或异步编程，在gevent中用到的主要模式是Greenlet, 它是以C扩展模块形式接入Python的轻量级协程。 Greenlet全部运行在主程序操作系统进程的内部，但它们被协作式地调度。

通过gevent实现单线程下的多socket并发

server side

Protocols

Protocols描述了如何以异步的方式处理网络中的事件。HTTP、DNS以及IMAP是应用层协议中的例子。Protocols实现了IProtocol接口，它包含如下的方法：

makeConnection 在transport对象和服务器之间建立一条连接connectionMade 连接建立起来后调用dataReceived 接收数据时调用connectionLost 关闭连接时调用

步骤三：

使用 ORM/Schema Type/SQL Expression Language/Engine/ConnectionPooling/Dialect 所有组件对数据进行操作。根据类创建对象，对象转换成SQL，执行SQL。

著作权归作者所有，如有侵权请联系小编删除！

最全知乎专栏合集：python、爬虫、数据分析、挖掘、ML、NLP、DL 流量视频课程

Ge2001

上一篇文章《爬取11088个知乎专栏，打破发现壁垒》里提到，知乎官方没有搜素专栏的功能，于是我通过爬取几十万用户个人主页所专注的专栏从而获取到11088个知乎专栏。

本回筛选出其中涉及：编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等关键词的专栏，按照排名、关注人数、专栏名称、专栏简介等顺序，罗列出史上最全专栏合集，以供大家顺藤摸瓜、前去观摩和学习。

筛选出来的专栏数据和全部11088个专栏数据，评论区有获取方式。对其他主题的专栏感兴趣的可自行去搜寻，有兴致搞出个“专栏”搜索功能的小伙伴也可以尝试下！

另外已开始对11088个专栏里的数据进行进一步爬取，之后会继续相关分析和资源分享。

TOP29系列，1万+关注：

No.1, 157960, 数据冰山, https://zhuanlan.zhihu/hemingke

（No.2, 112088，学习编程，莫道君行早，更有早行人。全心敲代码，天道自酬勤）（不小心漏了TOP2专栏，简直蠢哭）

No.2, 62106, 行为与认知神经科学, https://zhuanlan.zhihu/ibrain

No.3, 50136, 机器之心, https://zhuanlan.zhihu/jiqizhixin

No.4, 37234, 企业分析, https://zhuanlan.zhihu/company-research

No.5, 35642, 挖掘知乎里有趣的东西, https://zhuanlan.zhihu/grapeot

No.6, 34389, 智能单元, https://zhuanlan.zhihu/intelligentunit

No.7, 31283, Python中文社区, https://zhuanlan.zhihu/zimei

No.8, 28949, Python之美, https://zhuanlan.zhihu/python-cn

No.9, 24053, 地图、地理与区域, https://zhuanlan.zhihu/geo-space

No.10, 21719, Moneycode, https://zhuanlan.zhihu/ricequant

No.11, 21586, vn.py, https://zhuanlan.zhihu/vn-py

No.12, 21581, 黑客与画家, https://zhuanlan.zhihu/hacker-and-painter

No.13, 21522, 面向工资编程, https://zhuanlan.zhihu/auxten

No.14, 21042, 编程语言与高级语言虚拟机杂谈（仮）, https://zhuanlan.zhihu/hllvm

No.15, 18786, 深度学习大讲堂, https://zhuanlan.zhihu/dlclass

No.16, 17957, BitTiger.io, https://zhuanlan.zhihu/bittiger

No.17, 16257, 一起学习python网络爬虫, https://zhuanlan.zhihu/gooseeker

No.18, 15751, 数据分析侠, https://zhuanlan.zhihu/dataman

No.19, 14847, 做游戏，学编程（C语言）, https://zhuanlan.zhihu/c2game

No.20, 14792, 数据时光机, https://zhuanlan.zhihu/washu

No.21, 12908, 不宜公开, https://zhuanlan.zhihu/xiaoliangshan

No.22, 12606, Jiang的金融窝, https://zhuanlan.zhihu/quantjiang

No.23, 12131, 无痛的机器学习, https://zhuanlan.zhihu/hsmyy

No.24, 11635, 新一线城市研究所, https://zhuanlan.zhihu/therisinglab

No.25, 11629, Crossin的编程教室, https://zhuanlan.zhihu/crossin

No.26, 11012, 一个数据分析师的自我修养, https://zhuanlan.zhihu/data-analyst-improvement

No.27, 10932, Hello 陈然！, https://zhuanlan.zhihu/chenran

No.28, 10619, 爬虫之从入门到精通, https://zhuanlan.zhihu/pachong

No.29, 10254, Data Science with R&Python, https://zhuanlan.zhihu/rdatamining

5千+关注：

No.30, 9969, 集智, https://zhuanlan.zhihu/c_81843036

No.31, 9127, PRML, https://zhuanlan.zhihu/prml-paper-reading

No.32, 8568, 量化哥, https://zhuanlan.zhihu/uqer2015

No.33, 8515, AI学人, https://zhuanlan.zhihu/aixueren

No.34, 8114, 数据驱动业务增长, https://zhuanlan.zhihu/growingio

No.35, 7820, 前端周刊, https://zhuanlan.zhihu/feweekly

No.36, 7790, Analytics at Work, https://zhuanlan.zhihu/analyticsatwork

No.37, 7745, R语言中文社区, https://zhuanlan.zhihu/rshequ

No.38, 6957, Python 与机器学习, https://zhuanlan.zhihu/carefree0910-pyml

No.39, 6944, 超智能体, https://zhuanlan.zhihu/YJango

No.40, 6842, 大数据分析挖掘, https://zhuanlan.zhihu/hellobi

No.41, 6823, 技术备忘录, https://zhuanlan.zhihu/mathNote

No.42, 6775, Hic Rhodus, hic salta, https://zhuanlan.zhihu/HicRhodushicsalta

No.43, 6753, 机器学习算法与自然语言处理, https://zhuanlan.zhihu/qinlibo-ml

No.44, 6700, 科技蟹, https://zhuanlan.zhihu/kejixie

No.45, 6641, 某熊的全栈之路, https://zhuanlan.zhihu/wxyyxc1992

No.46, 6559, 风险狗的数据分析之路, https://zhuanlan.zhihu/loan-analytics

No.47, 6328, Joe's Studio & Cafe, https://zhuanlan.zhihu/hijoe

No.48, 6222, 菜鸟学数据挖掘, https://zhuanlan.zhihu/datanalysis

No.49, 5438, Python之禅, https://zhuanlan.zhihu/pythoneer

No.50, 5391, 混沌巡洋舰, https://zhuanlan.zhihu/c_29122335

No.51, 5241, R语言数据分析与可视化, https://zhuanlan.zhihu/EasyCharts-R

No.52, 5224, 数据分析网, https://zhuanlan.zhihu/afenxi

No.53, 5218, Python高薪训练营, https://zhuanlan.zhihu/c_111369541

No.54, 5171, 福山·雅·致, https://zhuanlan.zhihu/heziyin

No.55, 5100, 晓雷机器学习笔记, https://zhuanlan.zhihu/xiaoleimlnote

No.56, 5072, AI Insight, https://zhuanlan.zhihu/ai-insight

No.57, 5064, PYTHON挖掘机, https://zhuanlan.zhihu/python-excavator

No.58, 5051, Hello, Flask!, https://zhuanlan.zhihu/flask

1千+关注：

No.59, 4882, 机器学习 & 金融量化分析, https://zhuanlan.zhihu/jjscience

No.60, 4754, 自学游戏开发, https://zhuanlan.zhihu/studygame

No.61, 4674, 前端之巅, https://zhuanlan.zhihu/qianduanzhidian

No.62, 4609, 集智·人工智能招聘, https://zhuanlan.zhihu/qiuneitui

No.63, 4600, Python爬虫实战, https://zhuanlan.zhihu/pythoncrawl

No.64, 4566, Python Hacker, https://zhuanlan.zhihu/python-hacker

No.65, 4494, 炼丹实验室, https://zhuanlan.zhihu/easyml

No.66, 4445, LeanReact, https://zhuanlan.zhihu/leanreact

No.67, 4410, 深度炼丹, https://zhuanlan.zhihu/c_94953554

No.68, 4217, 简快Excel之PowerBI建模分析, https://zhuanlan.zhihu/leigongzi

No.69, 4132, [运筹帷幄]大数据和人工智能时代下的运筹学, https://zhuanlan.zhihu/operations-research

No.70, 4067, 深度学习:从入门到放弃, https://zhuanlan.zhihu/startdl

No.71, 4001, 天善智能, https://zhuanlan.zhihu/tianshansoft

No.72, 3937, 数据化管理, https://zhuanlan.zhihu/dataware

No.73, 3934, 开始学习机器人, https://zhuanlan.zhihu/learn-robotics

No.74, 3886, 强化学习知识大讲堂, https://zhuanlan.zhihu/sharerl

No.75, 3796, 浅墨的游戏编程, https://zhuanlan.zhihu/game-programming

No.76, 3747, 莫烦, https://zhuanlan.zhihu/morvan

No.77, 3745, 高中文综实验室, https://zhuanlan.zhihu/liberart-Lab

No.78, 3738, Data Science, https://zhuanlan.zhihu/gongwenjia

No.79, 3685, 建筑可视化设计, https://zhuanlan.zhihu/uzing

No.80, 3673, MySQL, https://zhuanlan.zhihu/mysql

No.81, 3599, 备战考研, https://zhuanlan.zhihu/SunLifeDreamer

No.82, 3590, Python程序员, https://zhuanlan.zhihu/pythoncxy

No.83, 3575, 从零开始写Python爬虫, https://zhuanlan.zhihu/Ehco-python

No.84, 3564, 灵的随笔记, https://zhuanlan.zhihu/ZeitMark

No.85, 3532, 萌新的学习日记, https://zhuanlan.zhihu/linjichu

No.86, 3526, 李彬教你考注会, https://zhuanlan.zhihu/c_77735210

No.87, 3517, 钢笔爱好者, https://zhuanlan.zhihu/v2bber

No.88, 3449, 管中窥豹, https://zhuanlan.zhihu/whiteheart

No.89, 3402, 智能水桶, https://zhuanlan.zhihu/smartspew

No.90, 3399, 数据是个锤子, https://zhuanlan.zhihu/datahammer

No.91, 3346, Python学习之路, https://zhuanlan.zhihu/python-kivy

No.92, 3302, 数据分析师的成长之路, https://zhuanlan.zhihu/datamap

No.93, 3221, Runtime, https://zhuanlan.zhihu/chenjiadong

No.94, 3220, 点点墨, https://zhuanlan.zhihu/junmo520

No.95, 3202, TOMsInsight, https://zhuanlan.zhihu/tomsinsight

No.96, 3170, 什么值得爬, https://zhuanlan.zhihu/c_80099524

No.97, 3118, 半个量化交易员, https://zhuanlan.zhihu/semi-quant-trader

No.98, 3104, 日积跬步, https://zhuanlan.zhihu/improve365

No.99, 3102, gluon, https://zhuanlan.zhihu/gluon

No.100, 3071, 蛇之魅惑, https://zhuanlan.zhihu/python-dev

No.101, 3058, Linux, https://zhuanlan.zhihu/LearningLinux

No.102, 3050, 马志峰的编程笔记, https://zhuanlan.zhihu/mazhifeng

No.103, 3036, DT新纪元, https://zhuanlan.zhihu/dteratech

No.104, 3012, 原点实验室, https://zhuanlan.zhihu/cndatalab

No.105, 2912, 分布式笔记, https://zhuanlan.zhihu/b-tree

No.106, 2876, 2gua的编程生活, https://zhuanlan.zhihu/guagua

No.107, 2827, 写点Python, https://zhuanlan.zhihu/something-python

No.108, 2811, 撩撩数据吧, https://zhuanlan.zhihu/jiago

No.109, 2805, 非凸优化学习之路, https://zhuanlan.zhihu/optimization

No.110, 2786, Revit 专栏, https://zhuanlan.zhihu/RevitForum

No.111, 2755, VV Data Science, https://zhuanlan.zhihu/vieplivee

No.112, 2740, DαΓαSciεηce, https://zhuanlan.zhihu/datascience

No.113, 2700, 友盟专栏, https://zhuanlan.zhihu/umeng

No.114, 2685, 无人机日常, https://zhuanlan.zhihu/uavsdaily

No.115, 2668, 有意思的数据挖掘, https://zhuanlan.zhihu/data-mining

No.116, 2668, DT财经, https://zhuanlan.zhihu/dtcaijing

No.117, 2654, 人工智能学习笔记, https://zhuanlan.zhihu/c_80412427

No.118, 2553, Still的数据分析笔记, https://zhuanlan.zhihu/DataScientist

No.119, 2548, 人工智能应用系列, https://zhuanlan.zhihu/ai4application

No.120, 2464, 清雨的 Data Science 笔记, https://zhuanlan.zhihu/TsingJyuData

No.121, 2396, 帆软数据应用研究院, https://zhuanlan.zhihu/fanruan

No.122, 2383, 数据黑板, https://zhuanlan.zhihu/data-factory

No.123, 2299, 诸葛io, https://zhuanlan.zhihu/zhugeio

No.124, 2255, golang数据结构内部实现, https://zhuanlan.zhihu/goroutine

No.125, 2236, 数据可视化, https://zhuanlan.zhihu/datavis

No.126, 2206, Python高手之路, https://zhuanlan.zhihu/mingxinglai

No.127, 2181, Excel图表之道, https://zhuanlan.zhihu/ExcelPro

No.128, 2162, 设计与人工智能, https://zhuanlan.zhihu/designintelligence

No.129, 2157, 机器人开发的那些事, https://zhuanlan.zhihu/c_32667517

No.130, 2145, 不动点高校现充部, https://zhuanlan.zhihu/fixpoint-high-school

No.131, 2144, Swift, https://zhuanlan.zhihu/swift

No.132, 2132, 大数据技术与实践, https://zhuanlan.zhihu/hadoop

No.133, 2121, 缪斯夫人, https://zhuanlan.zhihu/msmueses

No.134, 2120, 小X的互联网投资, https://zhuanlan.zhihu/thanksalot

No.135, 2108, 计算主义, https://zhuanlan.zhihu/pillgrim

No.136, 2080, 深海遨游, https://zhuanlan.zhihu/deeplearning-surfing

No.137, 2032, 我的JA♂VA日记, https://zhuanlan.zhihu/JAVAShinNippori

No.138, 2022, Python库学习之路, https://zhuanlan.zhihu/pystudy

No.139, 2005, 人工智能+机器学习+深度学习技术文章精选, https://zhuanlan.zhihu/c_86691882

No.140, 1990, 边城的编程, https://zhuanlan.zhihu/cold-code

No.141, 1987, 写给妹子的深度学习教程, https://zhuanlan.zhihu/dlgirls

No.142, 1942, 机器有颗玻璃心, https://zhuanlan.zhihu/wjdml

No.143, 1936, 信号处理与机器学习, https://zhuanlan.zhihu/aresmiki

No.144, 1933, 中低频量化交易与AI, https://zhuanlan.zhihu/quantwithAI

No.145, 1894, 文因互联, https://zhuanlan.zhihu/c_45652868

No.146, 1889, 文艺码农之家, https://zhuanlan.zhihu/elegant

No.147, 1859, 一图一书, https://zhuanlan.zhihu/yituyishu

No.148, 1858, 一周一paper, https://zhuanlan.zhihu/one-paper-a-week

No.149, 1845, Python 爬虫实战日记, https://zhuanlan.zhihu/Waking-up

No.150, 1838, 片上神经网络, https://zhuanlan.zhihu/DNN-on-Chip

No.151, 1832, Take AI Seriously, https://zhuanlan.zhihu/aifirst

No.152, 1798, Python开发微信公众号, https://zhuanlan.zhihu/sufaith

No.153, 1725, excel讲堂, https://zhuanlan.zhihu/excelskills

No.154, 1721, 贩卖集装箱的汽车大师, https://zhuanlan.zhihu/cantonax

No.155, 1719, 面试常见算法80题, https://zhuanlan.zhihu/80algorithms

No.156, 1703, 理论与机器学习, https://zhuanlan.zhihu/theoretical-machine-learning

No.157, 1703, 无线技术大讲堂, https://zhuanlan.zhihu/dot11

No.158, 1688, 网络高并发编程, https://zhuanlan.zhihu/yedongfu

No.159, 1658, Python数据采集处理分析挖掘可视化应用实例, https://zhuanlan.zhihu/boken

No.160, 1655, Scratch编程, https://zhuanlan.zhihu/scratch

No.161, 1642, 小石头的码疯窝, https://zhuanlan.zhihu/burness-DL

No.162, 1620, 「数据科学」思维导图笔记, https://zhuanlan.zhihu/woaielf

No.163, 1614, 机器人的那些事, https://zhuanlan.zhihu/cobot

No.164, 1592, 数据结构与算法, https://zhuanlan.zhihu/DataStructureAndAlgorithm

No.165, 1588, 纽扣数据, https://zhuanlan.zhihu/niucodata

No.166, 1586, AI+设计, https://zhuanlan.zhihu/AIdesign

No.167, 1572, 我的java学习之路及习惯, https://zhuanlan.zhihu/c_120823325

No.168, 1564, 杠杆游戏, https://zhuanlan.zhihu/gangganyouxi

No.169, 1559, 飞总的IT世界面面观, https://zhuanlan.zhihu/feizong

No.170, 1554, 数据应用学院, https://zhuanlan.zhihu/c_60877174

No.171, 1548, 上善若水——游戏公司财务档案, https://zhuanlan.zhihu/hai1900

No.172, 1536, xTechDay, https://zhuanlan.zhihu/xTechDay

No.173, 1478, 简单易懂的Python, https://zhuanlan.zhihu/easypython

No.174, 1471, 机器不学习, https://zhuanlan.zhihu/zhaoyeyu

No.175, 1429, 神经网络与强化学习, https://zhuanlan.zhihu/c_101836530

No.176, 1424, DL(Deep Learning)小记, https://zhuanlan.zhihu/Charles-Wang

No.177, 1413, 娱乐硬糖, https://zhuanlan.zhihu/yuleyingtang

No.178, 1401, 数据科学沉思录, https://zhuanlan.zhihu/data-science-meditation

No.179, 1395, 前端小记, https://zhuanlan.zhihu/qianduan

No.180, 1386, 高斯世界下的Machine Learning, https://zhuanlan.zhihu/gpml2016

No.181, 1368, 声学与人工智能, https://zhuanlan.zhihu/chenxl

No.182, 1362, 机器鼓励师手册, https://zhuanlan.zhihu/Stark

No.183, 1361, Udacity | 优达学习笔记, https://zhuanlan.zhihu/youdanote

No.184, 1361, 诸事无常，唯死亡与税永恒, https://zhuanlan.zhihu/c_86275978

No.185, 1348, 山人.七-深度学习, https://zhuanlan.zhihu/shanren7

No.186, 1338, 大数据Spark, https://zhuanlan.zhihu/bigdata-spark...

使用Python解析MNIST数据集推广视频课程

乐蓉

查看更多的专业文章、课程信息、产品信息，请移步至：

“人工智能LeadAI”公众号；

官网：leadai.org.

作者：monitor1379

原文链接：https://jianshu/p/84f72791806f

正文共948个字（不含代码），2张图，预计阅读时间15分钟。

前言

最近在学习Keras，要使用到LeCun大神的MNIST手写数字数据集，直接从官网上下载了4个压缩包：

MNIST数据集

解压后发现里面每个压缩包里有一个idx-ubyte文件，没有图片文件在里面。回去仔细看了一下官网后发现原来这是IDX文件格式，是一种用来存储向量与多维度矩阵的文件格式。

IDX文件格式

官网上的介绍如下:

THE IDX FILE FORMAT

the IDX file format is a simple format for vectors and multidimensional matrices of various numerical types.

The basic format is

1magic number

2size in dimension 0

3size in dimension 1

4size in dimension 2

5.....6size in dimension N7data

The magic number is an integer (MSB first). The first 2 bytes are always 0.

The third byte codes the type of the data:

10x08: unsigned byte20x09: signed byte30x0B: short (2 bytes)40x0C: int (4 bytes)50x0D: float (4 bytes)60x0E: double (8 bytes)

The 4-th byte codes the number of dimensions of the vector/matrix: 1 for vectors, 2 for matrices....

The sizes in each dimension are 4-byte integers (MSB first, high endian, like in most non-Intel processors).

The data is stored like in a C array, i.e. the index in the last dimension changes the fastest.

解析脚本

根据以上解析规则，我使用了Python里的struct模块对文件进行读写（如果不熟悉struct模块的可以看我的另一篇博客文章《Python中对字节流/二进制流的操作:struct模块简易使用教程》）。IDX文件的解析通用接口如下：

1# 解析idx1格式

2defdecode_idx1_ubyte(idx1_ubyte_file):

3"""

4解析idx1文件的通用函数

5:param idx1_ubyte_file: idx1文件路径

6:return: np.array类型对象

7"""

8return data

9defdecode_idx3_ubyte(idx3_ubyte_file):

10"""

11解析idx3文件的通用函数

12:param idx3_ubyte_file: idx3文件路径

13:return: np.array类型对象

14"""

15return data

针对MNIST数据集的解析脚本如下：

1# encoding: utf-8

2"""

3@author: monitor1379

4@contact: yy4f5da2@hotmail

5@site: monitor1379

6@version: 1.0

7@license: Apache Licence

8@file: mnist_decoder.py

9@time: 2016/8/16 20:03

10对MNIST手写数字数据文件转换为bmp图片文件格式。

11数据集下载地址为http://yann.lecun/exdb/mnist。

12相关格式转换见官网以及代码注释。

13========================

14关于IDX文件格式的解析规则：

15========================

16THE IDX FILE FORMAT

17the IDX file format is a simple format for vectors and multidimensional matrices of various numerical types.

18The basic format is

19magic number

20size in dimension 0

21size in dimension 1

22size in dimension 2

23.....

24size in dimension N

25data

26The magic number is an integer (MSB first). The first 2 bytes are always 0.

27The third byte codes the type of the data:

280x08: unsigned byte

290x09: signed byte

300x0B: short (2 bytes)

310x0C: int (4 bytes)

320x0D: float (4 bytes)

330x0E: double (8 bytes)

34The 4-th byte codes the number of dimensions of the vector/matrix: 1 for vectors, 2 for matrices....

35The sizes in each dimension are 4-byte integers (MSB first, high endian, like in most non-Intel processors).

36The data is stored like in a C array, i.e. the index in the last dimension changes the fastest.

37"""

38import numpy as np

39import struct

40import matplotlib.pyplot as plt

41# 训练集文件

42train_images_idx3_ubyte_file = '../../data/mnist/bin/train-images.idx3-ubyte'

43# 训练集标签文件

44train_labels_idx1_ubyte_file = '../../data/mnist/bin/train-labels.idx1-ubyte'

45# 测试集文件

46test_images_idx3_ubyte_file = '../../data/mnist/bin/t10k-images.idx3-ubyte'

47# 测试集标签文件

48test_labels_idx1_ubyte_file = '../../data/mnist/bin/t10k-labels.idx1-ubyte'

49defdecode_idx3_ubyte(idx3_ubyte_file):

50"""

51解析idx3文件的通用函数

52:param idx3_ubyte_file: idx3文件路径

53:return: 数据集

54"""

55# 读取二进制数据

56bin_data = open(idx3_ubyte_file, 'rb').read()

57# 解析文件头信息，依次为魔数、图片数量、每张图片高、每张图片宽

58offset = 0

59fmt_header = '>iiii'

60magic_number, num_images, num_rows, num_cols = struct.unpack_from(fmt_header, bin_data, offset)

61print'魔数:%d, 图片数量: %d张, 图片大小: %d*%d' % (magic_number, num_images, num_rows, num_cols)

62# 解析数据集

63image_size = num_rows * num_cols

64offset += struct.calcsize(fmt_header)

65fmt_image = '>' + str(image_size) + 'B'

66images = np.empty((num_images, num_rows, num_cols))

67for i in range(num_images):

68if (i + 1) % 10000 == 0:

69print'已解析 %d' % (i + 1) + '张'

70images[i] = np.array(struct.unpack_from(fmt_image, bin_data, offset)).reshape((num_rows, num_cols))

71offset += struct.calcsize(fmt_image)

72return images

73defdecode_idx1_ubyte(idx1_ubyte_file):

74"""

75解析idx1文件的通用函数

76:param idx1_ubyte_file: idx1文件路径

77:return: 数据集

78"""

79# 读取二进制数据

80bin_data = open(idx1_ubyte_file, 'rb').read()

81# 解析文件头信息，依次为魔数和标签数

82offset = 0

83fmt_header = '>ii'

84magic_number, num_images = struct.unpack_from(fmt_header, bin_data, offset)

85print'魔数:%d, 图片数量: %d张' % (magic_number, num_images)

86# 解析数据集

87offset += struct.calcsize(fmt_header)

88fmt_image = '>B'

89labels = np.empty(num_images)

90for i in range(num_images):

91if (i + 1) % 10000 == 0:

92print'已解析 %d' % (i + 1) + '张'

93labels[i] = struct.unpack_from(fmt_image, bin_data, offset)[0]

94offset += struct.calcsize(fmt_image)

95return labels

96defload_train_images(idx_ubyte_file=train_images_idx3_ubyte_file):

97"""

98TRAINING SET IMAGE FILE (train-images-idx3-ubyte):

99[offset] [type] [value] [description]

1000000 32 bit integer 0x00000803(2051) magic number

1010004 32 bit integer 60000 number of images

1020008 32 bit integer 28 number of rows

103 0012 32 bit integer 28 number of columns

104 0016 unsigned byte ?? pixel

105 0017 unsigned byte ?? pixel

106 ........

107 xxxx unsigned byte ?? pixel

108 Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).

109 :param idx_ubyte_file: idx文件路径

110 :return: n*row*col维np.array对象，n为图片数量

111 """

112return decode_idx3_ubyte(idx_ubyte_file)

113defload_train_labels(idx_ubyte_file=train_labels_idx1_ubyte_file):

114"""

115 TRAINING SET LABEL FILE (train-labels-idx1-ubyte):

116 [offset] [type] [value] [description]

117 0000 32 bit integer 0x00000801(2049) magic number (MSB first)

118 0004 32 bit integer 60000 number of items

119 0008 unsigned byte ?? label

120 0009 unsigned byte ?? label

121 ........

122 xxxx unsigned byte ?? label

123 The labels values are 0 to 9.

124 :param idx_ubyte_file: idx文件路径

125 :return: n*1维np.array对象，n为图片数量

126 """

127return decode_idx1_ubyte(idx_ubyte_file)

128defload_test_images(idx_ubyte_file=test_images_idx3_ubyte_file):

129"""

130 TEST SET IMAGE FILE (t10k-images-idx3-ubyte):

131 [offset] [type] [value] [description]

132 0000 32 bit integer 0x00000803(2051) magic number

133 0004 32 bit integer 10000 number of images

134 0008 32 bit integer 28 number of rows

135 0012 32 bit integer 28 number of columns

136 0016 unsigned byte ?? pixel

137 0017 unsigned byte ?? pixel

138 ........

139 xxxx unsigned byte ?? pixel

140 Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).

141 :param idx_ubyte_file: idx文件路径

142 :return: n*row*col维np.array对象，n为图片数量

143 """

144return decode_idx3_ubyte(idx_ubyte_file)

145defload_test_labels(idx_ubyte_file=test_labels_idx1_ubyte_file):

146"""

147 TEST SET LABEL FILE (t10k-labels-idx1-ubyte):

148 [offset] [type] [value] [description]

149 0000 32 bit integer 0x00000801(2049) magic number (MSB first)

150 0004 32 bit integer 10000 number of items

151 0008 unsigned byte ?? label

152 0009 unsigned byte ?? label

153 ........

154 xxxx unsigned byte ?? label

155 The labels values are 0 to 9.

156 :param idx_ubyte_file: idx文件路径

157 :return: n*1维np.array对象，n为图片数量

158 """

159return decode_idx1_ubyte(idx_ubyte_file)

160defrun():

161 train_images = load_train_images()

162 train_labels = load_train_labels()

163# test_images = load_test_images()

164# test_labels = load_test_labels()

165# 查看前十个数据及其标签以读取是否正确

166for i in range(10):

167print train_labels[i]

168plt.imshow(train_images[i], cmap='gray')

169plt.show()

170print'done'

171if __name__ == '__main__':

172run()

原文链接：https://jianshu/p/84f72791806f

python-数据集成企业视频课程

之桃

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。

需要考虑字段表达不一样，以及属性冗余。将源数据在最底层上加以转换，提炼，集成。

1：数据变换

目的：适用于挖掘的任务以及算法的需要

（1）：简单函数变换：平方，开方，取对数，差分运算等

简单的函数变换用来将不具有正态分布的数据变换成具有正态分布的数据。在时间序列分析中，有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。在数据挖掘中简单的函数变换很有必要。

（2）：为了清除指标之间量纲和取值范围的差异影响，将数据按照比例进行缩放，使之落在指定的范围内。

最小---最大规范化

零---均值规范化

小数定标规范化

（3）连续属性离散化

有些分类算法（如ID3算法，Apriori算法等）要求数据是分类属性，故需要将联系性属性转换成分类属性，称连续属性离散化。

等宽法

等频法

基于聚类分析的方法

（4）属性构造

（5）小波变换

数据规约

属性规约：合并属性，逐步向前选择，逐步向后删除，决策树归纳，主成分分析

数值规约：统一数值

教你在Python中用Scikit生成测试数据集（附代码、学习资料）推广视频课程

寒蕾

原文标题：How to Generate Test Datasets in Python with Scikit-learn

作者：Jason Brownlee

翻译：笪洁琼

校对：顾佳妮

本文共1754字，建议阅读3分钟。

本文教大家在测试数据集中发现问题以及在Python中使用scikit学习的方法。

测试数据集是一个小型的人工数据集，它可以让你测试机器学习算法或其它测试工具。

测试数据集的数据具有定义明确的性质，如线性或非线性，这允许您探索特定的算法行为。

scikit-learn Python库提供了一组函数，用于从结构化的测试问题中生成样本，用于进行回归和分类。

在本教程中，您将发现测试问题以及如何在Python中使用scikit学习。

完成本教程后，您将知道：

如何生成多分类预测问题

如何生成二分类预测问题

如何生成线性回归预测测试问题

让我们开始吧

教程概述

本教程分为三个部分，分别是：

测试数据集

分类测试问题

回归测试的问题

测试数据集

开发和实现机器学习算法遇到的问题是，您如何知道是否正确地实现了机器学习算法。

即使存在bug有些算法还是能执行。

测试数据集是一个较小的人为设计问题，它允许您测试和调试算法和测试工具。

它们还能帮助更好地理解算法的行为，以及超参数是如何在相应算法的执行过程进行改变的。

下面是测试数据集的一些理想属性:

它们可以快速且容易地生成。

它们包含“已知”或“理解”的结果与预测相比较。

它们是随机的，每次生成时都允许对同一个问题进行随机变量的变化。

它们很小，可以很容易在两个维度中进行可视化。

它们也可以被简单地放大。

我建议在开始使用新的机器学习算法或开发新的测试工具时使用测试数据集。

scikit-learn是一个用于机器学习的Python库，它提供了生成一系列测试问题的功能。

在本教程中，我们将介绍一些为分类和回归算法生成测试问题的例子。

分类测试问题

分类是把标签分配给观测样本的问题。

在这一节中，我们将讨论三种分类问题:斑点、月亮和圆圈。

斑点分类问题

make_blob()函数可用于生成高斯分布的点。

您可以控制生成多少个斑点，以及生成的样本数量，以及其他一些属性。

如果这些斑点有线性可分的性质，那么这个问题适用于线性分类问题。

下面的例子生成一个带有三类斑点的二维数据集，作为一个多类分类预测问题。

每个观察都有两个输入和0、1或2个类值。

完整代码如下

运行这个示例会生成问题的输入和输出，然后创建一个方便的2D绘图，用不同的颜色显示不同的类。

注意，由于问题生成器的随机特性，您的特定数据集和结果图将会有所不同。

这是一个特性，而不是一个bug。

测试分类问题的散点图

我们将在下面的示例中使用这个相同的示例结构。

卫星分类问题

make_moons()函数是用于二分类问题的的，它将生成像漩涡一样，或者像月亮形状一样的数据集。

你可以控制月亮的形状和产生的样本数量。

这个测试问题适用于能够学习非线性类边界的算法。

下面的例子产生了一个带有中等噪声的月球数据集。

完整的代码如下

运行该示例将生成并绘制用于检查的数据集，再次为其指定的类着色。

卫星测试分类问题散的点图

圈分类问题

make_circles()函数会产生一个二分类问题，这个问题会出现在一个同心圆中。

再一次，就像卫星测试的问题一样，你可以控制形状中噪音的大小。

该测试问题适用于能够学习复杂非线性曲线的算法。

下面的示例生成一个带有一些噪声的圆形数据集。

完整的代码如下

运行该示例将生成并绘制用于检查的数据集。

圆试验分类问题的散点问题

回归测试的问题

回归是预测某个观测量的问题。

make_regression()函数将创建一个带有输入和输出之间线性关系的数据集。

您可以配置示例的数量、输入特性的数量、噪声级别，等等。

这个数据集适用于能够学习线性回归函数的算法。

下面的示例将生成100个示例，其中包含一个输入特性和一个输出特性，它的噪声很低。

完整的代码如下。

运行该示例将生成数据，并绘制X和y关系图，由于该关系是线性的，因此非常无趣。

回归测试问题的散点图

延伸

本节列出了一些扩展您可能希望探索的教程的想法。

比较算法

选择一个测试问题，并对问题的算法进行比较，并报告性能。

扩大的问题

选择一个测试问题，并探索扩大它的规模，使用改进的方法来可视化结果，或者探索给定的算法的模型技巧和问题深度。

额外的问题

这个库提供了一系列额外的测试问题；

为每个人编写一个代码示例来演示它们是如何工作的。

如果您探究这些扩展的任何一个，我很想知道。

进一步的阅读

如果您希望深入研究，本节将提供更多关于主题的参考资料。

学习用户指南：数据集加载实用程序（http://scikit-learn.org/stable/datasets/index.html）

scikit-learn API:sklearn - 数据集（http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets）

总结

在本教程中，您发现了测试问题，以及如何在Python中使用scikit库。

具体来说，你学会了：

如何生成多分类预测问题

如何生成二分类预测问题

如何生成线性回归预测测试问题

Python功能不够多？来看看如何生成测试数据集吧！推广视频课程

Malak

测试数据集是小型的专用数据集，它可以让你测试一个机器学习算法或测试工具。数据集中的数据有完整的定义（例如线性或非线性）使你可以探索特定的算法行为。scikit-learn Python 库提供一套函数，用于从可配置测试问题中生成样本来进行回归和分类

在本教程中，你将学习测试问题及如何在 Python 中使用 scikit-learn 进行测试。

完成本教程后，你将知道：

如何生成多类分类预测测试问题如何生成二进制分类预测测试问题如何生成线性回归预测测试问题

让我们开始吧。

教程概述

本教程被分成了 3 个部分，他们分别是：

1. 测试数据集

2. 分类测试问题

3. 回归测试问题

测试数据集

开发和实现机器学习算法时的一个问题是如何知道你是否已经正确实现了他们——它们似乎在有 bug 时也能工作。

测试数据集是小型设计问题，它能让你测试、调试算法和测试工具。它们对于更好地理解算法响应超参数变化的行为方面也很有用。

下面是测试数据集的一些理想特性：

它们可以快速、容易地生成。它们包含「已知」或「理解」的结果来和预测进行比较。它们是随机的，每次生成时都允许在同一个问题上随机变化。它们很小、容易在而二维中实现可视化。它们可以被增大。

我建议在开始一个新的机器学习算法或开发一个新的测试工具时使用测试数据集。scikit-learn 是一个用于机器学习的 Python 库，它提供了生成一组测试问题的函数。

在本教程中，我们将看一些为分类和回归算法生成测试问题的例子。

分类测试问题

分类是将标签分配给数据的问题。在本节中，我们将看三个分类问题：blobs、moons 和 circles。

Blobs 分类问题

make_blobs() 函数可被用于生成具有高斯分布的 blobs 点。你可以控制生成 blobs 的数量，生成样本的数量以及一系列其他属性。考虑到 blobs 的线性可分性质，该问题也适用于线性分类问题。

下面的例子是一个多类分类预测问题，它生成了一个具有三个 blobs 的 2D 样本数据集。每个数据有两个输入和 0、1 或 2 个类的值。

# generate 2d classification dataset

X, y = make_blobs(n_samples=100, centers=3, n_features=2)

完整的例子如下所示。

from sklearn.datasets.samples_generator import make_blobs

from matplotlib import pyplot

from pandas import DataFrame

# generate 2d classification dataset

X, y = make_blobs(n_samples=100, centers=3, n_features=2)

# scatter plot, dots colored by class value

df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))

colors = {0:'red', 1:'blue', 2:'green'}

fig, ax = pyplot.subplots()

grouped = df.groupby('label')

for key, group in grouped:

group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])

pyplot.show()

运行该示例将生成该问题的输入和输出，然后创建一个方便的 2D 图，用不同的颜色显示不同类的点。注意，考虑到问题生成器的随机特性，你的特定数据集和结果图会有所不同。这是一个特点，而不是一个错误。

Blobs 测试分类问题的散点图

我们将会在下面的例子中使用相同的示例结构。

Moons 分类问题

make_moons() 函数用于二进制分类并且将生成一个漩涡模式，或者两个 moons。你可以控制 moon 形状中的噪声量，以及要生产的样本数量。

这个测试问题适用于能够学习非线性类边界的算法。下面的例子生成了一个中等噪音的 moon 数据集

# generate 2d classification dataset

X, y = make_moons(n_samples=100, noise=0.1)

完整的例子如下所示。

from sklearn.datasets import make_moons

from matplotlib import pyplot

from pandas import DataFrame

# generate 2d classification dataset

X, y = make_moons(n_samples=100, noise=0.1)

# scatter plot, dots colored by class value

df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))

colors = {0:'red', 1:'blue'}

fig, ax = pyplot.subplots()

grouped = df.groupby('label')

for key, group in grouped:

group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])

pyplot.show()

运行该示例会生成并绘制数据集以供查阅，然后再按照指定的类对样本着色。

Moons 测试分类问题的散点图

Circles 分类问题

make_circles() 函数生成一个数据集落入同心圆的二进制分类问题。再一次地，与 moons 测试问题一样，你可以控制形状中的噪声量。该测试问题适用于可以学习复杂的非线性流行的算法。下面的例子中生成了一个具有一定噪音的 circles 数据集

# generate 2d classification dataset

X, y = make_circles(n_samples=100, noise=0.05)

完整例子如下所示。

from sklearn.datasets import make_circles

from matplotlib import pyplot

from pandas import DataFrame

# generate 2d classification dataset

X, y = make_circles(n_samples=100, noise=0.05)

# scatter plot, dots colored by class value

df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))

colors = {0:'red', 1:'blue'}

fig, ax = pyplot.subplots()

grouped = df.groupby('label')

for key, group in grouped:

group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])

pyplot.show()

运行该示例并绘制数据集以供查阅。

Circles 测试分类问题的散点图

回归测试问题

回归是根据观察数据预测数量的问题。make_regression() 函数将创建一个输入和输出具有线性关系的数据集。你可以配置样本数量，输入特征数量，噪声级别等等。该数据集适用于可以学习线性回归函数的算法。

下面的例子将生成 100 个示例，他们具有适度的噪声，都有一个输入特征和一个输出特征。

# generate regression dataset

X, y = make_regression(n_samples=100, n_features=1, noise=0.1)

完整例子如下所示。

from sklearn.datasets import make_regression

from matplotlib import pyplot

# generate regression dataset

X, y = make_regression(n_samples=100, n_features=1, noise=0.1)

# plot regression dataset

pyplot.scatter(X,y)

pyplot.show()

运行该示例将生成数据并绘制 x 和 y 的关系，考虑到它是线性的，所以结果是很简单的。

回归测试问题的散点图

扩展

本节列出了一些你可能想要探讨的扩展该教程的想法。

比较算法。选择一个测试问题，并比较该问题的一系列算法并汇报性能。放大问题。选择一个测试问题并探索将其放大，用级数法来可视化结果，也可以探索一个特定算法模型技能和问题规模。其他问题。库提供了一套其他测试问题；为每个问题编写了一个代码示例来展示它们是如何工作的。

拓展阅读

如果你想要更深入的了解，本节提供了关于该课题更多的资源。

scikit-learn 用户指南: Dataset loading utilities (http://scikit-learn.org/stable/datasets/index.html)scikit-learn API: sklearn.datasets: Datasets (http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)

总结

在本教程中，我们学习了测试问题及如何用 scikit-learn 在 Python 中使用他们。

具体来说，其中包括：

如何生成多类分类预测测试问题；如何生成二进制分类预测测试问题；如何生成线性回归预测测试问题。

最全知乎专栏合集：python、爬虫、数据分析、挖掘、ML、NLP、DL 公司视频课程

不尤

另外已开始对11088个专栏里的数据进行进一步爬取，之后会继续相关分析和资源分享。

TOP29系列，1万+关注：

No.1, 157960, 数据冰山, https://zhuanlan.zhihu/hemingke

（No.2, 112088，学习编程，莫道君行早，更有早行人。全心敲代码，天道自酬勤）（不小心漏了TOP2专栏，简直蠢哭）

No.2, 62106, 行为与认知神经科学, https://zhuanlan.zhihu/ibrain

No.3, 50136, 机器之心, https://zhuanlan.zhihu/jiqizhixin

No.4, 37234, 企业分析, https://zhuanlan.zhihu/company-research

No.5, 35642, 挖掘知乎里有趣的东西, https://zhuanlan.zhihu/grapeot

No.6, 34389, 智能单元, https://zhuanlan.zhihu/intelligentunit

No.7, 31283, Python中文社区, https://zhuanlan.zhihu/zimei

No.8, 28949, Python之美, https://zhuanlan.zhihu/python-cn

No.9, 24053, 地图、地理与区域, https://zhuanlan.zhihu/geo-space

No.10, 21719, Moneycode, https://zhuanlan.zhihu/ricequant

No.11, 21586, vn.py, https://zhuanlan.zhihu/vn-py

No.12, 21581, 黑客与画家, https://zhuanlan.zhihu/hacker-and-painter

No.13, 21522, 面向工资编程, https://zhuanlan.zhihu/auxten

No.14, 21042, 编程语言与高级语言虚拟机杂谈（仮）, https://zhuanlan.zhihu/hllvm

No.15, 18786, 深度学习大讲堂, https://zhuanlan.zhihu/dlclass

No.16, 17957, BitTiger.io, https://zhuanlan.zhihu/bittiger

No.17, 16257, 一起学习python网络爬虫, https://zhuanlan.zhihu/gooseeker

No.18, 15751, 数据分析侠, https://zhuanlan.zhihu/dataman

No.19, 14847, 做游戏，学编程（C语言）, https://zhuanlan.zhihu/c2game

No.20, 14792, 数据时光机, https://zhuanlan.zhihu/washu

No.21, 12908, 不宜公开, https://zhuanlan.zhihu/xiaoliangshan

No.22, 12606, Jiang的金融窝, https://zhuanlan.zhihu/quantjiang

No.23, 12131, 无痛的机器学习, https://zhuanlan.zhihu/hsmyy

No.24, 11635, 新一线城市研究所, https://zhuanlan.zhihu/therisinglab

No.25, 11629, Crossin的编程教室, https://zhuanlan.zhihu/crossin

No.26, 11012, 一个数据分析师的自我修养, https://zhuanlan.zhihu/data-analyst-improvement

No.27, 10932, Hello 陈然！, https://zhuanlan.zhihu/chenran

No.28, 10619, 爬虫之从入门到精通, https://zhuanlan.zhihu/pachong

No.29, 10254, Data Science with R&Python, https://zhuanlan.zhihu/rdatamining

5千+关注：

No.30, 9969, 集智, https://zhuanlan.zhihu/c_81843036

No.31, 9127, PRML, https://zhuanlan.zhihu/prml-paper-reading

No.32, 8568, 量化哥, https://zhuanlan.zhihu/uqer2015

No.33, 8515, AI学人, https://zhuanlan.zhihu/aixueren

No.34, 8114, 数据驱动业务增长, https://zhuanlan.zhihu/growingio

No.35, 7820, 前端周刊, https://zhuanlan.zhihu/feweekly

No.36, 7790, Analytics at Work, https://zhuanlan.zhihu/analyticsatwork

No.37, 7745, R语言中文社区, https://zhuanlan.zhihu/rshequ

No.38, 6957, Python 与机器学习, https://zhuanlan.zhihu/carefree0910-pyml

No.39, 6944, 超智能体, https://zhuanlan.zhihu/YJango

No.40, 6842, 大数据分析挖掘, https://zhuanlan.zhihu/hellobi

No.41, 6823, 技术备忘录, https://zhuanlan.zhihu/mathNote

No.42, 6775, Hic Rhodus, hic salta, https://zhuanlan.zhihu/HicRhodushicsalta

No.43, 6753, 机器学习算法与自然语言处理, https://zhuanlan.zhihu/qinlibo-ml

No.44, 6700, 科技蟹, https://zhuanlan.zhihu/kejixie

No.45, 6641, 某熊的全栈之路, https://zhuanlan.zhihu/wxyyxc1992

No.46, 6559, 风险狗的数据分析之路, https://zhuanlan.zhihu/loan-analytics

No.47, 6328, Joe's Studio & Cafe, https://zhuanlan.zhihu/hijoe

No.48, 6222, 菜鸟学数据挖掘, https://zhuanlan.zhihu/datanalysis

No.49, 5438, Python之禅, https://zhuanlan.zhihu/pythoneer

No.50, 5391, 混沌巡洋舰, https://zhuanlan.zhihu/c_29122335

No.51, 5241, R语言数据分析与可视化, https://zhuanlan.zhihu/EasyCharts-R

No.52, 5224, 数据分析网, https://zhuanlan.zhihu/afenxi

No.53, 5218, Python高薪训练营, https://zhuanlan.zhihu/c_111369541

No.54, 5171, 福山·雅·致, https://zhuanlan.zhihu/heziyin

No.55, 5100, 晓雷机器学习笔记, https://zhuanlan.zhihu/xiaoleimlnote

No.56, 5072, AI Insight, https://zhuanlan.zhihu/ai-insight

No.57, 5064, PYTHON挖掘机, https://zhuanlan.zhihu/python-excavator

No.58, 5051, Hello, Flask!, https://zhuanlan.zhihu/flask

1千+关注：

No.59, 4882, 机器学习 & 金融量化分析, https://zhuanlan.zhihu/jjscience

No.60, 4754, 自学游戏开发, https://zhuanlan.zhihu/studygame

No.61, 4674, 前端之巅, https://zhuanlan.zhihu/qianduanzhidian

No.62, 4609, 集智·人工智能招聘, https://zhuanlan.zhihu/qiuneitui

No.63, 4600, Python爬虫实战, https://zhuanlan.zhihu/pythoncrawl

No.64, 4566, Python Hacker, https://zhuanlan.zhihu/python-hacker

No.65, 4494, 炼丹实验室, https://zhuanlan.zhihu/easyml

No.66, 4445, LeanReact, https://zhuanlan.zhihu/leanreact

No.67, 4410, 深度炼丹, https://zhuanlan.zhihu/c_94953554

No.68, 4217, 简快Excel之PowerBI建模分析, https://zhuanlan.zhihu/leigongzi

No.69, 4132, [运筹帷幄]大数据和人工智能时代下的运筹学, https://zhuanlan.zhihu/operations-research

No.70, 4067, 深度学习:从入门到放弃, https://zhuanlan.zhihu/startdl

No.71, 4001, 天善智能, https://zhuanlan.zhihu/tianshansoft

No.72, 3937, 数据化管理, https://zhuanlan.zhihu/dataware

No.73, 3934, 开始学习机器人, https://zhuanlan.zhihu/learn-robotics

No.74, 3886, 强化学习知识大讲堂, https://zhuanlan.zhihu/sharerl

No.75, 3796, 浅墨的游戏编程, https://zhuanlan.zhihu/game-programming

No.76, 3747, 莫烦, https://zhuanlan.zhihu/morvan

No.77, 3745, 高中文综实验室, https://zhuanlan.zhihu/liberart-Lab

No.78, 3738, Data Science, https://zhuanlan.zhihu/gongwenjia

No.79, 3685, 建筑可视化设计, https://zhuanlan.zhihu/uzing

No.80, 3673, MySQL, https://zhuanlan.zhihu/mysql

No.81, 3599, 备战考研, https://zhuanlan.zhihu/SunLifeDreamer

No.82, 3590, Python程序员, https://zhuanlan.zhihu/pythoncxy

No.83, 3575, 从零开始写Python爬虫, https://zhuanlan.zhihu/Ehco-python

No.84, 3564, 灵的随笔记, https://zhuanlan.zhihu/ZeitMark

No.85, 3532, 萌新的学习日记, https://zhuanlan.zhihu/linjichu

No.86, 3526, 李彬教你考注会, https://zhuanlan.zhihu/c_77735210

No.87, 3517, 钢笔爱好者, https://zhuanlan.zhihu/v2bber

No.88, 3449, 管中窥豹, https://zhuanlan.zhihu/whiteheart

No.89, 3402, 智能水桶, https://zhuanlan.zhihu/smartspew

No.90, 3399, 数据是个锤子, https://zhuanlan.zhihu/datahammer

No.91, 3346, Python学习之路, https://zhuanlan.zhihu/python-kivy

No.92, 3302, 数据分析师的成长之路, https://zhuanlan.zhihu/datamap

No.93, 3221, Runtime, https://zhuanlan.zhihu/chenjiadong

No.94, 3220, 点点墨, https://zhuanlan.zhihu/junmo520

No.95, 3202, TOMsInsight, https://zhuanlan.zhihu/tomsinsight

No.96, 3170, 什么值得爬, https://zhuanlan.zhihu/c_80099524

No.97, 3118, 半个量化交易员, https://zhuanlan.zhihu/semi-quant-trader

No.98, 3104, 日积跬步, https://zhuanlan.zhihu/improve365

No.99, 3102, gluon, https://zhuanlan.zhihu/gluon

No.100, 3071, 蛇之魅惑, https://zhuanlan.zhihu/python-dev

No.101, 3058, Linux, https://zhuanlan.zhihu/LearningLinux

No.102, 3050, 马志峰的编程笔记, https://zhuanlan.zhihu/mazhifeng

No.103, 3036, DT新纪元, https://zhuanlan.zhihu/dteratech

No.104, 3012, 原点实验室, https://zhuanlan.zhihu/cndatalab

No.105, 2912, 分布式笔记, https://zhuanlan.zhihu/b-tree

No.106, 2876, 2gua的编程生活, https://zhuanlan.zhihu/guagua

No.107, 2827, 写点Python, https://zhuanlan.zhihu/something-python

No.108, 2811, 撩撩数据吧, https://zhuanlan.zhihu/jiago

No.109, 2805, 非凸优化学习之路, https://zhuanlan.zhihu/optimization

No.110, 2786, Revit 专栏, https://zhuanlan.zhihu/RevitForum

No.111, 2755, VV Data Science, https://zhuanlan.zhihu/vieplivee

No.112, 2740, DαΓαSciεηce, https://zhuanlan.zhihu/datascience

No.113, 2700, 友盟专栏, https://zhuanlan.zhihu/umeng

No.114, 2685, 无人机日常, https://zhuanlan.zhihu/uavsdaily

No.115, 2668, 有意思的数据挖掘, https://zhuanlan.zhihu/data-mining

No.116, 2668, DT财经, https://zhuanlan.zhihu/dtcaijing

No.117, 2654, 人工智能学习笔记, https://zhuanlan.zhihu/c_80412427

No.118, 2553, Still的数据分析笔记, https://zhuanlan.zhihu/DataScientist

No.119, 2548, 人工智能应用系列, https://zhuanlan.zhihu/ai4application

No.120, 2464, 清雨的 Data Science 笔记, https://zhuanlan.zhihu/TsingJyuData

No.121, 2396, 帆软数据应用研究院, https://zhuanlan.zhihu/fanruan

No.122, 2383, 数据黑板, https://zhuanlan.zhihu/data-factory

No.123, 2299, 诸葛io, https://zhuanlan.zhihu/zhugeio

No.124, 2255, golang数据结构内部实现, https://zhuanlan.zhihu/goroutine

No.125, 2236, 数据可视化, https://zhuanlan.zhihu/datavis

No.126, 2206, Python高手之路, https://zhuanlan.zhihu/mingxinglai

No.127, 2181, Excel图表之道, https://zhuanlan.zhihu/ExcelPro

No.128, 2162, 设计与人工智能, https://zhuanlan.zhihu/designintelligence

No.129, 2157, 机器人开发的那些事, https://zhuanlan.zhihu/c_32667517

No.130, 2145, 不动点高校现充部, https://zhuanlan.zhihu/fixpoint-high-school

No.131, 2144, Swift, https://zhuanlan.zhihu/swift

No.132, 2132, 大数据技术与实践, https://zhuanlan.zhihu/hadoop

No.133, 2121, 缪斯夫人, https://zhuanlan.zhihu/msmueses

No.134, 2120, 小X的互联网投资, https://zhuanlan.zhihu/thanksalot

No.135, 2108, 计算主义, https://zhuanlan.zhihu/pillgrim

No.136, 2080, 深海遨游, https://zhuanlan.zhihu/deeplearning-surfing

No.137, 2032, 我的JA♂VA日记, https://zhuanlan.zhihu/JAVAShinNippori

No.138, 2022, Python库学习之路, https://zhuanlan.zhihu/pystudy

No.139, 2005, 人工智能+机器学习+深度学习技术文章精选, https://zhuanlan.zhihu/c_86691882

No.140, 1990, 边城的编程, https://zhuanlan.zhihu/cold-code

No.141, 1987, 写给妹子的深度学习教程, https://zhuanlan.zhihu/dlgirls

No.142, 1942, 机器有颗玻璃心, https://zhuanlan.zhihu/wjdml

No.143, 1936, 信号处理与机器学习, https://zhuanlan.zhihu/aresmiki

No.144, 1933, 中低频量化交易与AI, https://zhuanlan.zhihu/quantwithAI

No.145, 1894, 文因互联, https://zhuanlan.zhihu/c_45652868

No.146, 1889, 文艺码农之家, https://zhuanlan.zhihu/elegant

No.147, 1859, 一图一书, https://zhuanlan.zhihu/yituyishu

No.148, 1858, 一周一paper, https://zhuanlan.zhihu/one-paper-a-week

No.149, 1845, Python 爬虫实战日记, https://zhuanlan.zhihu/Waking-up

No.150, 1838, 片上神经网络, https://zhuanlan.zhihu/DNN-on-Chip

No.151, 1832, Take AI Seriously, https://zhuanlan.zhihu/aifirst

No.152, 1798, Python开发微信公众号, https://zhuanlan.zhihu/sufaith

No.153, 1725, excel讲堂, https://zhuanlan.zhihu/excelskills

No.154, 1721, 贩卖集装箱的汽车大师, https://zhuanlan.zhihu/cantonax

No.155, 1719, 面试常见算法80题, https://zhuanlan.zhihu/80algorithms

No.156, 1703, 理论与机器学习, https://zhuanlan.zhihu/theoretical-machine-learning

No.157, 1703, 无线技术大讲堂, https://zhuanlan.zhihu/dot11

No.158, 1688, 网络高并发编程, https://zhuanlan.zhihu/yedongfu

No.159, 1658, Python数据采集处理分析挖掘可视化应用实例, https://zhuanlan.zhihu/boken

No.160, 1655, Scratch编程, https://zhuanlan.zhihu/scratch

No.161, 1642, 小石头的码疯窝, https://zhuanlan.zhihu/burness-DL

No.162, 1620, 「数据科学」思维导图笔记, https://zhuanlan.zhihu/woaielf

No.163, 1614, 机器人的那些事, https://zhuanlan.zhihu/cobot

No.164, 1592, 数据结构与算法, https://zhuanlan.zhihu/DataStructureAndAlgorithm

No.165, 1588, 纽扣数据, https://zhuanlan.zhihu/niucodata

No.166, 1586, AI+设计, https://zhuanlan.zhihu/AIdesign

No.167, 1572, 我的java学习之路及习惯, https://zhuanlan.zhihu/c_120823325

No.168, 1564, 杠杆游戏, https://zhuanlan.zhihu/gangganyouxi

No.169, 1559, 飞总的IT世界面面观, https://zhuanlan.zhihu/feizong

No.170, 1554, 数据应用学院, https://zhuanlan.zhihu/c_60877174

No.171, 1548, 上善若水——游戏公司财务档案, https://zhuanlan.zhihu/hai1900

No.172, 1536, xTechDay, https://zhuanlan.zhihu/xTechDay

No.173, 1478, 简单易懂的Python, https://zhuanlan.zhihu/easypython

No.174, 1471, 机器不学习, https://zhuanlan.zhihu/zhaoyeyu

No.175, 1429, 神经网络与强化学习, https://zhuanlan.zhihu/c_101836530

No.176, 1424, DL(Deep Learning)小记, https://zhuanlan.zhihu/Charles-Wang

No.177, 1413, 娱乐硬糖, https://zhuanlan.zhihu/yuleyingtang

No.178, 1401, 数据科学沉思录, https://zhuanlan.zhihu/data-science-meditation

No.179, 1395, 前端小记, https://zhuanlan.zhihu/qianduan

No.180, 1386, 高斯世界下的Machine Learning, https://zhuanlan.zhihu/gpml2016

No.181, 1368, 声学与人工智能, https://zhuanlan.zhihu/chenxl

No.182, 1362, 机器鼓励师手册, https://zhuanlan.zhihu/Stark

No.183, 1361, Udacity | 优达学习笔记, https://zhuanlan.zhihu/youdanote

No.184, 1361, 诸事无常，唯死亡与税永恒, https://zhuanlan.zhihu/c_86275978

No.185, 1348, 山人.七-深度学习, https://zhuanlan.zhihu/shanren7

No.186, 1338, 大数据Spark, https://zhuanlan.zhihu/bigdata-spark...

教你在Python中用Scikit生成测试数据集（附代码、学习资料）公司视频课程

月如醉

原文标题：How to Generate Test Datasets in Python with Scikit-learn

作者：Jason Brownlee

翻译：笪洁琼

校对：顾佳妮

本文共1754字，建议阅读3分钟。

本文教大家在测试数据集中发现问题以及在Python中使用scikit学习的方法。

测试数据集是一个小型的人工数据集，它可以让你测试机器学习算法或其它测试工具。

测试数据集的数据具有定义明确的性质，如线性或非线性，这允许您探索特定的算法行为。

scikit-learn Python库提供了一组函数，用于从结构化的测试问题中生成样本，用于进行回归和分类。

在本教程中，您将发现测试问题以及如何在Python中使用scikit学习。

完成本教程后，您将知道：

如何生成多分类预测问题

如何生成二分类预测问题

如何生成线性回归预测测试问题

让我们开始吧

教程概述

本教程分为三个部分，分别是：

测试数据集

分类测试问题

回归测试的问题

测试数据集

开发和实现机器学习算法遇到的问题是，您如何知道是否正确地实现了机器学习算法。

即使存在bug有些算法还是能执行。

测试数据集是一个较小的人为设计问题，它允许您测试和调试算法和测试工具。

它们还能帮助更好地理解算法的行为，以及超参数是如何在相应算法的执行过程进行改变的。

下面是测试数据集的一些理想属性:

它们可以快速且容易地生成。

它们包含“已知”或“理解”的结果与预测相比较。

它们是随机的，每次生成时都允许对同一个问题进行随机变量的变化。

它们很小，可以很容易在两个维度中进行可视化。

它们也可以被简单地放大。

我建议在开始使用新的机器学习算法或开发新的测试工具时使用测试数据集。

scikit-learn是一个用于机器学习的Python库，它提供了生成一系列测试问题的功能。

在本教程中，我们将介绍一些为分类和回归算法生成测试问题的例子。

分类测试问题

分类是把标签分配给观测样本的问题。

在这一节中，我们将讨论三种分类问题:斑点、月亮和圆圈。

斑点分类问题

make_blob()函数可用于生成高斯分布的点。

您可以控制生成多少个斑点，以及生成的样本数量，以及其他一些属性。

如果这些斑点有线性可分的性质，那么这个问题适用于线性分类问题。

下面的例子生成一个带有三类斑点的二维数据集，作为一个多类分类预测问题。

每个观察都有两个输入和0、1或2个类值。

完整代码如下

运行这个示例会生成问题的输入和输出，然后创建一个方便的2D绘图，用不同的颜色显示不同的类。

注意，由于问题生成器的随机特性，您的特定数据集和结果图将会有所不同。

这是一个特性，而不是一个bug。

测试分类问题的散点图

我们将在下面的示例中使用这个相同的示例结构。

卫星分类问题

make_moons()函数是用于二分类问题的的，它将生成像漩涡一样，或者像月亮形状一样的数据集。

你可以控制月亮的形状和产生的样本数量。

这个测试问题适用于能够学习非线性类边界的算法。

下面的例子产生了一个带有中等噪声的月球数据集。

完整的代码如下

运行该示例将生成并绘制用于检查的数据集，再次为其指定的类着色。

卫星测试分类问题散的点图

圈分类问题

make_circles()函数会产生一个二分类问题，这个问题会出现在一个同心圆中。

再一次，就像卫星测试的问题一样，你可以控制形状中噪音的大小。

该测试问题适用于能够学习复杂非线性曲线的算法。

下面的示例生成一个带有一些噪声的圆形数据集。

完整的代码如下

运行该示例将生成并绘制用于检查的数据集。

圆试验分类问题的散点问题

回归测试的问题

回归是预测某个观测量的问题。

make_regression()函数将创建一个带有输入和输出之间线性关系的数据集。

您可以配置示例的数量、输入特性的数量、噪声级别，等等。

这个数据集适用于能够学习线性回归函数的算法。

下面的示例将生成100个示例，其中包含一个输入特性和一个输出特性，它的噪声很低。

完整的代码如下。

运行该示例将生成数据，并绘制X和y关系图，由于该关系是线性的，因此非常无趣。

回归测试问题的散点图

延伸

本节列出了一些扩展您可能希望探索的教程的想法。

比较算法

选择一个测试问题，并对问题的算法进行比较，并报告性能。

扩大的问题

选择一个测试问题，并探索扩大它的规模，使用改进的方法来可视化结果，或者探索给定的算法的模型技巧和问题深度。

额外的问题

这个库提供了一系列额外的测试问题；

为每个人编写一个代码示例来演示它们是如何工作的。

如果您探究这些扩展的任何一个，我很想知道。

进一步的阅读

如果您希望深入研究，本节将提供更多关于主题的参考资料。

学习用户指南：数据集加载实用程序（http://scikit-learn.org/stable/datasets/index.html）

scikit-learn API:sklearn - 数据集（http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets）

总结

在本教程中，您发现了测试问题，以及如何在Python中使用scikit库。

具体来说，你学会了：

如何生成多分类预测问题

如何生成二分类预测问题

如何生成线性回归预测测试问题