这是一个系列 没办法在一两天写完 所以一篇一篇的发布
大致大纲:
1.curl数据采集系列之单页面采集函数get_html
2.curl数据采集系列之多页面并行采集函数get_htmls
3.curl数据采集系列之正则处理函数get _matches
4.curl数据采集系列之代码分离
5.curl数据采集系列之并行逻辑控制函数web_spider
单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一个常用的curl函数调用是很重要的
百度和网易比较熟悉 所以拿这两个网站首页采集来做例子讲解
最简单的写法:
复制代码 代码如下:
$url = 'http:///index.html';
echo get_html($url);
这样也可以正常的采集