C# 抓取网页内容的方法

1、抓取一般内容

需要三个类：WebRequest、WebResponse、StreamReader

所需命名空间：System.Net、System.IO

核心代码：

view plaincopy to clipboardprint?
复制代码代码如下:
WebRequest request = WebRequest.Create("https:///");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));

WebRequest 类的 Create 为静态方法，参数为要抓取的网页的网址；

Encoding 指定编码，Encoding 中有属性 ASCII、UTF32、UTF8 等全球通用的编码，但没有 gb2312 这个编码属性，所以我们使用 GetEncoding 获得 gb2312 编码。

示例：

view plaincopy to clipboardprint?
复制代码代码如下:
<%@ Page Language="C#" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://BONBOOBIHHHHAOKDM;");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
Response.Write(reader.ReadToEnd());
reader.Close();
reader.Dispose();
response.Close();

要说明的是：

本文并不是 Cookie 欺骗，因为 SessionID 是 S1 告诉 S2 的，并不是 S2 窃取的，虽然有些古怪，但这可能在一些特定的应用系统中会有用。
S1 必须要向 B1 写 Session，这样 SessionID 才会保存到 Cookie 中，并且 SessionID 才会保持不变。
在 ASP.NET 中取 Cookie 用 Request.Cookies，本文假设 Cookie 已经取出来。
不同的服务器端语言，SessionID 在 Cookie 中上名称并不一样，本文是 ASP 的 SessionID。
S1 可能不仅仅依靠 SessionID 来判断当前登录，它可能还会辅助于 Referer、User-Agent 等，这取决于 S1 端程序的设计。
其实本文算是本连载中“保持登录状态”的另一种方法。
6 抓取网页内容－如何更改来源 Referer 和 UserAgent

view plaincopy to clipboardprint?
复制代码代码如下:
SPAN class=caution>HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create("http://127.0.0.1/index.htm");
//request.Headers.Add(HttpRequestHeader.Referer, "https:///"); // 错误
//request.Headers[HttpRequestHeader.Referer] = "https:///"; // 错误
request.Referer = "https:///"; // 正确

注释掉的两句是不对的，会发生错误：

view plaincopy to clipboardprint?
此标头必须使用适当的属性进行修改。
参数名: name
此标头必须使用适当的属性进行修改。参数名: name

UserAgent 类似。

相关文章

最新文章

热门文章

猜你喜欢