安装
通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4 。
还可以使用 PyCharm IDE 来写代码,在 PyCharm 中的 Preferences 中找到 Project ,在里面搜索 Beautiful Soup 模块,进行安装即可。
创建 BeautifulSoup 对象
Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据,例如,网页中的所有链接或者标签内的内容。
为了实现这一点,Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象,这些对象有着不同的属性和方法,我们能够从中提取到需要的数据。
Beautiful Soup 总共有如下三种对象:
创建 BeautifulSoup 对象
创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。
BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object),例如机器上的文件或者网页。
通过字符串创建 BeautifulSoup 对象
在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。
helloworld = '<p>Hello World</p>'soup_string = BeautifulSoup(helloworld)print soup_string <html><body><p>Hello World</p></body></html>通过类文件对象创建 BeautifulSoup 对象
在 BeautifulSoup 的构造器中通过传递一个类文件对象(file-like object)来创建对象。这在解析在线网页时非常有用。
url = "http://'}创建 NavigableString 对象
NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。
我们可以通过 .string 的方式得到标签的本文内容 。
navi = atag.stringprint type(navi)print navi.string小结
代码小结如下:
BeautifulSoup
- soup = BeautifulSoup(String)
- soup = BeautifulSoup(String,features=”xml”)
Tag
- tag = soup.tag
- tag.name
- tag[‘attribute']
NavigableString
- soup.tag.string
总结
以上就是关于Python使用Beautiful Soup模块创建对象的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。