Python爬虫学习———正则表达式

当完成了网页html的download之后,下一步当然是从网页中解析我们想要的数据了。那如何解析这些网页呢?Python中有许多种操作简单且高效的工具可以协助我们来解析html或者xml,学会这些工具抓取数据是很容易了。

说到爬虫的html/xml解析(现在网页大部分都是html),可使用的方法实在有很多种,如:

  • 正则表达式
  • BeautifulSoup
  • Lxml
  • PyQuery
  • CSSselector

其实也不止这几种,还有很多,那么到底哪一种最好呢?这个很难说,萝卜白菜各有所爱,这些方法各有特色,只能说选择一款你用着顺手的。将会陆续给大家介绍这些好用的解析器,但是本篇从正则表达式开始。

那是不是只要掌握一种就可以了?用不着会那么多吧。确实,熟练掌握一种也可以完成数据的抓取,但随着你解析网页的数量增多,你会发现有时候使用多种方法配合解析网页会更简单,高效,因为这些方法各有特色,不同环境下发挥的作用不一样。因此,建议大家熟练掌握至少两种为佳,这样当你面对复杂结构网页的时候,解析方法会更灵活。

好了,开始我们的解析之旅吧!