网页长截图
雄文十万,也挡不住管理方的删帖封号,本文就来说一下怎么通过技术的方式来保存网页内容
如果基于正则表达式来爬取网页,真的是太麻烦,而且正则要学得好,还真不容易。通过 bs4 select 或者 find 返回soup对象,可以很方便地提取出HTML或XML标签中的内容,简直不能更方便
举例:
1 | req = urllib2.Request(target_url, headers = _headers) |
Update your browser to view this website correctly. Update my browser now