selenium初步实现server端自动抓取

通过selenium实现在server端的无界面抓取,一般有两种方案:

  1. 通过headless模式抓取
  2. 通过xvfb实现抓取

下面将对以下两种方法的实现进行说明,说明采用ubuntu和chrome为例。

阅读更多

re库提取网页文本的方法

这是一种提取网页中的显示的文本内容,去除标签的方法。

主要用到了re库。直接上代码:

阅读更多
chrome伪装抓取微信公众号内容

chrome伪装抓取微信公众号内容

前一段时间一直在做微信公众号内容的获取
总结一下,有下面三种方法:

  1. chrome伪装抓取
  2. 内存获取方法
  3. selenium自动爬取法
阅读更多