selenium初步实现server端自动抓取

通过selenium实现在server端的无界面抓取,一般有两种方案:

  1. 通过headless模式抓取
  2. 通过xvfb实现抓取

下面将对以下两种方法的实现进行说明,说明采用ubuntu和chrome为例。

阅读更多

re库提取网页文本的方法

这是一种提取网页中的显示的文本内容,去除标签的方法。

主要用到了re库。直接上代码:

阅读更多