2019-04-07发表2021-09-12更新1 分钟读完 (大约146个字)

re库提取网页文本的方法

这是一种提取网页中的显示的文本内容，去除标签的方法。

主要用到了re库。直接上代码：

# -*- coding: utf-8 -*-
from urllib import request
import re

def get_html(url):
    wp = request.urlopen(url) #打开连接
    content = wp.read() #获取页面内容
    content = content.decode(encoding='utf-8')
    print(content)
    first = re.findall(r"<p.+?>(.+?)</p>", content)
    print(first)

  
    for x in first:
        #r1 = re.compile('[\u4e00-\u9fa5]{2,4}')  # 匹配文字
        #wordList = re.findall(r1, x)

        wordList= re.sub(r'<(.+?)>', "", x)
        for t in wordList:
            k = open('test.htm', 'a')
            k.write(t)
            print (t)

url="https://mp.weixin.qq.com/s/JHoOoOH-3795hb3Y9LV7Gg"
get_html(url)

展示一些结果：

re库提取网页文本的方法

https://wmchappy.cn/2019/04/07/re库提取网页文本的方法/

作者

Mch Wang

发布于

2019-04-07

更新于

2021-09-12

许可协议

#python x 爬虫

re库提取网页文本的方法

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论