

markdown-crawler:一个多线程Python网络爬虫
source link: https://www.jdon.com/71817.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

markdown-crawler:一个多线程Python网络爬虫 - 极道
这是一个多线程网络爬虫,可以爬行网站并为每个页面创建 markdown 文件。它主要是为大型语言模型文档解析而创建的,以简化 RAG 用例的大型文档的分块和处理。Markdown 本质上是人类可读的,并保持文档结构,同时保持较小的占用空间。
- 多线程支持以加快爬行速度
- 从上次停下的地方继续抓
- 设置您想要爬行的子项的最大深度
- 支持表格、图像等。
- 验证 URL、HTML、文件路径
- 配置有效基本路径或基本域的列表
- 使用BeautifulSoup解析HTML
- 详细日志记录选项
- 即用型 CLI 界面
用例场景:
- RAG(检索增强生成)-我的主要用例,用它来标准化大型文档和按标题、段落或句子的块
- LLM 微调 - 作为第一步创建大型 Markdown 文件语料库,并利用gpt-3.5-turbo或Mistral-7B提取问答对
- 代理知识 - 将其与autogen结合用于专家代理,例如,如果您希望重建视频游戏或电影的知识语料库,请使用它来生成给定的专家语料库
- 代理/LLM 工具 - 使用它进行在线 RAG 学习,以便您的聊天机器人继续学习。使用 SERP 并通过 markdown-crawler 抓取 + 索引前 N 个结果
安装包
pip install markdown-crawler
执行 CLI
markdown-crawler -t 5 -d 3 -b ./markdown https://en.wikipedia.org/wiki/Morty_Smith
- Python 3.x
- BeautifulSoup4
- requests
- markdownify
Recommend
-
7
使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号昌维我不生产代码,我只是代码的搬运工。
-
9
使用多线程为你的Python爬虫提速的N种姿势,你会几种?2021-01-1429 29 min.最近博主在优化一个爬虫程序,它是博主在2017年左右刚接触 Python 时写下的一个程序。时过境迁,当 Python 2.X 终于寿终正寝成为过去,当博主终于一只脚迈进30岁...
-
9
【Python爬虫】哇!又来一个强大的Python网络库:Urllib3 ...
-
11
jzone-crawler QQ空间爬虫(Java版) 暗恋神器 在你心中是否有一个默默关注的小姐姐? 你是否想知道在遇见她之前在她身边的一切? 确认过眼神,让你...
-
10
pyzone-crawler QQ空间爬虫(Python版) 暗恋神器 在你心中是否有一个默默关注的小姐姐? 你是否想知道在遇见她之前在她身边的一切? 确认过眼神,让...
-
11
Python爬虫编程思想(135):多线程和多进程爬虫--Python与线程 ...
-
8
Python爬虫编程思想(134):多线程和多进程爬虫--线程与进程详解
-
2
Python爬虫编程思想(136):多线程和多进程爬虫--Thread类与线程函数 ...
-
5
Python爬虫编程思想(137):多线程和多进程爬虫--Thread类与线程对象 ...
-
6
Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承 ...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK