2

markdown-crawler：一个多线程Python网络爬虫

1 year ago

source link: https://www.jdon.com/71817.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

markdown-crawler：一个多线程Python网络爬虫 - 极道

这是一个多线程网络爬虫，可以爬行网站并为每个页面创建 markdown 文件。它主要是为大型语言模型文档解析而创建的，以简化 RAG 用例的大型文档的分块和处理。Markdown 本质上是人类可读的，并保持文档结构，同时保持较小的占用空间。

多线程支持以加快爬行速度
从上次停下的地方继续抓
设置您想要爬行的子项的最大深度
支持表格、图像等。
验证 URL、HTML、文件路径
配置有效基本路径或基本域的列表
使用BeautifulSoup解析HTML
详细日志记录选项
即用型 CLI 界面

用例场景：

RAG（检索增强生成）-我的主要用例，用它来标准化大型文档和按标题、段落或句子的块
LLM 微调 - 作为第一步创建大型 Markdown 文件语料库，并利用gpt-3.5-turbo或Mistral-7B提取问答对
代理知识 - 将其与autogen结合用于专家代理，例如，如果您希望重建视频游戏或电影的知识语料库，请使用它来生成给定的专家语料库
代理/LLM 工具 - 使用它进行在线 RAG 学习，以便您的聊天机器人继续学习。使用 SERP 并通过 markdown-crawler 抓取 + 索引前 N 个结果

安装包
pip install markdown-crawler

执行 CLI
markdown-crawler -t 5 -d 3 -b ./markdown https://en.wikipedia.org/wiki/Morty_Smith

Python 3.x
BeautifulSoup4
requests
markdownify

Recommend

7
- zhuanlan.zhihu.com 4 years ago
- Cache
使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号
使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号昌维我不生产代码，我只是代码的搬运工。
9
- blog.yuanpei.me 4 years ago
- Cache
使用多线程为你的Python爬虫提速的N种姿势，你会几种？
使用多线程为你的Python爬虫提速的N种姿势，你会几种？2021-01-1429 29 min.最近博主在优化一个爬虫程序，它是博主在2017年左右刚接触 Python 时写下的一个程序。时过境迁，当 Python 2.X 终于寿终正寝成为过去，当博主终于一只脚迈进30岁...
9
- blog.csdn.net 4 years ago
- Cache
【Python爬虫】哇！又来一个强大的Python网络库：Urllib3
【Python爬虫】哇！又来一个强大的Python网络库：Urllib3 ...
11
- Github github.com 3 years ago
- Cache
GitHub - lyy289065406/jzone-crawler: QQ空间爬虫（Java版）
jzone-crawler 　QQ空间爬虫（Java版）暗恋神器　在你心中是否有一个默默关注的小姐姐？　你是否想知道在遇见她之前在她身边的一切？　确认过眼神，让你...
10
- Github github.com 3 years ago
- Cache
GitHub - lyy289065406/pyzone-crawler: QQ空间爬虫（Python版）
pyzone-crawler 　QQ空间爬虫（Python版）暗恋神器　在你心中是否有一个默默关注的小姐姐？　你是否想知道在遇见她之前在她身边的一切？　确认过眼神，让...
11
- blog.csdn.net 3 years ago
- Cache
Python爬虫编程思想（135）：多线程和多进程爬虫--Python与线程
Python爬虫编程思想（135）：多线程和多进程爬虫--Python与线程 ...
8
- blog.csdn.net 3 years ago
- Cache
Python爬虫编程思想（134）：多线程和多进程爬虫--线程与进程详解
Python爬虫编程思想（134）：多线程和多进程爬虫--线程与进程详解
2
- blog.csdn.net 3 years ago
- Cache
Python爬虫编程思想（136）：多线程和多进程爬虫--Thread类与线程函数
Python爬虫编程思想（136）：多线程和多进程爬虫--Thread类与线程函数 ...
5
- blog.csdn.net 3 years ago
- Cache
Python爬虫编程思想（137）：多线程和多进程爬虫--Thread类与线程对象
Python爬虫编程思想（137）：多线程和多进程爬虫--Thread类与线程对象 ...
6
- blog.csdn.net 3 years ago
- Cache
Python爬虫编程思想（138）：多线程和多进程爬虫--从Thread类继承
Python爬虫编程思想（138）：多线程和多进程爬虫--从Thread类继承 ...

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK