Elves

一个轻量级的爬虫框架设计与实现，博文分析。

多线程执行
CSS 选择器和 XPath 支持

Maven 坐标

<dependency>
    <groupId>io.github.biezhi</groupId>
    <artifactId>elves</artifactId>
    <version>0.0.2</version>
</dependency>

如果你想在本地运行这个项目源码，请确保你是 Java8 环境并且安装了 lombok 插件。

调用流程图

搭建一个爬虫程序需要进行这么几步操作

编写一个爬虫类继承自 Spider
设置要抓取的 URL 列表
实现 Spider 的 parse 方法
添加 Pipeline 处理 parse 过滤后的数据

举个栗子:

public class DoubanSpider extends Spider {

    public DoubanSpider(String name) {
        super(name);
        this.startUrls(
            "https://movie.douban.com/tag/爱情",
            "https://movie.douban.com/tag/喜剧",
            "https://movie.douban.com/tag/动画",
            "https://movie.douban.com/tag/动作",
            "https://movie.douban.com/tag/史诗",
            "https://movie.douban.com/tag/犯罪");
    }

    @Override
    public void onStart(Config config) {
        this.addPipeline((Pipeline<List<String>>) (item, request) -> log.info("保存到文件: {}", item));
    }

    public Result parse(Response response) {
        Result<List<String>> result   = new Result<>();
        Elements             elements = response.body().css("#content table .pl2 a");

        List<String> titles = elements.stream().map(Element::text).collect(Collectors.toList());
        result.setItem(titles);

        // 获取下一页 URL
        Elements nextEl = response.body().css("#content > div > div.article > div.paginator > span.next > a");
        if (null != nextEl && nextEl.size() > 0) {
            String  nextPageUrl = nextEl.get(0).attr("href");
            Request nextReq     = this.makeRequest(nextPageUrl, this::parse);
            result.addRequest(nextReq);
        }
        return result;
    }

}

public static void main(String[] args) {
    DoubanSpider doubanSpider = new DoubanSpider("豆瓣电影");
    Elves.me(doubanSpider, Config.me()).start();
}

MIT

GitHub - biezhi/elves: ? 轻量级的爬虫框架设计和实现

Elves

调用流程图

Recommend

求推荐千元安卓机 - V2EX

这次的 CPU 漏洞补丁你会打吗? - V2EX

如何评价这几天ob众人以及一堆大手的高端对黑？ - 知乎

Using a Yubikey for GPG and SSH | Sebastian Neef - 0day.work

GitHub - OJ/gobuster: Directory/file & DNS busting tool written in Go

基于weex的考拉移动端动态化方案

东北是个神奇的地方。按说哪儿都有恶人，但作恶大都得图点儿什么，损人不利己的事儿一...

这年头玩游戏那么多开挂，考试那么多作弊，搞个直播答题也那么多用工具搜索，这样会影...

你坚持过哪些细小的好习惯？ - 知乎

国内有哪些御姐范、气场很强的女明星？ - 知乎

About Joyk