Java爬虫一键爬取结果并保存为Excel

2020-01-12 16:00:51来源:博客园 阅读 ()

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

Java爬虫一键爬取结果并保存为Excel

Java爬虫一键爬取结果并保存为Excel

将爬取结果保存为一个Excel表格
官方没有给出导出Excel 的教程 这里我就发一个导出为Excel的教程

导包

因为个人爱好 我喜欢用Gradle所以这里就弄Gradle配置

//爬虫包
compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.3'
compile group: 'us.codecraft', name: 'webmagic-extension', version: '0.7.3'

//poi包 office操作
compile group: 'org.apache.poi', name: 'poi', version: '4.0.1'

maven的话也发一个吧

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>4.0.1</version>
</dependency>

<!-- 爬虫包 -->
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>0.7.3</version>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>0.7.3</version>
</dependency>

实现原理

这里我实现了Pipeline接口这个接口是保存结果的
从这个接口里进行保存操作
这里的save()命令加了个synchronized的目的是为了防止多线程操作的时候出现线程安全的问题

实现代码

下面请看Java代码

import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.*;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;
import us.codecraft.webmagic.utils.FilePersistentBase;


import java.io.FileOutputStream;
import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.List;


/**
 * 爬虫爬取结果导出到Excel
 * extends
 *  FilePersistentBase   文件保存的父类 提供创建目录等方便的操作
 *
 * implements:
 *  PageProcessor   爬虫的页面操作
 *  Pipeline   爬取的结果操作
 */
public class WebmagicAndPoiDemo extends FilePersistentBase implements PageProcessor,Pipeline {
    public WebmagicAndPoiDemo(){
        logger = LoggerFactory.getLogger(getClass());
        site = Site.me().setTimeOut(1000).setRetryTimes(3);
        //设置保存路径
        setPath("G:\\IdeaProjects\\WebMagicDemo\\Temp\\");
        filename = new SimpleDateFormat("yyyyMMddHHmmss").format(new Date()) +".xls";
        //创建工作薄对象
        workbook = new HSSFWorkbook();//这里也可以设置sheet的Name
        //创建工作表对象
        sheet = workbook.createSheet("爬取结果");

        //创建工作表的行
        HSSFRow row = sheet.createRow(rows);
        row.createCell(0).setCellValue("id");
        row.createCell(1).setCellValue("名称");
        row.createCell(2).setCellValue("连接地址");
        rows++;

    }

    private String filename;
    private int rows = 0;
    private HSSFWorkbook workbook;
    private HSSFSheet sheet;
    private Site site;
    private Logger logger;


    @Override
    public Site getSite() {
        return site;
    }


    @Override/** 这个是Pipeline的方法 **/
    public void process(ResultItems resultItems, Task task) {
        List<String> hrefs = resultItems.get("href");
        List<String> texts = resultItems.get("text");
        logger.debug(hrefs.toString());
        logger.debug(texts.toString());

        for (int i=0;i<hrefs.size();i++){
            //创建工作表的行
            HSSFRow row = sheet.createRow(rows);
            row.createCell(0).setCellValue(rows);
            row.createCell(2).setCellValue(hrefs.get(i));
            row.createCell(1).setCellValue(texts.get(i));
            rows++;
        }
        save();
    }
    /** 保存表格 **/
    private synchronized void save() {
        try {
            //文档输出
            FileOutputStream out = new FileOutputStream(getFile(this.path).getPath()+"\\"+filename);
            workbook.write(out);
            out.close();
            logger.info(this.path+"\\"+filename+"存储完毕");
        } catch (IOException e) {
            logger.warn("存储失败", e);
        }
    }


    @Override/** 这个是PageProcessor的方法 **/
    public void process(Page page) {
        Selectable html = page.getHtml();
        Selectable href = html.$(".postTitle2","href");
        Selectable text = html.$(".postTitle2","text");
        page.putField("href",href.all());
        page.putField("text",text.all());
    }


    public static void main(String[] args) {
        //爬取自己的博客的帖子
        WebmagicAndPoiDemo app = new WebmagicAndPoiDemo();
        Spider.create(app).addPipeline(app)
        .addUrl("https://www.cnblogs.com/xiaoshuai123/").thread(1).run();
    }
}

原文链接:https://www.cnblogs.com/xiaoshuai123/p/12182452.html
如有疑问请与原作者联系

标签:HTTP文件PSvalue问题操作

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:一个支持种子、磁力、迅雷下载和磁力搜索的APP源代码

下一篇:这一年,从学生到职场