下载和安装

使用maven下载

当前最新版本1.1.0

  • gecco核心库

    <dependency>
        <groupId>com.geccocrawler</groupId>
        <artifactId>gecco</artifactId>
        <version>x.x.x</version>
    </dependency>
    
  • spring插件

    <dependency>
        <groupId>com.geccocrawler</groupId>
        <artifactId>gecco-spring</artifactId>
        <version>x.x.x</version>
    </dependency>
    
  • htmlunit插件

    <dependency>
        <groupId>com.geccocrawler</groupId>
        <artifactId>gecco-htmlunit</artifactId>
        <version>x.x.x</version>
    </dependency>
    
  • redis插件

    <dependency>
        <groupId>com.geccocrawler</groupId>
        <artifactId>gecco-redis</artifactId>
        <version>x.x.x</version>
    </dependency>
    

不使用maven下载

如果你没有使用maven构建项目,这里提供了gecco核心库和依赖的所有lib包的下载

如果需要使用spring、htmlunit、redis等相关插件,这里提供了核心库和所有插件以及相关依赖的lib包的all-in-one下载

日志输出

应用的classpath的根目录下放置log4j.properties

log4j.rootLogger=error,stdout

#stdout console appender
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%d{yyyy.MM.dd HH:mm:ss}] %p %C:%M(%L) - %m%n
  • 查看gecco相关的应用debug信息可以设置

    log4j.logger.com.geccocrawler.gecco=debug

  • 如果使用的是httpclient作为下载引擎,可以通过设置查看详细的http请求信息

    log4j.logger.org.apache.http=debug

代理文件

如果需要使用代理ip,可将proxys文件放置在classpath的根目录下,格式为ip:port例如:

127.0.0.1:8008
127.0.0.1:80

gecco支持运行时计算每个代理的下载成功率,对于成功率低于50%的代理自动剔除。另外,运行时也可以通过Proxys.addProxy()动态添加代理服务器。

userAgent

系统默认已经放置了userAgent文件,如果需要自定义userAgent,可以在classpath的根目录下放置userAgents和mobileUserAgents。userAgents是pc端使用的,mobileUserAgents是手机端使用的。格式如下:

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;