Go 爬虫框架

今天给大家分享一个 Go 语言领域可能是最知名的爬虫框架了。

这个开源项目有 17.5k star，可见非常受欢迎。

没错，它就是：colly。

colly 是一个采用 Go 语言编写的 Web 爬虫框架，旨在提供一个能够些任何爬虫 / 采集器 / 蜘蛛的简介模板，通过 Colly。你可以轻松的从网站提取结构化数据，然后进行数据挖掘，处理或归档。

功能特性：

清晰明了的 API
速度快（每个内核上的请求数大于 1K）
管理每个域的请求延迟和最大并发数
自动 cookie 和会话处理
同步 / 异步 / 并行抓取
高速缓存
自动处理非 Unicode 编码
支持 Robots.txt
支持 Google App Engine
通过环境变量进行配置
可拓展

我们来通过一个 hello word 案例快速体验下 colly 的使用。步骤如下：

第一步，导入 colly。

import "github.com/gocolly/colly"

第二步，创建 collector。

c := colly.NewCollector()

第三步，事件监听，通过 callback 执行事件处理。

// Find and visit all links
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
   link := e.Attr("href")
   // Print link
   fmt.Printf("Link found: %q -> %s\n", e.Text, link)
   // Visit link found on page
   // Only those links are visited which are in AllowedDomains
   c.Visit(e.Request.AbsoluteURL(link))
})

c.OnRequest(func(r *colly.Request) {
   fmt.Println("Visiting", r.URL)
})