Go语言网络爬虫条目处理管道

条目处理管道的接口拥有额外的 ItemProcessors、Send、FailFast 和 SetFailFast 方法,因此其实现类型 myPipeline 的基本结构是这样的:
//条目处理管道的实现类型
type myPipeline struct {
    //组件基础实例
    stub.ModuleInternal
    //条目处理器的列表
    itemProcessors []module.ProcessItem
    //处理是否需要快速失败
    failFast bool
}
代码包 gopcp.v2/chapter6/webcrawler/module/local/pipeline 是存放该类型的位置,其中 New 函数与 analyzer 包中的 New 函数在参数声明列表和参数检查方式方面都很类似,这里就省略不讲了。相关代码包的代码大家可以在网盘(链接:https://pan.baidu.com/s/1yzWHnK1t2jLDIcTPFMLPCA 提取码:slm5)中下载。

除此之外,分析器中有 HTTP 响应解析函数的列表,而条目处理管道中有条目处理函数(以下简称处理函数)的列表。因此,后者的 Send 方法与前者的 Analyze 方法在实现流程方面也大体一致。只不过由于条目处理管道存在对快速失败的设定,所以在流程细节上它们仍有不同。

另外,还要注意,条目处理管道需要让条目依次经过那几个处理函数的加工。也就是说,第一个处理函数的处理结果要作为第二个处理函数的参数,第二个处理函数的处理结果要作为第三个处理函数的参数,以此类推。这是由条目处理管道的设计决定的,也是“管道” 一词要表达的含义。

相比之下,分析器中的解析函数对 HTTP 响应的解析是相互独立的。下面是 Send 方法的代码片段,体现了上述不同:
func (pipeline *myPipeline) Send(item.module.Item) []error {
    //省略部分代码
    var errs []error
    //省略部分代码
    var currentItem = item
    for _, processor := range pipeline.itemProcessors {
        processedItem, err := processor(currentItem)
        if err != nil {
            errs = append(errs, err)
            if pipeline.failFast {
                break
            }
        }
        if processedItem != nil {
            currentltem = processedItem
        }
    }
    //省略部分代码
    return errs
}
ItemProcessors、FailFast和SetFailFast方法的实现都非常简单,在此略过。

至此,我已经讲解了组件相关接口的绝大部分实现,同时阐述了一些我在 Go语言程序编写和软件设计方面的经验,也展示了一些编码技巧。