Go语言二进制文件的读写操作

Go语言的二进制 (gob) 格式是一个自描述的二进制序列。从其内部表示来看,Go语言的二进制格式由一个 0 块或者更多块的序列组成,其中的每一块都包含一个字节数,一个由 0 个或者多个 typeId-typeSpecification 对组成的序列,以及一个 typeId-value 对。

如果 typeId-value 对的 typeId 是预先定义好的(例如,bool、int 和 string 等),则这些 typeId-typeSpecification 对可以省略。否则就用类型对来描述一个自定义类型(如一个自定义的结构体)。类型对和值对之间的 typeId 没有区别。

正如我们将看到的,我们无需了解其内部结构就可以使用 gob 格式, 因为 encoding/gob 包会在幕后为我们打理好一切底层细节。

encoding/gob 包也提供了与 encoding/json 包一样的编码解码功能,并且容易使用。通常而言,如果对肉眼可读性不做要求,gob 格式是 Go语言上用于文件存储和网络传输最为方便的格式。

写 Go语言二进制文件

下面有个方法用于将整个 []*invoice 项的数据以 gob 的格式写入一个打开的文件(或者是任何满足 io.Writer 接口的值)中。
type GobMarshaler struct{}

func (GobMarshaler) MarshalInvoices(writer io.Writer, invoices []*Invoice) error {
    encoder := gob.NewEncoder(writer)
    if err := encoder.Encode(magicNumber); err != nil {
        return err
    }
    if err := encoder.Encode(fileVersion); err != nil {
        return err
    }
    return encoder.Encode(invoices)
}
在方法开始处,我们创建了一个包装了 io.Writer 的 gob 编码器,它本身是一个 writer,让我们可以写数据。

我们使用 gob.Encoder.Encode() 方法来写数据。该方法能够完美地处理我们的发票切片,其中每个发票切片包含它自身的发票项切片。该方法返回一个空或者非空的错误值。如果发生错误,则立即返回给它的调用者。

往文件写入幻数 (magic number) 和文件版本并不是必需的,但正如将在练习中所看到的那样,这样做可以在后期更方便地改变文件格式。

需注意的是,该方法并不真正关心它编码数据的类型,因此创建类似的函数来写 gob 数据区别不大。此外,GobMarshaler.MarshalInvoices() 方法无需任何改变就可以写新数据格式。

由于 Invoice 结构体的字段都是布尔值、数字、字符串、time.Time 值以及包含布尔值、数字、字符串和 time.Time 值的结构体(如 Item),这里的代码可以正常工作。

如果我们的结构体包含某些不可用 gob 格式编码的字段,那么就必须更改该结构体以便满足 gob.GobEncoder 和 gob.GobDecoder 接口。该 gob 编码器足够智能来检查它需要编码的值是不是一个 gob.GobEncoder,如果是,那么编码器就使用该值自身的 GobEncode() 方法而非编码器内置的编码方法来编码。

相同的规则也作用于解码时,检查该值是否定义了 GobDecode() 方法以满足 gob.GobDecoder 接口。(该 invoicedata 例子的源代码 gob.go 文件中包含了相应的代码,将 Invoice 定义成一个编码器和解码器。因为这些代码不是必须的,因此我们将其注释掉,只是为了演示如何做。)让一个结构体满足这些接口会极大地降低 gob 的读写速度,也会产生更大的文件。

读 Go语言二进制文件

读 gob 数据和写一样简单,如果我们的目标数据类型与写时相同。GobMarshaler.UnmarshalInvoices() 方法接受一个 io.Reader(例如,一个打开的文件),并从中读取 gob 数据。
func (GobMarshaler) UnmarshalInvoices(reader io.Reader)([]*Invoicer, error) {
    decoder := gob.NewDecoder(reader)
    var magic int
    if err := decoder.Decode(&magic); err != nil {
        return nil, err
    }
    if magic != magicNumber {
        return nil, errors.New("cannot read non-invoices gob file")
    }
    var version int
    if err := decoder.Decode(&version); err != nil {
        return nil, err
    }
    if version > fileVersion {
        return nil, fmt.Errorf("version %d is too new to read", version)
    }
    var invoices []*Invoice
    err := decoder.Decode(&invoices)
    return invoices, err
}
我们有 3 项数据要读:幻数、文件版本号以及所有发票数据。gob.Decoder.Decode() 方法接受一个指向目标值的指针,返回一个空或者非空的错误值。我们使用头两个变量(幻数和版本号)来确认我们得到的是一个 gob 格式的发票文件,并且该文件的版本是我们可以处理的。

然后,我们读取发票文件,在此过程中,gob.Decoder.Decode() 方法会根据所读取的发票数据增加 invoices 切片的大小,并根据需要来将指向函数实时创建的 Invoices 数据(及其发票项)的指针保存在 invoices 切片中。最后,该方法返回 invoices 切片,以及一个空的错误值,或者如果发生问题则返回非空的错误值。

如果发票数据由于添加了导出字段被更改了,针对布尔值、整数、字符串、time.Time 值以及包含这些类型值的结构体,该方法还能继续工作。当然,如果数据包含其他类型,那就必须更新方法以满足 gob.GobEncoder 和 gob.GobDecoder 接口。

处理结构体类型时,gob 格式非常灵活,能够无缝地处理一些不同的数据结构。例如,如果一个包含某值的结构体被写成 gob 格式,那么就必然可以从 gob 格式中将该值读回到此结构体,甚至也读回到许多其他类似的结构体,比如包含指向该值指针的结构体,或者结构体中的值类型兼容也可(比如 int 相对于 uint,或者类似的情况)。

同时,正如 invoicedata 示例所示,gob 格式可以处理嵌套的数据。gob 的文档中给出了它能处理的格式以及该格式的底层存储结构,但如果我们使用相同的类型来进行读写,正如上例中所做的那样,我们就不必关心这些。