C语言中文网教程离线版下载（PDF下载）

VAE变分自编码器及其实现详解

图 1 自编码器的编码器–解码器示例图

现在已经有了 VAE 的基本结构，问题在于如何对它们进行训练，因为训练数据和后验密度的最大可能性是难以处理的。通过最大化 log 数据可能性的下限来训练网络。因此，损失项由两部分组成：通过采样从解码器网络获得的生成损失，以及被称为潜在损失的 KL 发散项。

发生损耗确保了由解码器生成的图像和用于训练网络的图像是相同的，并且潜在损失能够确保后验分布 q_φ(z|x) 接近于先验分布 p_θ(z)。由于编码器使用高斯分布进行采样，所以潜在损耗测量潜在变量与单位高斯匹配的匹配程度。

一旦 VAE 接受训练，只能使用解码器网络来生成新的图像。

具体做法

导入必要的模块。本方法中，需要调用 Numpy、Matplolib 和 TensorFlow 函数：
定义 VariationalAutoencoder 类。采用 __init__ 类方法来定义超参数，如学习率、批量大小、用于输入的占位符、编码器及解码器网络的权重和偏置变量。它还根据 VAE 的网络体系结构建立计算图。在本方法中使用 Xavier 初始化器初始化权重。与使用自己定义的方法进行 Xavier 初始化不同，本方法使用 tf.contrib.layers.xavier_initializer() 来进行初始化。最后，定义损失（生成和潜在）及优化器操作：
创建网络编码器和网络解码器。网络编码器的第一层接收输入并生成输入的递减式潜在表示；第二层将输入映射到高斯分布。网络学习这些转变：
VariationalAutoencoder 类还包含一些帮助函数来生成和重建数据，并适应 VAE：
一旦 VAE 类完成，定义一个函数序列，它使用 VAE 类对象并通过给定的数据进行训练：
使用 VAE 类和序列函数。采用 MNIST 数据集：
定义网络架构，并在 MNIST 数据集上进行 VAE 的训练。在这种情况下，为了简单保留了潜在维度 2。
看一下 VAE 是否重构了输入。输出表明那些数字确实被重构了，而且由于使用了二维的潜在空间，所以图像显得模糊了：

下图是上述代码的输出：
以下是使用经过训练的 VAE 生成的手写数字样本：

以下是由自编码器生成的 MNIST 样字符的范围：

图 2 由自编码器生成的一系列MNIST样字符示意图