变分量子电路的表达能力:傅里叶级数角度解析
工作项目中经常需要利用变分量子线路(Variational Quantum Circuits, VQCs)执行分类以及回归任务,在初步设计一些量子线路后发现效果相比普通神经网络存在一定差距,因此对VQC的表达能力进行了简单的研究,在这里进行记录。首先对一篇经典的编码能力探索论文开始介绍,该文章从傅里叶级数角度研究了量子电路的表达能力,给后续大量研究进行了启发,本篇博客主要对该论文进行解析,也希望与相关领域从业者共同探讨。
变分量子电路: 数据编码影响表达能力1
《the effect of data encoding on the expressive power of variational quantum machine learning models》探讨了参数化量子电路作为函数逼近器时,数据编码策略如何影响其表达能力。第一作者来自加拿大的Xanadu公司,该公司专注于光量子计算机研发,同时也领导了开源软件Pennylane量子编程框架的开发。Pennylane在量子机器学习领域非常好用,支持联合多种主流的深度学习框架,例如pytorch、TensorFlow,以及其他开源的量子计算框架,例如IBM的qiskit。我个人在接触后也选择了该框架进行量子算法开发,在后续的工作中也会进行相关的介绍。
该论文的核心内容总结如下:
-
部分傅里叶级数表示:研究表明可以自然地将量子电路表示为关于数据的部分傅里叶级数,其中可访问的频率由电路中数据编码门的性质决定。通过重复简单的数据编码门,量子模型可以访问越来越高的频率。
-
数据编码与模型表达性:即使能够实现非常宽广且深层的量子电路(这可能在经典上难以模拟),对应的量子模型的表达性从根本上受数据编码策略的限制。实验显示,仅使用Pauli-X旋转进行数据编码的结果只能拟合单个频率的傅里叶级数,并且只有当这个频率与数据缩放方式精确匹配时才能成功。
-
扩展频率谱:研究展示了通过在并行或串联中重复使用编码门的方法,可以系统地增加傅里叶级数的个数,从而扩展可访问的频率范围。
这项工作提供了一个框架,为相关更深入的量子电路表达性分析奠定了基础,也为寻找这些模型的合适应用提供了指导。此外,还提出了几个开放问题,比如是否能利用此框架理解并量化量子模型的泛化能力,以及对于有深度限制的可训练电路块能否证明量子模型的普遍性。下面按照论文的写作框架进行总结:
一、量子电路的傅里叶级数表示
根据论文中的内容,量子模型可以表示为傅里叶级数的原理是基于量子电路结构和数据编码方式。具体来说,这个原理可以通过以下公式进行阐述:
- 一个(单变量)量子模型 $f(x)$ 被定义为相对于某个状态准备的参数化量子电路的可观测量的期望值: $ f(x) = \langle 0 | U^\dagger(x, \theta) M U(x, \theta) | 0 \rangle, $
其中 $ | 0\rangle$ 是量子计算机的初始状态,$U(x, \theta)$ 是依赖于输入 $x$ 和一组参数 $\theta$ 的量子电路,而 $M$ 是某个可观测哈密顿量。 |
-
量子电路 $U(x)$ 可以写成一系列层的组合,每层包含一个数据编码块 $S(x)$ (和输入数据有关)和一个可训练的电路块 $W$(包含参数)。对于 L 层的电路,其形式如下: $ U(x) = W^{(L+1)} S(x) W^{(L)} \ldots W^{(2)} S(x) W^{(1)}. $
-
数据编码块 $S(x)$ 通常由形如 $G(x) = e^{-ixH}$ 的门组成,其中 $H$ 是用于数据编码的哈密顿量。这些门的作用是将输入数据映射到量子态上,从而影响最终输出函数的形式。
-
通过这种构造,量子模型可以自然地表达为一种类似于傅里叶级数的和式: $ f(x) = \sum_{\omega \in \Omega} c_\omega e^{i\omega x}, $
这里的 $\omega$ 表示频率,而系数 $c_\omega$ 则由整个电路设计所控制。
-
频率谱 $\Omega$ 完全由数据编码哈密顿量的特征值决定。如果特征值是整数或整数倍的基本频率 $\omega_0$,那么求和就变成了多维的部分傅里叶级数: $ f(x) = \sum_{n \in \Omega} c_n e^{inx}. $
-
对于单个Pauli旋转编码的情况,例如使用 $G(x) = e^{-ixH}$ 来编码输入 $x$,并且 $H=(1/2)\sigma$ (其中 $\sigma$ 是 Pauli 矩阵之一),这样的量子模型总是会导致形式为 $f(x) = A \sin(2\gamma x + B) + C$ 的函数,这里 $A, B, C$ 是常数,由非编码部分的变分电路确定。这表明单个Pauli旋转只能学习正弦函数。
-
为了扩展能够学习的函数范围,可以通过重复数据编码门来增加傅里叶级数的次数,从而访问更高的频率成分。
综上,通过选择适当的数据编码策略和电路设计,量子模型可以被看作是一种特定频率成分的加权和,即傅里叶级数。这种方法不仅提供了一种理解量子模型表达能力的方式,还允许利用傅里叶分析中的工具和技术来研究量子机器学习模型的性质。
二、量子电路的表达能力
论文的第二部分探讨了量子模型表达能力的具体性质,特别是通过单个和多个泡利旋转(Pauli rotations)进行编码时的影响。这部分内容可以分为两个核心结论:
A. 单个泡利旋转编码只能学习正弦函数
论文中指出,当使用一个单量子比特门 $G(x) = e^{-ixH}$ 来编码输入 $x$ 时,其中 $H$ 是哈密顿量且具有两个不同的特征值 $\lambda_1, \lambda_2$,可以不失一般性地将能量谱重新缩放到 $(-γ, γ)$,因为全局相位是不可观测的。对于泡利旋转,$H=(1/2)\sigma$,这里 $\sigma$ 可以是 $\sigma_x, \sigma_y, \sigma_z$ 中的一个,对应的 $\gamma=1/2$。
在这种情况下,论文证明了这样的模型总是导致形式为 $ f(x) = A \sin(2\gamma x + B) + C $ 的函数,其中 $A, B, C$ 是由变分电路中的非编码部分决定的常数。这表明,仅使用一次泡利旋转来编码数据限制了量子模型能够学习到的函数类,即它只能学习到一个简单的正弦函数(或者等价地说,是一个具有单一频率的傅里叶级数)。
B. 多个泡利旋转算法线性拓展频谱空间
为了克服上述限制,论文展示了通过重复使用泡利旋转编码门,可以系统地增加傅里叶级数的个数,从而扩展可访问的频率范围。具体来说:
- 对于单层模型($L=1$),如果在并行中重复 $r$ 次编码门(如图2b所示),则可以通过以下方式实现: $ S(x) = e^{-ix^2 \sigma_r} \otimes \cdots \otimes e^{-ix^2 \sigma_1}, $
这相当于 $S(x) = V e^{-ix^2 \sum_{q=1}^{r} \sigma_z^{(q)}} V^\dagger$,其中 $\sigma_j \in {\sigma_x, \sigma_y, \sigma_z}$ 并且 $V$ 是用于对角化每个旋转门的矩阵。
- 对于多层模型($L>1$),如果在串联中重复 $r=L$ 次编码门(如图2a所示),也可以达到同样的效果。
通过这两种方法,量子模型可以访问的频率数量从1增加到了 $r$,因此模型的表达能力得到了增强。这意味着,随着重复编码门的次数增加,量子模型能够拟合更复杂的函数,其傅里叶级数包含更多不同频率的成分。
C. 表达能力的极限
当使用 $L$ 次重复的数据编码门时,编码门的维度为 $d$(最多不超过整个希尔伯特空间的大小),可以推导出量子模型表达能力的上界。
- 最大频谱尺寸: 量子模型的最大频谱尺寸 $K(L, d)$ 可以量化模型能够“支持”或“访问”的频率数量。频谱 $\Omega$ 定义为 $ \Omega = { (\lambda_{j_1} + … + \lambda_{j_L}) - (\lambda_{k_1} + … + \lambda_{k_L}) }, $
其中索引 $j_1, …, j_L, k_1, …, k_L$ 遍历编码门的所有维度,从1到 $d$。由于频率是2$L$项之和,每项可以有 $d$ 个可能值,因此它们最多可以实现 $d^{2L}$ 个不同的值——无论特征值是实数还是整数值。
-
频谱尺寸的计算: 由于 $K$ 计算时将 $-\omega$ 和 $\omega$ 视作一对,并且排除了“零频率”,我们得到 $ K \leq \frac{d^{2L} - 1}{2}. $
-
单量子比特编码门的例子: 如果数据被编码进一个单量子比特编码门,那么根据之前的讨论,模型的度为 $2^2 - 1 = 3$。这意味着对于单量子比特编码,模型可以访问有限数量的频率,这限制了它所能逼近的函数类。
-
一般结论: 无论频率是整数还是非整数,量子模型的表达能力由两方面决定:一是量子模型的频率谱,包括其大小和程度;二是每个频率的系数的表现力。这两者共同决定了不同量子模型能够学习的函数类。
这些结果表明,尽管量子电路可以通过增加层数和重复编码门来提高表达能力,随着 $L$ 的增长,可访问的频率范围扩大,但是总的频谱尺寸仍然是有限的,这意味着存在一个理论上的上限,超过这个上限后,进一步增加复杂性并不能显著提升模型的表现力。此外,这也暗示着在实际应用中选择合适的量子模型设计至关重要,需要平衡模型复杂性和所需表达能力之间的关系。
三、量子模型的渐近universal特性
在论文的第三部分,作者探讨了量子模型作为函数逼近器的渐近universal特性,即在一定条件下,量子模型能够逼近任意平方可积函数。
模型定义和分析
1. 模型定义
量子模型 $f(x)$ 被定义为参数化量子电路的输出,具体形式为: $ f(x) = \langle 0 | U^\dagger(x, \theta) M U(x, \theta) | 0 \rangle, $
其中 $ | 0\rangle$ 是初始状态,$U(x, \theta)$ 是依赖于输入 $x$ 和参数 $\theta$ 的量子电路,$M$ 是一个可观测量。 |
2. 量子电路结构
量子电路 $U(x, \theta)$ 由数据编码块 $S(x)$ 和可训练的电路块 $W(\theta)$ 组成,形式为: $ U(x, \theta) = W^{(2)}(\theta^{(2)}) S(x) W^{(1)}(\theta^{(1)}), $
其中 $S(x) = e^{-ix_1 H_1} \otimes \cdots \otimes e^{-ix_N H_N}$ 是数据编码块,$W(\theta)$ 是可训练的电路块。
3. 傅里叶级数表示
作者证明了量子模型可以自然地表示为关于输入数据的部分傅里叶级数: $ f(x) = \sum_{\omega \in \Omega} c_\omega e^{i\omega x}, $
其中 $\Omega$ 是由数据编码哈密顿量 $H$ 的特征值决定的频率集合,$c_\omega$ 是由整个电路设计控制的系数。
4. 渐近universal的条件
为了使量子模型成为通用函数逼近器,需要满足以下条件:
- 丰富的频率谱:频率集合 $\Omega$ 必须足够丰富,即能够包含足够多的频率成分。
- 灵活的系数控制:可训练的电路块 $W(\theta)$ 必须足够灵活,能够调整傅里叶系数 $c_\omega$。
渐近universal的证明
证明的大致思路如下:
- 频率谱的生成:通过重复使用数据编码门,可以系统地增加频率谱的大小。具体来说,对于 $L$ 次重复的数据编码门,频率谱的大小可以达到 $K \leq \frac{d^{2L} - 1}{2}$,其中 $d$ 是编码门的维度。
-
傅里叶系数的调整:通过选择合适的初始状态 $ \Gamma \rangle$ 和可观测量 $M$,可以实现任意傅里叶系数的精确调整。 - 逼近任意平方可积函数:由于任意平方可积函数可以用截断的傅里叶级数任意精度地逼近,因此只要频率谱足够丰富且系数可以任意调整,量子模型就可以逼近任意平方可积函数。
结论
通过上述分析,作者得出了以下结论:
- 存在一个量子模型,可以实现任意傅里叶系数集。
- 当频率谱足够丰富时,这样的量子模型是通用函数逼近器。
- 量子模型的渐近普遍性取决于数据编码策略和可训练电路块的灵活性。
论文的第三部分通过严格分析,证明了在一定条件下,量子模型可以逼近任意平方可积函数,这一结论为量子机器学习的应用提供了坚实的理论基础,并强调了数据编码策略和电路设计的重要性。
四、对量子机器学习的启发
论文的第四部分讨论了研究结果对量子机器学习的实际意义。这部分内容主要集中在两个方面:一是如何将许多已提出的量子模型纳入本文分析框架,二是为设计量子机器学习算法提供指导原则。
A. 数据编码和预处理
-
基础模型: 本论文的基础模型假设数据特征通过$S(x)$ 编码由形如 $G(x) = e^{-ixH}$ 的门组成。其中 $H$ 是用于编码的哈密顿量。
-
数据编码策略: 上述编码方案$S(x)$ 可以对应于不同的量子态编码方法,在很多量子机器学习算法会采用不同的数据编码策略。该步骤将原始特征 $x$ 映射到新的特征 $\phi(x) = (\phi_1(x), …, \phi_n(x))$,这些新特征对应于需要旋转的角度,或者量子比特的振幅。
-
重复编码扩大傅里叶级数: 研究表明,对于单个输入特征,量子模型可以被看作是在角度上的多维傅里叶级数,其频率谱大小最多为 $n$。换句话说,数据多次编码改变了可访问的傅里叶频谱,从而改变了模型所能表示的特征。
B. 设计指南
-
选择合适的预处理方法: 预处理的选择对最终量子模型的表现至关重要。不同的预处理方法会导致不同的频率谱,进而影响模型能够学习的函数类。因此,在设计量子机器学习算法时,应该仔细考虑预处理步骤。
-
利用丰富的频率谱: 为了提高模型的表达能力,可以通过重复使用数据编码门来增加可访问的频率数量。这可以通过并行或串联的方式实现,从而系统地扩展模型能够逼近的函数范围。
-
训练策略: 由于量子模型的表达能力受数据编码和电路结构的影响,因此在训练过程中需要考虑到这一点。有效的训练策略可以帮助找到最佳的参数设置,以便模型能够更好地拟合目标函数。
论文的第四部分强调了数据编码策略在量子机器学习中的重要性,并提供了设计高效量子机器学习算法的具体建议。
参考文献
-
the effect of data encoding on the expressive power of variational quantum machine