量子电子学报, 2025, 42 (1): 70, 网络出版: 2025-03-13  

基于深度强化学习的量子奥托循环性能优化【增强内容出版】

Performance optimization of quantum Otto cycle via deep reinforcement learning
作者单位
1 山东工商学院信息与电子工程学院, 山东 烟台 264005
2 山东工商学院计算机科学与技术学院, 山东 烟台 264005
摘要
针对通常情况下实现高性能的绝热捷径量子奥托循环 (QOC) 需要施加复杂调控场的难题, 研究了实验上相对便于操控的线性驱动场下QOC的性能特征。利用基于策略函数的深度强化学习, 对以单量子比特为工质的QOC膨胀与压缩过程的附加驱动场进行优化, 实现了线性驱动场下高性能的QOC。与非绝热自由演化方案下的QOC对比, 优化附加驱动方案下的QOC在输出功、功率以及效率方面都表现出显著的优越性。特别是在较短循环周期中, 自由演化方案下的QOC因大量不可逆功的产生, 完全抑制了正功的输出, 然而优化驱动方案下的QOC却仍能正常运行(有正功输出)。本工作初步检验了深度强化学习在优化量子热机性能中的有效性。
Abstract
In response to the challenge that complicated control fields are generally required for realizing the high-performance shortcuts to adiabaticity quantum Otto cycle (QOC), the performance characteristics of QOC under linear driving field which is easy to manipulate in experiment, are studied in this work. Using the strategy-based deep reinforcement learning, the driving field added during the expansion and compression processes of QOC with single qubit as the working medium is optimized, and then the high-performance QOC under linear driving field can be realized. Compared with the scheme of QOC with the non-adiabatic free evolution, the QOC under the optimized additional driving scheme exhibits significant advantages in the output work, power and efficiency. Especially, in the case of short-cycle period, for the QOC under free evolution scheme, the output of positive work is completely suppressed due to the generation of a large amount of irreversible work, while the QOC under the optimized driving scheme can still operate normally (with output positive work). This work preliminarily tests the validity of deep reinforcement learning in optimizing the performance of quantum engine.

0 引言

能量转化是研究物质热力学性质的主要切入点之一。随着纳米技术的发展, 微观量子系统下热能的高效利用逐渐受到人们的关注, 推动了量子热机的理论和实验研究。量子热机是研究微观系统下能量转换与控制的重要平台, 能够促进人们对微观量子系统下能量转换物理机制的深入认识。这对纳米器件、分子马达以及超大规模集成电路领域的能量传输、转换控制等方面具有实际应用价值。

量子奥托循环(QOC)是热机循环的一种重要循环方式。与经典奥托循环类似, 一个理想的QOC包括两个等容热化过程和两个准静态绝热做功过程。在理想的QOC中, 准静态绝热膨胀/压缩过程在保证量子奥托热机获得最高效率的同时, 也会导致其平均输出功率趋于零。因此, 研究如何获得较高QOC效率的同时又提升其输出功率是必要的。近年来, 学者们提出了一种加速系统绝热演化的方法—绝热捷径(STA) 技术[1-5], 其中反向透热补偿驱动法[6-10] 是较常见的一种, 被应用于一维谐振子系统[6,7]、单/双比特[8]和多体自旋链系统[9,10] 等构造的QOC。在理论上, STA技术已被证明对QOC性能的提升是有效的。但是, 绝热捷径方案下的控制场函数通常为高阶非线性的复杂函数, 在实验上不便于操控。近年来, 机器学习作为数据处理与计算的强大工具, 已被广泛应用于统计、控制等多学科。近期, 机器学习也开始被应用于量子物理领域, 执行某些特定的任务, 如量子态制备[11,12]、非平衡量子系统动力学演化路径调控[13]以及量子热机性能优化[14,15]等。然而, 机器学习算法在量子热机中的应用研究目前尚处于初步探索阶段, 相关的研究成果较少。基于不同特征的量子热机模型如何借助机器学习实现性能优化是值得探索的课题。

本文以单自旋量子比特系统为工质, 研究了热机在便于调控的线性驱动场下执行膨胀/压缩过程的有限时间内的QOC的性能。结合基于策略函数的深度强化学习算法, 分析了QOC膨胀和压缩过程中附加驱动场的最优驱动策略(附加驱动场强度的优化分布), 探讨了优化附加驱动方案下QOC的性能特征。

1 QOC模型

本研究以单量子比特系统为工质, 研究其在磁场调控下执行QOC的热力学性能。考虑工质满足 Landau-Zener模型, 则其哈密顿量可表示为

H0t=bxtσx+bztσz,

式中bx(t)bz(t) 分别代表沿xz轴添加的外磁场。类似于STA方案下的驱动方式, 在系统膨胀/压缩过程中施加沿y轴方向的附加驱动场, 记为Hedt=-fedtσy, fedt 代表含时驱动场强度。因此, 在膨胀/压缩演化过程中, 系统的总哈密顿量可表示为

Ht=bxtσx+bztσz-fedtσy .

为了简化研究, 设定x轴方向的磁场强度固定不变, bxt=Bx。对于反向透热补偿方案下的QOC, 通常要求沿z轴方向施加的磁场bzt为复杂的高阶时间函数, 这在实际实验中较难调控。因此, 本文考虑热机在膨胀/压缩过程中施加较易控制的线性磁场, 即膨胀/压缩过程分别有bzexpt=Bz(τ-t)/τbzcompt=Bzt/τ, t[0,τ], Bzτ分别代表热机膨胀前磁场强度和膨胀或压缩过程时长。此时, 热机膨胀与压缩过程中的哈密顿量可表示为

Hjt=H0jt-fedjtσy=Bxσx+bzjtσz-fedjtσy ,

式中: H0jtHjt分别代表工质在膨胀 (j=exp) 和压缩过程 (j=comp) 中自由演化 [无附加场作用, fedjt=0]和施加附加驱动场 [ fedjt0] 情况下的哈密顿量, 其中H0jt=Bxσx+bzjtσz

1.1 理想绝热QOC

在不考虑施加附加驱动场的理想QOC中, 整个循环由两个量子绝热过程和两个等容热化过程构成(如图1所示), 具体执行过程如下:

图 1. 理想的量子奥托循环示意图

Fig. 1. Diagram of the ideal QOC

下载图片 查看所有图片

第一步: 绝热膨胀过程(A→B)。工质与温度为Th的高温库脱离, 并执行τ1时长的等熵(s2)膨胀。这个过程中含时控制参数bzt非常缓慢地由bz2减小至bz1 (满足准静态过程)。该过程中系统完全孤立于环境, 因此无热交换发生, 系统仅仅对外做功, 做功量为

W1=H0expbz2ρA-H0expbz1ρB=i=12PiAEiA-EiB,

式中: ρA,B=i=12PiA,BEiA,BEiA,B, 代表工质处于A和B点处的密度矩阵, 其中EiA,BEiA,B (i=1,2) 为工质于A和B处对应的哈密顿量H0expbz2H0expbz1的能量本征值, 且E1A=-Bx2+bz22E2A=Bx2+bz22E1B=-Bx2+bz12E2B=Bx2+bz12; PiA,B表示工质处于相应能级上的概率, 且满足PiB=PiA=EiAe-βhH0expbz2/ZAEiA (准静态过程系统无能级跃迁发生), ZA=Tre-βhH0expbz2=i=12e-βhEiA为配分函数。

第二步: 等容冷却过程 (B→C)。在该过程中保持控制参数bz1不变。工质与温度为Tc的冷库持续接触时长τ2后达到热平衡, 同时工质的熵由s2减小至s1。在该过程中工质能级不发生改变(工质不对外界做功), 工质与冷库间发生的热交换量可表示为

Q2=TrρB-ρCH0expbz1=i=12PiB-PiCEiB ,

式中: ρC=i=12PiCEiCEiC为热态, PiC=EiCe-βcH0expbz1/ZCEiC=e-βcEiC/ZC (式中βc=1/Tc)代表工质处于第i个本征能级EiC(i=1,2)的布居。

第三步: 绝热压缩过程 (C→D)。工质与温度为Tc的低温库脱离, 并执行时长为τ3的等熵 (s1) 压缩过程。此过程为第一步的逆过程, 工质控制参数非常缓慢地由bz1返回至初始值bz2。此演化过程中系统不发生能级跃迁, 即工质末态ρD与初态ρC有相同的布居。此过程中系统无热耗散, 系统对外做功量为

W3=H0compbz1ρC-H0compbz2ρD=i=12PiCEiC-EiD ,

式中 ρD=i=12PiDEiDEiD=PiCEiDEiD, EiDEiD 为工质在D处哈密顿量H0compbz2 的能量本征值(本征态)。

第四步: 等容加热过程 (D→A)。此过程与第二步中的热交换过程类似, 工质在保持能级不变的情形下与温度为Th的高温库接触。经过时间τ4后, 工质的熵由s1返回至初始态下的s2, 即系统返回初始态, 循环结束。在此过程中工质不对外做功, 其从高温库吸收的热量为

Q4=TrρA-ρDH0expbz1=i=12PiA-PiDEiA .

考虑到绝热膨胀与压缩过程互为逆过程, 其哈密顿量满足H0compbzt=H0expbzt, 则能量本征值也对应相等, 即EiC=EiBEiD=EiA(i=1,2)。因此, 对于单个理想绝热QOC, 工质能输出的总功可表示为

Wadtot=W1+W3=i=12PiA-PiC(EiA-EiB) .

QOC的平均输出功率和效率可分别表示为

Pad=Wadtotτcycle=W1+W3τcycle=i=12PiA-PiC(EiA-EiB)τcycle,

ηad=WadtotQ4=W1+W3Q4=i=12PiA-PiC(EiA-EiB)i=12PiA-PiDEiA .

另外, QOC绝热膨胀与压缩过程经历的时长τ1,3通常远大于工质与高、低温库接触实现工质热化的时长τ2,4, 即τ1,3τ2,4。因此, 单个QOC的时长可表示为: τcycle=τ1+τ2+τ3+τ4τ1+τ3。为方便, 考虑膨胀与压缩过程时间相同, 即τ1=τ3=τ, 则循环周期为τcycle=2τ。对于理想绝热QOC, 膨胀与压缩过程为准静态过程 (τ), 所以其平均输出功率趋于零, 即Pad=limτWadtot/2τ=0

1.2 非理想绝热QOC

为实现非零的高功率热循环, 重点研究了(2) 式描述的附加驱动场的循环方案和无附加驱动场的自由演化方案。对于附加驱动方案下的QOC, 附加场的添加必然会导致外界驱动系统在热机输出功的过程中存在额外能量的消耗。通常, 这部分能量消耗也被称为能量成本。在膨胀/压缩过程中外界 (附加场) 的能量成本可表示为[13]

Cj=1τ0τTrρjtHjt-H0jtdt,

式中ρjtCj 分别代表系统在膨胀过程 (j=exp) 和压缩过程 (j=comp) 中工质演化的密度矩阵和附加驱动场的能量成本。单个QOC中附加驱动场的总能量成本为Ctot=Cexp+Ccomp。与理想绝热方案相比, 自由演化循环方案下工质在有限时间内的膨胀/压缩过程将伴随不可逆功(热耗散)的产生, 并导致输出功的减少。通常, 不可逆功定义为[10]

Wirr=1βSρt||ρtad,

式中Sρt||ρtad=Trρtlnρt-ρtlnρtad, 表示工质自由演化态ρt相对于理想绝热态ρtad的相对熵。工质在一般循环方案(包括自由演化和附加驱动方案)下对外所做的功通常表示为[16]

Wjs=-0τρjstH˙0jtdt ,

式中Wjs代表系统附加驱动方案 (s=ed) 和自由演化方案 (s=free) 下在膨胀过程 (j=exp) 和压缩过程 (j=comp) 中对外所做的功。这里, Wjs>0Wjs<0分别对应系统在膨胀或压缩过程中对外做正功和负功。这里需要指出的是: 在附加驱动或自由演化循环方案下, 系统在膨胀和压缩过程中一般很难达到完全的绝热演化, 且在不同的循环方案下, 工质与高、低温库接触后发生的热交换量通常都不相同。为便于区别不同循环方案下的热交换量, 记Q˜ms(m=c,h)为工质在附加驱动方案 (s=ed) 和自由演化方案 (s=free)下与低温库(m=c) 和高温库(m=h)接触执行热化过程的热交换量。这里, Q˜ms>0(Q˜ms<0)表示工质放热(吸热)量。因此, 附加驱动循环方案下QOC的净输出功为

Wedtot=Wexped+Wcomped-Ctot,

相应的平均输出功率和效率可分别表示为

Ped=Wedtotτcycle=Wexped+Wcomped-Ctotτcycle ,

ηed=Wexped+WcompedQ˜hed+Ctot .

类似地, 在自由演化方案下, QOC的净输出功为

Wfreetot=Wexpfree+Wcompfree ,

平均输出功率和效率为

Pfree=Wfreetotτcycle=Wexpfree+Wcompfreeτcycle ,

ηfree=Wexpfree+WcompfreeQ˜hfree .

另外, 值得说明的是, 关于自由演化方案下QOC的不可逆功 Wirr 的定义, 除了可以表示为 (12) 式中相对熵形式外, 有时也被表示为理想绝热功与自由演化功的差的形式[17], 即 Wirr=Wadtot-Wfreetot。但是, 这两种不同形式的定义都能有效刻画自由演化方案下QOC产生的不可逆功与净输出功之间的竞争关系。因此, 本文将在后文中仅选择 (12) 式的定义形式对不可逆功进行分析。

2 基于深度强化学习的附加驱动场优化策略

施加附加驱动场对QOC性能的影响程度与外界驱动场强度随时间分布 (或驱动场强度序列) 密切相关。这里, 考虑通过引入基于策略函数的深度强化学习来寻找最优驱动场的分布特征, 从而获得最优驱动循环方案。

强化学习的本质是智能体与环境进行交互, 得到环境的反馈奖励, 然后使用从环境中获得的长期累计回报奖励来指导智能体改善行为, 找到可以使环境奖励最大化的策略。使用策略函数 gθaksk 表示在给定环境状态sk的情况下, 智能体选择动作ak的概率, θ 代表神经网络的参数。对于连续动作空间, 选择策略函数为高斯函数[18], 可表示为

gθak=a|sk=s=exp-a-μθs22σ2/2πσ,

式中σμ分别用指定参数和神经网络表示。

将工质在图1中的A和C点处的密度矩阵作为初始输入态, 将绝热膨胀/压缩演化时长划分成一定数量等长的时间间隔 (δτ=τ/N, δτ代表时间间隔, τ为膨胀/压缩过程演化时长)。在第k个间隔, t[tk-1,tk] (tk=kδτ), 通过神经网络预测 μθsk-1, sk-1代表工质工作于tk-1 时所处的状态 (或能级布居), 根据 (20) 式的策略函数, 得到tk时智能体随机动作ak, 即tk时的附加驱动场强度为fedtk=ak , 且此强度一直持续到 tk+1时进行更新。附加驱动场优化的算法流程如图2所示。

图 2. 强化学习优化附加驱动场示意图

Fig. 2. Diagram of optimization of the additional driving field by reinforcement learning

下载图片 查看所有图片

首先, 给agent的网络输入端输入QOC膨胀/压缩时的初始热态, 神经网络基于策略的深度学习算法, 预测工质在接下来δτ演化时长内的附加驱动场强度; 然后, 热机工质在网络预测的附加驱动场下执行膨胀/压缩演化, 且将工质演化δτ时长后的态作为agent网络新的输入态, 执行新的附加驱动强度预测。其中, 在每完成一个完整回合后, 给智能体一个奖励值R, 并使用梯度上升算法把网络参数θ更新为

θ=θ+αRakθloggθak,sk,

式中α是学习率。

在选择gθaksk的基础上, 采用随机梯度下降法和批量数据对神经网络进行训练, 所用成本函数满足 (21)式的条件, 其可表示为[13]

C=1/2σ2akR|ak-μθsk|2 .

利用以上算法, 分别对QOC的膨胀和压缩过程的附加驱动场强度分布进行优化。在算法中, 分别设置R=100W1R=1001-W3为QOC膨胀和压缩过程的奖励值。此外, 设置神经网络的输出值μθsi<M, M 为设置驱动场强度的最大值, 通过改变M来控制附加驱动场的能量成本。通过限制M 的大小, 即可控制附加驱动场强度的大小, 实现对QOC输出功的优化。在每轮神经网络训练中, 初始输入相同的系统态信息, 与环境交互产生的经验数据作为训练数据, 并利用这些经验数据对策略函数gθaksk 进行更新。训练完成后, 得到优化的附加驱动场 fedt, 即最优的附加驱动场强度序列(分布)。

本文搭建的神经网络由units=50的长短期记忆神经元、具有30个神经元的全连接层和单个神经元输出层组成。激活函数为tanh函数, 采用Adam优化器进行网络训练。在训练过程中, 取batch=30,

epoch=100, 高斯函数参数σ=0.1, 驱动场强度最大值取M=0.1

3 数值分析与讨论

接下来, 通过数值模拟对附加驱动方案和自由演化方案下QOC的性能特征进行分析。为方便研究, 固定热机在膨胀/压缩过程中x轴方向的磁场强度Bx=0.1, 并设z轴方向的磁场强度在膨胀/压缩过程初、末值满足bzexp0=bzcompτ=Bz=0.5bzexpτ=bzcomp0=0。高、低温库的温度参数取Th=10Tc=1

3.1 能量成本和输出功

基于本文考虑的热机模型, 通过施加附加驱动场, 可以有效抑制QOC过程中不可逆功的产生, 从而提高热机功的输出。但是, 附加驱动场的添加通常会产生一定能量的消耗或能量成本。

图3对比了优化的附加驱动与自由演化两种方案下QOC过程中的能量消耗 [图3(a)] 和输出功 [图3(b)Pedmax]。从图3(a)可以看出: QOC演化周期越长 (τ越大), 热机执行速度 (膨胀/压缩速度) 则越慢, 两种方案下的能量消耗Ctot (附加驱动场能量成本) 和Wirr (自由演化不可逆功) 越小, 但是在相同循环周期τcycle(τcycle=2τ) 下, 自由演化方案中因“量子摩擦”引起的不可逆功Wirr总是大于优化驱动方案中的能量成本消耗Ctot, 即Wirr>Ctot, 且循环执行速度越快 (τ越小), 不可逆功Wirr的增量比能量成本消耗Ctot的增量越显著。这也导致在较短的循环周期中 (τ在较小的取值区间), 自由演化方案下较大的不可逆功的产生完全抑制了循环QOC正功的输出。如图3(b)所示, 当6τ8时, 自由方案下QOC无正功输出, 即Wfreetot0 (QOC不能正常运作), 而优化附加驱动方案下则仍能输出正功, 即Wedtot>0。同时, 随着循环周期的增加, 优化驱动方案下QOC的输出功较自由演化方案能够更快地逼近理想绝热QOC下热机的输出功Wadtot。这里需要指出的是: 在图3(b)中Wadtot代表热机执行准静态膨胀/压缩 (循环时间无穷长, 即τ) 的理想绝热QOC的输出功, 并非代表有限循环时间τ内热机输出恒定不变的功, 即热机的输出功与循环时间无关。另外, 在图3(b)中添加Wadtot的主要目的是为了较清楚地展示自由演化和优化附加驱动两种循环方案下QOC输出功WfreetotWedtot随循环时间的增加, 逐渐逼近理想绝热功Wadtot的程度。

图 3. 优化附加驱动方案与自由演化方案下的能量消耗与输出功对比。(a) 能量成本Ctot与不可逆功Wirr ; (b) 输出功WedtotWfreetot

Fig. 3. Comparison of energy cost and output work in the optimization additional driving and free evolution schemes.(a) Energy cost Ctot and irreversible work Wirr ; (b) Output work Wedtot and Wfreetot

下载图片 查看所有图片

3.2 QOC的效率和功率

除输出功之外, 功率和效率也是反映热机性能的另外两个核心指标。下面将对优化附加驱动和自由演化两种方案下QOC的功率和效率进行对比分析, 对比情况如图4所示。

图 4. 优化附加驱动方案与自由演化方案下QOC性能的对比。(a) 功率PedPfree ; (b) 效率ηedηfree

Fig. 4. Comparison of performance of QOC of the optimization additional driving and free evolution schemes.(a) Power Ped and Pfree ; (b) Efficiency ηed and ηfree

下载图片 查看所有图片

图4(a) 可以看出: 在输出功率方面, 优化附加驱动方案和自由演化方案下的功率PedPfree均随循环时间参数τ的增加先增加后减小; 由于在相同循环时间下优化附加驱动方案QOC的输出功总大于自由演化的, 即Wedtot>Wfreetot [见图3(b)], 因此, 优化附加驱动方案QOC也表现出较大的输出功率, 即Ped>Pfree。此外, 也注意到: 优化附加驱动方案下QOC能够在较短循环周期中获得最大功率, 即前者最大输出功率Pedmax=3.4 × 10-4对应τ=18, 后者最大功率Pfreemax=1.8×10-4对应τ=24, 且两类循环方案的最大功率比接近1.9, 即Pedmax/Pfreemax1.9。由图4(b)可以看出: 在效率方面, 优化附加驱动方案也展示出明显优势, 即有ηed>ηfree。同时, 优化附加驱动QOC效率ηed能够较快地接近理想绝热循环下的效率ηad0.75。此外, 在优化附加驱动QOC的最大功率下 (τ=18处), 其效率可达到ηed=0.448, 而相同循环周期下自由演化QOC的效率则为ηfree=0.129, 此处两循环方案下的效率比接近3.5, 即ηed/ηfree3.5图5给出了QOC存在最大输出功率Pedmax (循环参数τ=18)下, 热机在膨胀 [图5(a)] 和压缩过程 [图5(b)] 中的最优附加驱动场 fedexpfedcomp 的分布。从 [图5(a)] 和 [图5(b)] 可以看出: 热机在膨胀过程与压缩过程中的最优驱动场序列既有正向驱动脉冲 ( fedexp,comp>0 ), 又有反向驱动脉冲 ( fedexp,comp<0 )。但是, 与膨胀过程相比, 整个压缩过程包含较少的负向驱动脉冲 (仅在0.6 τ至0.7 τ期间出现)。

图 5. τ=18情况下, 优化附加驱动场强度的分布特征。(a) 膨胀过程的驱动场fedexp分布; (b) 压缩过程的驱动场fedcomp分布

Fig. 5. Optimization distribution of additional driving field with τ=18. (a) fedexp in expansion process; (b) fedcomp in compression process

下载图片 查看所有图片

4 结论

本文以单量子比特系统为工质, 构造了基于策略函数的深度强化学习优化方案下的有限时间内的QOC。对比分析了热机在线性驱动场中执行自由演化和机器学习优化附加驱动场演化下的热机性能。结果表明: 利用深度强化学习优化QOC膨胀和压缩过程的附加驱动场, 其整体性能明显优于自由演化方案下的情形。特别地, 优化附加驱动方案下的QOC在较短循环周期下仍可有效运行, 而自由演化方案则失效 (无正功输出)。此外, 优化附加驱动方案下的QOC的最大功率和效率也均显著优于自由演化方案下的最大功率与效率。本研究可为深度强化学习在相关量子热力学问题中的深入应用提供参考。

参考文献

[1] Prielinger L, Hartmann A, Yamashiro Y, et al. Two-parameter counter-diabatic driving in quantum annealing[J]. Physical Review Research, 2021, 3(1): 013227.

[2] Guéry-Odelin D, Ruschhaupt A, Kiely A, et al. Shortcuts to adiabaticity: Concepts, methods, and applications[J]. Reviews of Modern Physics, 2019, 91(4): 045001.

[3] Hegade N N, Paul K, Ding Y C, et al. Shortcuts to adiabaticity in digitized adiabatic quantum computing[J]. Physical Review Applied, 2021, 15(2): 024038.

[4] Iram S, Dolson E, Chiel J, et al. Controlling the speed and trajectory of evolution with counterdiabatic driving[J]. Nature Physics, 2021, 17(1): 135-142.

[5] Patra A, Jarzynski C. Semiclassical fast-forward shortcuts to adiabaticity[J]. Physical Review Research, 2021, 3(1): 013087.

[6] Abah O, Paternostro M, Lutz E. Shortcut-to-adiabaticity quantum Otto refrigerator[J]. Physical Review Research, 2020, 2(2): 023120.

[7] Dupays L, Egusquiza I L, del Campo A, et al. Superadiabatic thermalization of a quantum oscillator by engineered dephasing[J]. Physical Review Research, 2020, 2(3): 033178.

[8] Funo K, Lambert N, Karimi B, et al. Speeding up a quantum refrigerator via counterdiabatic driving[J]. Physical Review B, 2019, 100(3): 035407.

[9] Li L N, Li H, Yu W L, et al. Shortcut-to-adiabaticity quantum tripartite Otto cycle[J]. Journal of Physics B: Atomic, Molecular and Optical Physics, 2021, 54(21): 215501.

[10] Hartmann A, Mukherjee V, Niedenzu W, et al. Many-body quantum heat engines with shortcuts to adiabaticity[J]. Physical Review Research, 2020, 2(2): 023145.

[11] Zhang X M, Wei Z Z, Asad R, et al. When does reinforcement learning stand out in quantum control? A comparative study on state preparation[J]. npj Quantum Information, 2019, 5: 85.

[12] He R H, Wang R, Nie S S, et al. Deep reinforcement learning for universal quantum state preparation via dynamic pulse control[J]. EPJ Quantum Technology, 2021, 8(1): 29.

[13] Sgroi P, Palma G M, Paternostro M. Reinforcement learning approach to nonequilibrium quantum thermodynamics[J]. Physical Review Letters, 2021, 126(2): 020601.

[14] Khait I, Carrasquilla J, Segal D. Optimal control of quantum thermal machines using machine learning[J]. Physical Review Research, 2022, 4(1): L012029.

[15] Erdman P A, Noé F. Identifying optimal cycles in quantum thermal machines with reinforcement-learning[J]. npj Quantum Information, 2022, 8: 1.

[16] Plastina F, Alecce A, Apollaro T, et al. Irreversible work and inner friction in quantum thermodynamic processes[J]. Physical Review Letters, 2014, 113(26): 260601.

[17] Ahmadi B, Salimi S, Khorashad A S. Irreversible work and Maxwell demon in terms of quantum thermodynamic force[J]. Scientific Reports, 2021, 11: 2301.

[18] Sivak V V, Eickbusch A, Liu H, et al. Model-free quantum control with reinforcement learning[J]. Physical Review X, 2022, 12: 011059.

李建松, 李海, 于文莉, 郝亚明. 基于深度强化学习的量子奥托循环性能优化[J]. 量子电子学报, 2025, 42(1): 70. Jiansong LI, Hai LI, Wenli YU, Yaming HAO. Performance optimization of quantum Otto cycle via deep reinforcement learning[J]. Chinese Journal of Quantum Electronics, 2025, 42(1): 70.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!