失忆症登上PNAS 科学家提出基于相似性加权交错学习针对深度学习的 (失忆症ns)

文章编号：43952 资讯动态 2024-12-09 终身学习深度学习遗忘率

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

与人类不同，人工神经网络在学习新事物时会迅速遗忘先前学到的信息，必须通过新旧信息的交错来重新训练；但是，交错全部旧信息非常耗时，并且可能没有必要。只交错与新信息有实质相似性的旧信息可能就足够了。

近日，美国科学院院报（PNAS）刊登了一篇论文，“Learning in deep neural networks and brains with similarity-weighted interleaved learning”，由加拿大皇家学会会士、知名神经科学家 Bruce McNaughton 的团队发表。他们的工作发现，通过将旧信息与新信息进行相似性加权交错训练，深度网络可以快速学习新事物，不仅降低了遗忘率，而且使用的数据量大幅减少。

论文作者还作出一个假设：通过跟踪最近活跃的神经元和神经动力学吸引子（attractor dynamics）的持续兴奋性轨迹，可以在大脑中实现相似性加权交错。这些发现可能会促进神经科学和机器学习的进一步发展。

研究背景

了解大脑如何终身学习仍然是一项长期挑战。

在人工神经网络（ANN）中，过快地整合新信息会产生灾难性干扰，即先前获得的知识突然丢失。互补学习系统理论 (Complementary Learning Systems Theory，CLST) 表明，通过将新记忆与现有知识交错，新记忆可以逐渐融入新皮质。

大脑依赖于互补的学习系统：海马体 (HC) 用于快速获取新记忆，新皮层 (NC) 用于将新数据逐渐整合到与上下文无关的结构化知识中。在“离线期间”，例如睡眠和安静的清醒休息期间，HC触发回放最近在NC中的经历，而NC自发地检索和交错现有类别的表征。交错回放允许以梯度下降的方式逐步调整NC突触权重，以创建与上下文无关的类别表征，从而优雅地整合新记忆并克服灾难性干扰。许多研究已经成功地使用交错回放实现了神经网络的终身学习。

然而，在实践中应用CLST时，有两个重要问题亟待解决。首先，当大脑无法访问所有旧数据时，如何进行全面的信息交错呢？一种可能的解决方案是“伪排练”，其中随机输入可以引发内部表征的生成式回放，而无需显式访问先前学习的示例。类吸引子动力学可能使大脑完成“伪排练”，但“伪排练”的内容尚未明确。因此，第二个问题是，每进行新的学习活动之后，大脑是否有充足的时间交织所有先前学习的信息。

（Similarity-Weighted Interleaved Learning，SWIL）算法被认为是第二个问题的解决方案，这表明仅交错与新信息具有实质表征相似性的旧信息可能就足够了。实证行为研究表明，高度一致的新信息可以快速整合到NC结构化知识中，几乎没有干扰。这表明整合新信息的速度取决于其与先验知识的一致性。受此行为结果的启发，并通过重新检查先前获得的类别之间的灾难性干扰分布，McClelland等人证明SWIL可以在具有两个上义词类别（例如，“水果”是“苹果”和“香蕉”的上义词）的简单数据集中，每个epoch使用少于2.5倍的数据量学习新信息，实现了与在全部数据上训练网络相同的性能。然而，研究人员在使用更复杂的数据集时并没有发现类似的效果，这引发了对该算法可扩展性的担忧。

深度非线性人工神经网络可以通过仅交错与新信息共享大量表征相似性的旧信息子集来学习新信息。通过使用SWIL算法，ANN能够以相似的精度水平和最小的干扰快速学习新信息，同时使用的每个时期呈现的旧信息量少之又少，这意味着数据利用率高且可以快速学习。

同时，SWIL也可应用于序列学习框架。此外，学习一种新类别可以极大地提高数据利用率。如果旧信息与之前学习过的类别有着非常少的相似性，那么呈现的旧信息数量就会少得多，这很可能是人类学习的实际情况。

最后，作者提出了一个关于SWIL如何在大脑中实现的理论模型，其兴奋性偏差与新信息

应用于图像分类数据集的

DNN动力学模型

McClelland等人的实验表明，在具有一个隐藏层的深度线性网络中，SWIL可以学习一个新类别，类似于完全交错学习 (Fully Interleaved Learning，FIL)，即将整个旧类别与新类别交错，但使用的数据量减少了40%。

然而，网络是在一个非常简单的数据集上训练的，只有两个上义词类别，这就对算法的可扩展性提出了疑问。

首先针对更复杂的数据集（如Fashion-MNIST），探索不同类别的学习在具有一个隐藏层的深度线性神经网络中如何演变。移出了“boot”（“靴子”）和“bag”（“纸袋”）类别后，该模型在剩余的8个类别上的测试准确率达到了87%。然后作者团队重新训练模型，在两种不同的条件下学习（新的）“boot”类，每个条件重复10次：

1）集中学习(Focused Learning ，FoL)，即仅呈现新的“boot”类；

2）完全交错学习 (FIL)，即所有类别（新类别+以前学过的类别）以相等的概率呈现。在这两种情况下，每个epoch总共呈现180张图像，每个epoch中的图像相同。

该网络在总共9000张从未见过的图像上进行了测试，其中测试数据集由每类1000张图像组成，不包括“bag”类别。当网络的性能达到渐近线时，训练停止。

不出所料，FoL对旧类别造成了干扰，而FIL克服了这一点（图1第2列）。如上所述，FoL对旧数据的干扰因类别而异，这是SWIL最初灵感的一部分，并表明新“boot”类别和旧类别之间存在分级相似关系。例如，“sneaker”（“运动鞋”）和“sandals”（“凉鞋”）的召回率比“trouser”（“裤子”）下降得更快（图1第2列），可能是因为整合新的“boot”类会选择性地改变代表“sneaker”和“sandals”类的突触权重，从而造成更多的干扰。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图1：预训练网络在两种情况下学习新“boot”类的性能对比分析：FoL（上）和 FIL（下）。从左到右依次为预测新“boot”类别的召回率（橄榄色）、现有类别的召回率（用不同颜色绘制）、总准确度（高分意味着低误差）和交叉熵损失（总误差的度量）曲线，是保留的测试数据集上与epoch数有关的函数。

计算不同类别之间的相似度

FoL在学习新类别的时候，在相似的旧类别上的分类性能会大幅下降。

之前已经探讨了多类别属性相似度和学习之间的关系，并且表明深度线性网络可以快速获取已知的一致属性。相比之下，在现有类别层次结构中添加新分支的不一致属性，需要缓慢、渐进、交错的学习。

在当前的工作中，作者团队使用已提出的方法在特征级别计算相似度。简言之，计算目标隐藏层（通常是倒数第二层）现有类别和新类别的平均每类激活向量之间的余弦相似度。图2A显示了基于Fashion MNIST数据集的新“boot”类别和旧类别，作者团队根据预训练网络的倒数第二层激活函数计算的相似度矩阵。

类别之间的相似性与我们对物体的视觉感知一致。例如，在层次聚类图（图2B）中，我们可以观察到“boot”类与“sneaker”和“sandal”类之间、以及“shirt”（“衬衫”）和“t-shirt”（“T恤”）类之间具有较高的相似性。相似度矩阵（图2A）与混淆矩阵（图2C）完全对应。相似度越高，越容易混淆，例如，“衬衫”类与“T恤”、“套头衫”和“外套”类图像容易混淆，这表明相似性度量预测了神经网络的学习动态。

在上一节的FoL结果图（图1）中，旧类别的召回率曲线中存在相近的类相似度曲线。与不同的旧类别（“trouser”等）相比，FoL学习新“boot”类的时候会快速遗忘相似的旧类别（“sneaker” 和 “sandal”）。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图2：( A ) 作者团队根据预训练网络的倒数第二层激活函数，计算的现有类别和新“boot”类的相似度矩阵，其中对角线值（同一类别的相似性绘制为白色）被删除。( B ) 对A中的相似矩阵进行层次聚类。( C ) FIL算法在训练学习“boot”类后生成的混淆矩阵。为了缩放清晰，删除了对角线值。

深度线性神经网络实现快速和

高效学习新事物

接下来在前两个条件基础上增加了3种新条件，研究了新的分类学习动态，其中每个条件重复10次：

3) 部分交错学习 (Partial Interleaved Learning，PIL)使用了很小的图像子集（共计n=350张图像/epoch，大约39张图像/类），每一类别（新类别+现有类别）的图像以相等的概率呈现；

4) SWIL，每个epoch使用与PIL 相同的图像总数进行重新训练，但根据与（新）“boot”类别的相似性对现有类别图像进行加权；

5）等权交错学习（Equally Weighted Interleaved Learning，EqWIL），使用与SWIL相同数量的“boot”类图像重新训练，但现有类别图像的权重相同（图3A）。

作者团队使用了上述相同的测试数据集（共有n=9000张图像）。当在每种条件下神经网络的性能都达到渐近线时，停止训练。尽管每个epoch使用的训练数据较少，预测新“boot”类的准确率需要更长的时间达到渐近线，与FIL（H=7.27，P<0.05）相比，PIL的召回率更低（图3B第1列和表1“New class”列）。

对于SWIL，相似度计算用于确定要交错的现有旧类别图像的比例。在此基础上，作者团队从每个旧类别中随机抽取具有加权概率的输入图像。与其他类别相比，“sneaker”和“sandal”类最相似，从而导致被交错的比例更高（图3A）。

根据树状图（图2B），作者团队将“sneaker”和“sandal”类称为相似的旧类，其余则称为不同的旧类。与PIL（H=5.44，P<0.05）相比，使用SWIL时，模型学习新“boot”类的速度更快，对现有类别的干扰也相近。此外，SWIL（H=0.056，P>0.05）的新类别召回率（图3B第1列和表1“New class”列）、总准确率和损失与FIL相当。EqWIL（H=10.99，P<0.05）中新“boot”类的学习与SWIL相同，但对相近的旧类别有更大程度的干扰（图3B第2列和表1“Similar old class”列）。

作者团队使用以下两种方法比较SWIL和FIL：

1) 内存比，即FIL和SWIL中存储的图像数量之比，表示存储的数据量减少；

2) 加速比，即在FIL和SWIL中呈现的内容总数的比率，以达到新类别回忆的饱和精度，表明学习新类别所需的时间减少。

SWIL可以在数据需求减少的情况下学习新内容，内存比=154.3x (54000/350)，并且速度更快，加速比=77.1x (54000/(350×2))。即使和新内容有关的图像数量较少，该模型也可以通过使用SWIL，利用模型先验知识的层次结构实现相同的性能。SWIL在PIL和EqWIL之间提供了一个中间缓冲区，允许集成一个新类别，并将对现有类别的干扰降到最低。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图3 ( A ) 作者团队在五种不同的学习条件下预训练神经网络学习新的“boot”类（橄榄绿），直到性能平稳：1）FoL（共计n=6000张图像/epoch）；2）FIL（共计n=54000张图像/epoch）；3) PIL（共计n=350张图像/epoch）；4) SWIL（共计n=350张图像/epoch）和 5) EqWIL（共计n=350张图像/epoch）。（B）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（“sneaker”和“sandals”）和不同旧类别的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。

接下来，为了测试SWIL是否可以在更复杂的环境中工作，作者团队训练了一个具有全连接输出层的6层非线性CNN （图4A），以识别CIFAR10数据集中剩余8个不同类别（“cat”和“car”除外）的图像。他们还对模型进行了重新训练，在之前定义的5种不同训练条件（FoL、FIL、PIL、SWIL和EqWIL）下学习“cat”（“猫”）类。图4C显示了5种情况下每类图像的分布。对于SWIL、PIL和EqWIL条件，每个epoch的总图像数为2400，而对于FIL和FoL，每个epoch的总图像数分别为45000和5000。作者团队针对每种情况对网络分别进行训练，直到性能趋于稳定。

他们在之前未见过的总共9000张图像（1000张图像/类，不包括“car”（“轿车”）类）上对该模型进行了测试。图4B是作者团队基于CIFAR10数据集计算的相似性矩阵。“cat”类和“dog”（“狗”）类更类似，而其他动物类属于同一分支（图4B左）。

根据树状图（图4B），将“truck” （“货车”）、“ship”（“轮船”）和 “plane”（“飞机”）类别称为不同的旧类别，除“cat”类外其余的动物类别称为相似的旧类别。对于FoL，模型学习了新的“cat”类，但遗忘了旧类别。与Fashion-MNIST数据集结果类似，“dog”类（与“cat”类相似性最大）和“truck”类（与“cat”类相似性最小）均存在干扰梯度，其中“dog”类的遗忘率最高，而“truck”类遗忘率最低。

如图4D所示，FIL算法学习新的“cat”类时克服了灾难性的干扰。对于PIL算法，模型在每个epoch使用18.75倍的数据量学习新的“cat”类，但“cat”类的召回率比FIL（H=5.72，P<0.05）低。对于SWIL，在新类别、相似和不同旧类别上的召回率、总准确率和损失与FIL相当（H=0.42，P>0.05；见表2和图4D）。SWIL对新“cat”类的召回率高于PIL（H=7.89，P<0.05）。使用EqWIL算法时，新“cat”类的学习情况与SWIL和FIL相似，但对相似旧类别的干扰较大（H=24.77，P<0.05；见表2）。

FIL、PIL、SWIL和EqWIL这4种算法预测不同旧类别的性能相当（H=0.6，P>0.05)。SWI比PIL更好地融合了新的“cat”类，并有助于克服EqWIL中的观测干扰。与FIL相比，使用SWIL学习新类别速度更快，加速比=31.25x (45000×10/(2400×6))，同时使用更少的数据量 (内存比=18.75x)。这些结果证明，即使在非线性CNN和更真实的数据集上，SWIL也可以有效学习新类别事物。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图4：( A ) 作者团队使用具有全连接输出层的6层非线性CNN学习CIFAR10数据集中的8类事物。( B ) 相似度矩阵（右）是在呈现新的“cat”类之后，作者团队根据最后一个卷积层的激活函数计算获得。对相似矩阵应用层次聚类（左），在树状图中显示动物（橄榄绿）和交通工具（蓝色）两个上义词类别的分组情况。( C ) 作者团队在5种不同的条件下预训练CNN学习新的“cat”类（橄榄绿），直到性能平稳：1）FoL（共计n=5000张图像/epoch）；2）FIL（共计n=45000张图像/epoch）；3) PIL（共计n=2400张图像/epoch）；4) SWIL（共计n=2400张图像/epoch）；5) EqWIL（共计n=2400张图像/epoch）。每个条件重复10次。（D）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（CIFAR10数据集中的其他动物类）和不同旧类别（“plane” 、“ship” 和 “truck”）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。

新内容与旧类别的一致性

对学习时间和所需数据的影响

如果一项新内容可以添加到先前学习过的类别中，而不需要对网络进行较大更改，则称 二者具有一致性。 基于此框架，与干扰多个现有类别（低一致性）的新类别相比，学习干扰更少现有类别（高一致性）的新类别可以更容易地集成到网络中。

为了测试上述推断，作者团队使用上一节中经过预训练的CNN，在前面描述的所有5种学习条件下，学习了一个新的“car”类别。图5A显示了“car”类别的相似性矩阵，与其他现有类别相比，“car”和“truck”、“ship”和“plane”在同一层次节点下，说明它们更相似。为了进一步确认，作者团队在用于相似性计算的激活层上进行了t-SNE降维可视化分析（图5B）。研究发现“car”类与其他交通工具类（“truck”、“ship”和“plane”）有显著重叠，而“cat”类与其他动物类（“dog”、 “frog”（“青蛙”）、“horse”（“马”）、“bird”（“鸟”）和“deer”（“鹿”））有重叠。

和作者团队预期相符，FoL学习“car”类别时会产生灾难性干扰，对相近的旧类别干扰性更强，而使用FIL克服了这一点（图5D）。对于PIL、SWIL和EqWIL，每个epoch总共有n=2000张图像（图5C）。使用SWIL算法，模型学习新的“car”类别可以达到和FIL（H=0.79，P>0.05）相近的精度，而对现有类别（包括相似和不同类别）的干扰最小。如图5D第2列所示，使用EqWIL，模型学习新“car”类的方式与SWIL相同，但对其他相似类别（例如“truck”）的干扰程度更高（H=53.81，P<0.05）。

SWIL可以更快地学习新内容加速比=48.75x（45000×12/(2000×6)），内存需求减少，内存比=22.5x。与“cat”（48.75x vs.31.25x）相比，“car”可以通过交错更少的类（如“truck”、“ship”和“plane”）更快地学习，而“cat”与更多的类别（如“dog” 、“frog” 、“horse” 、“frog” 和“deer”）重叠。这些仿真实验表明，交叉和加速学习新类别所需的旧类别数据量，取决于新信息与先验知识的一致性。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图 5：( A ) 作者团队根据倒数第二层激活函数计算获得相似度矩阵（左），以及呈现新的“car”类别后对相似度矩阵进行层次聚类后的结果图（右）。( B ) 模型分别学习新的“car”类别和“cat”类别，经过最后一个卷积层过激活函数后，作者团队进行t-SNE降维可视化的结果图。( C ) 作者团队在5种不同的条件下预训练CNN学习新的“car”类（橄榄绿），直到性能平稳：1）FoL（共计n=5000张图像/epoch）；2）FIL（共计n=45000张图像/epoch）；3) PIL（共计n=2000张图像/epoch）；4) SWIL（共计n=2000张图像/epoch）；5) EqWIL（共计n=2000张图像/epoch）。（D）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（“plane” 、“ship” 和 “truck”）和不同旧类别（CIFAR10数据集中的其他动物类）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。每张图显示的是重复10次后的平均值，阴影区域为±1 SEM。

接下来，作者团队测试是否可以使用SWIL学习序列化形式呈现的新内容（序列学习框架）。为此他们采用了图4中经过训练的CNN模型，在FIL和SWIL条件下学习CIFAR10数据集中的“cat”类（任务1），只在CIFAR10的剩余9个类别上训练，然后在每个条件下训练模型学习新的“car”类（任务2）。图6第1列显示了SWIL条件下学习“car”类别时，其他各项类别的图像数量分布情况（共计n=2500张图像/epoch）。需要注意的是，预测“cat”类时也交叉学习新的“car”类。由于在FIL条件下模型性能最佳，SWIL仅与FIL进行了结果比较。

如图6所示，SWIL预测新、旧类别的能力与FIL相当（H=14.3，P>0.05)。模型使用SWIL算法可以更快地学习新的“car”类别，加速比为45x（50000×20/(2500×8)），每个epoch的内存占用比FIL少20倍。模型学习“cat”和“car”类别时，在SWIL条件下每个epoch使用的图像数量（内存比和加速比分别为18.75x 和 20x），少于在FIL条件下每个epoch使用的整个数据集（内存比和加速比分别为31.25x 和45x），并且仍然可以快速学习新类别。扩展这一思想，随着学过的类别数目不断增加，作者团队预期模型的学习时间和数据存储会成倍减少，从而更高效地学习新类别，这或许反映了人类大脑实际学习时的情况。

SWIL可在序列学习框架中集成多个新类，使神经网络能够在不受干扰的情况下持续学习。

图6：作者团队训练6层CNN学习新的“cat”类（任务1），然后学习“car”类（任务2），直到性能在以下两种情况下趋于稳定：1）FIL：包含所有旧类别（以不同颜色绘制）和以相同概率呈现的新类别（“cat”/“car”）图像；2) SWIL：根据与新类别（“cat”/“car”）的相似性进行加权并按比例使用旧类别示例。同时将任务1中学习的“cat”类包括在内，并根据任务2中学习“car”类的相似性进行加权。第1张子图表示每个epoch使用的图像数量分布情况，其余各子图分别表示FIL（蓝色）和SWIL（洋红色）预测新类别、相似旧类别和不同旧类别的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。

利用SWIL扩大类别间的距离，

减少学习时间和数据量

作者团队最后测试了SWIL算法的泛化性，验证其是否可以学习包括更多类别的数据集，以及是否适用于更复杂的网络架构。

他们在CIFAR100数据集（训练集500张图像/类，测试集100张图像/类）上训练了一个复杂的CNN模型-VGG19（共有19层），学习了其中的90个类别。然后对网络进行再训练，学习新类别。图7A显示了基于CIFAR100数据集，作者团队根据倒数第二层的激活函数计算的相似性矩阵。如图7B所示，新“train”（“火车”）类与许多现有的交通工具类别（如“bus” （“公共汽车”）、“streetcar” （“有轨电车”）和“tractor”（“拖拉机”）等）很相似。

与FIL相比，SWIL可以更快地学习新事物（加速比=95.45x (45500×6/(1430×2))）并且使用的数据量 (内存比=31.8x) 显著减少，而性能基本相同(H=8.21, P>0.05) 。如图7C所示，在PIL（H=10.34，P<0.05）和EqWIL（H=24.77，P<0.05）条件下，模型预测新类别的召回率较低并且产生的干扰较大，而SWIL克服了上述不足。

同时，为了探索不同类别表征之间的较大距离是否构成了加速模型学习的基本条件，作者团队另外训练了两种神经网络模型：

1）6层CNN（与基于CIFAR10的图4和图5相同）；

2）VGG11（11层）学习CIFAR100数据集中的90个类别，仅在FIL和SWIL两个条件下对新的“train”类进行训练。

如图7B所示，对于上述两种网络模型，新的“train”类和交通工具类别之间的重叠度更高，但与VGG19模型相比，各类别的分离度较低。与FIL相比，SWIL学习新事物的速度与层数的增加大致呈线性关系（斜率=0.84）。该结果表明，类别间表征距离的增加可以加速学习并减少内存负载。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图7：( A ) VGG19学习新的“train”类后，作者团队根据倒数第二层激活函数计算的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 和 “tractor”5种类别与“train”的相似性最大。从相似度矩阵中排除对角元素（相似度 =1）。（B，左）作者团队针对6层CNN、VGG11和VGG19网络，经过倒数第二层激活函数后，进行t-SNE降维可视化的结果图。（B，右）纵轴表示加速比（FIL/SWIL），横轴表示3个不同网络的层数相对于6层CNN的比率。黑色虚线、红色虚线和蓝色实线分别代表斜率 =1的标准线、最佳拟合线和仿真结果。( C ) VGG19模型的学习情况：FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新“train”类、相似旧类别（交通工具类别）和不同旧类别（除了交通工具类别）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。每张图显示的是重复10次后的平均值，阴影区域为±1 SEM。( D ) 从左到右依次表示模型预测Fashion-MNIST“boot”类（图3）、CIFAR10“cat”类（图4）、CIFAR10“car”类（图5）和CIFAR100“train”类的召回率，是SWIL（洋红色）和FIL（蓝色）使用的图像总数（对数比例）的函数。“N”表示每种学习条件下每个epoch使用的图像总数（包括新、旧类别）。

如果在更多非重叠类上训练网络，并且各表征之间的距离更大，速度是否会进一步提升？

为此，作者团队采用了一个 深度线性网络 （用于图1-3中的Fashion-MNIST示例），并对其进行训练，以学习由8个Fashion-MNIST类别（不包括“bags”和“boot”类）和10个Digit-MNIST类别形成的组合数据集，然后训练网络学习新的“boot”类别。

和作者团队的预期相符，“boot”与旧类别“sandals”和“sneaker”相似度更高，其次是其余的Fashion-MNIST类（主要包括服饰类图像），最后Digit-MNIST类（主要包括数字类图像）。

基于此，作者团队首先交织了更多相似的旧类别样本，再交织Fashion-MNIST和Digit-MNIST类样本（共计n=350张图像/epoch）。实验结果表明，与FIL类似，SWIL可以快速学习新类别内容而不受干扰，但使用的数据子集要小得多，内存比为325.7x (114000/350) ，加速比为162.85x (228000/1400)。作者团队在当前结果中观察到的加速比为2.1x (162.85/77.1)，与Fashion-MNIST数据集相比，类别数目增加了 2.25倍 (18/8)。

本节的实验结果有助于确定SWIL可以适用于更复杂的数据集 (CIFAR100) 和神经网络模型(VGG19)，证明了该算法的泛化性。同时证明了扩大类别之间的内部距离或增加非重叠类别的数量，可能会进一步提高学习速度并降低内存负载。

人工神经网络在持续学习方面面临重大挑战，通常表现出灾难性干扰。为了克服此问题，许多研究都使用了完全交错学习（FIL），即新旧内容交叉学习，联合训练网络。FIL需要在每次学新信息时交织所有现有信息，使其成为一个生物学意义上不可信且耗时的过程。最近，有研究表明FIL可能并非必需，仅交错与新内容具有实质表征相似性的旧内容，即采用相似性加权交错学习（SWIL）的方法可以达到相同的学习效果。然而，有人对SWIL的可扩展性表示了担忧。

本文扩展了SWIL算法，并基于不同的数据集（Fashion-MNIST、CIFAR10 和 CIFAR100）和神经网络模型（深度线性网络和CNN）对其进行了测试。在所有条件下，与部分交错学习（PIL）相比，相似性加权交错学习（SWIL）和等权交错学习（EqWIL）在学习新类别方面的表现更好。这和作者团队的预期相符，因为与旧类别相比，SWIL和EqWIL增加了新类别的相对频率。

本文同时还证明，与同等子抽样现有类别（即EqWIL方法）相比，仔细选择和交织相似内容减少了对相近旧类别的灾难性干扰。在预测新类别和现有类别方面，SWIL的性能与FIL类似，却显著加快了学习新内容的速度（图7D)，同时大大减少了所需的训练数据。SWIL可以在序列学习框架中学习新类别，进一步证明了其泛化能力。

最后，与许多旧类别具有相似性的新类别相比，如果其与之前学过的类别重叠更少（距离更大），可以缩短集成时间，并且数据效率更高。总体来说，实验结果提供了一种可能的见解，即大脑事实上通过减少不切实际的训练时间，克服了原始CLST模型的一项主要弱点。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

版权文章，未经授权禁止转载。详情见转载须知。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

谷普下载提醒您

本文链接：http://www.gpxz.com/article/9899e0e42e29a2bcf148.html

上一篇：Codex神经网络推开高等数学世界大门PNAS最

下一篇：哈工深聂礼强多模态大模型是具身智能发展的

泡菜火锅面怎么做

泡菜火锅面的做法,泡菜火锅面怎么做请看步骤：1.辣白菜切小块，豆腐切块，海带切几刀，五花肉切片2.锅里热少许油，放入五花肉，小火煎至肉出油，变得金黄。然后倒入辣白菜和汁继续翻炒一会出香味3.倒入淘米水，烧开后加入海带和豆腐转中火继续炖10-15分钟...

网站模板 2024-07-07 15:09:22

生化培养箱型号,生化培养箱价格

上海东麓仪器设备有限公司(www.shdonglu17.com)提供各种生化培养箱型号,合理的生化培养箱价格,欢迎来电咨询生化培养箱,鼓风干燥箱等信息,质量有保障,售后服务到位.

商业服务 2024-08-17 00:49:58

欢乐童年官网

欢乐童年集团专注于打造儿童素质教育产品。旗下拥有小灯塔、豌豆素质、画啦啦少儿美术、咕比启蒙四大在线素质教育产品，致力于满足不同家庭对素质教育的多样化需求，为中国乃至全球儿童的成长赋能。

音乐歌曲 2024-07-11 13:27:04

ACDSee傲视迪官网

ACDSee是一款专业的图像管理与编辑软件，无需导入即可高速浏览大量数字图片。支持批量转化，管理、编辑、冲印多种格式图片，包括但不限于JPG、GIF、PCX、PNG、PSD、TIFF等。支持各种RAW图像。同时，还有提供多种创意滤镜，转场效果和音频效果，可灵活地叠加和混合轨道的视频编辑软件。

电影视频 2024-07-11 13:27:13

深圳汽车喷漆线

中山市弘德智能装备有限公司主营产品有汽车喷漆线、涂装设备、喷涂设备、家具喷漆线、喷粉线、烤漆线、积放线、中纤板喷粉、木器喷粉、深圳MDF等，产品遍布广东、江门、佛山、肇庆、天津、河北、江西等地。

汽车一族 2024-07-07 16:11:57

济南中特试验机有限公司

济南中特试验机有限公司是集专业设计、生产、制造和销售试验机为一体的高新技术企业，专业生产各类试验机及配套仪器。ZT试验机公司目前拥有完整的试验机产品线，主要生产包括微机控制电子万能试验机、微机控制疲劳试验机、电液伺服万能材料试验机、线材、材料扭转试验机、冲击试验机、压力试验机、钢绞线试验机、钢绞线预应力松弛试验机、液压式锚固静载试验机、大型结构试验机、卧式拉力试验机、持久蠕变试验机、压剪试验机、三轴试验机、弯曲试验机及高低温试验机等各种专用试验机。并对老式液压试验机进行微机伺服控制系统改造，自动采集及数

设计美化 2024-07-13 06:07:49

泰州腾艺信息科技/微众

泰州腾艺信息科技有限公司是一支全新的服务于社会化媒体的优质团队，旗下品牌微众为腾艺自主开发的微营销运营系统，致力于为企业提供全面的微信营销整体解决方案。腾艺人坚信并坚持“维护一个原则，规范一个市场；一众人，一件事，一干到底”的做事原则，把企业打造成为从微信营销培训、微信公众号开发、微信平台策划运营的整套落地方案、实战型的微营销服务商

编程开发 2024-08-18 14:51:09

老化试验箱

北京雅士林是一家专业生产试验设备的企业，在老化试验箱、老化箱、高温老化房等环境试验设备有着成熟的生产技术，且与中国科学院、中国航天、清华大学等都有着紧密的合作.咨询热线:010-88264566

管理咨询 2024-07-17 05:26:24

绍兴梁正机械有限公司

绍兴梁正机械有限公司_立式定型机蒸汽系统改造,平网印花机改造系统,圆网印花机改造系统,中温中压蒸汽改造系统,定型机，印花机，蒸汽机整体解决方案,定型机蒸汽改造,定型机蒸汽节能改造

电影视频 2024-11-13 02:52:18

沙发网

沙发网旗下拥有沙发管家、沙发桌面、沙发论坛等产品,致力于为智能电视/盒子用户提供优质的TV应用,活跃的交流社区以及权威的智能电视产品评测。让您客厅的智能电视或者电视盒子能够更加精彩！

网络应用 2024-11-30 15:52:49

168商务网

168商务网（www.o2123.com）是国内B2B电子商务平台，免费供求信息网，提供免费发布的企业黄页信息、供应信息，找客户、找求购尽在168商务网b2b平台，免费发布信息优选168商务网！

网站模板 2024-12-06 12:28:55

闪豚AI

闪豚AI是一款NLP领域原创AI文章模型生成训练系统，拥有独立知识产权，专业NLP技术小组团队开发维护，本系统训练的模型速度快，文章原创度高，文章质量好，广受从事文章需求的自媒体行业和众多Seoer们的选择。

手机软件 2025-02-15 15:16:32

祝贺丽博橱柜 (祝贺丽博橱柜的句子)

经销商葛总经营某知名品牌电器多年，职业经理人刘总的专业建议，看到全屋定制行业发展迅速，决定在当地居然之家经营一个中高端定位的全屋定制品牌，对丽博橱柜ㄧ全屋定制的认真考察，葛总终被丽博品牌综合优势强、产品品类齐全，全系产品自制，做工细节，风格多样等优势所打动，毅然决定加盟丽博橱柜ㄧ全屋定制，签下合约后快速启动门店，丽博橱柜ㄧ全屋定制强势...。

2025-01-31 19:43:18

双11商家赔钱指南 (双十一商家赔本)

11年的时间，阿里巴巴彻底将年轻人口中略带调侃的，光棍节，，变成了一场全民狂欢的，双11，电商购物节，2009年至今，天猫双11的交易金额从不足1亿，一路飙升至2135亿，但是与平台的，辉煌战绩，不同，商家和消费者却陷入了谜一样的难题，越来越多的商家发现，双11当天的订单量暴涨，透支的却是前后两个月的人力成本和成交额，就如同蓄水，开闸...。

2025-01-30 19:16:12

签王之王串串对加盟商有哪些扶持呢 (签王之王串串香加盟费多少)

串串是在火锅的基础上进行简化，让用餐变得更加的便捷随性，并且在售价方面是有一定的优势，几毛钱一串的食材，都是在大家可以消费得起的范围之内，这也是成为了这一行业，快速稳定发展的原因之一，签王之王串串将四川火锅风味的底蕴进行融入到门店产品的制作中，为消费者打造的美食盛宴，给予味蕾上的满足，并且门店的环境，还有服务方面所投入的用心，都是成为...。

2024-12-21 17:28:14

威马沈晖被曝借口参加车展飞出国家人早已移居美国；理想MPV实车首曝李想曾说设计成这样就去跳楼；国美广东门店已全关丨雷峰早报 (威马沈辉)

今日头条华为手机销量跃至国内第一，成销量增长最快手机厂商中信建投研报显示，受Mate60系列手机发布影响，9月以来，华为已成为销量增长最快的手机厂商，上述研报援引BCI数据称，自9月以来，多数周内，国内手机的周度总销量同比增速已转正，从年初至W40，第40周，10月2日，10月8日，末，国内手机销量同比跌幅收敛至3%，其中非苹果手机销...。

2024-12-09 23:19:17

哈华为P70后盖物料曝光 (哈华为售后维修点地址)

4月12日，华为P70标准版的后盖物料图出现在网络上，纯平后盖，三角形相机矩阵，这相机凸起挺高的，而且最大的圈里，还有两个开孔，外媒GSMArena甚至还搞了爆料规格表，但和国内版本有一点出入，要辩证地看↓从4月开始，很多人每天10，08和18，08守在华为商城，等着，华为P70系列偷袭开卖，结果耶伦都回去了，大家还是天天空军，...。

2024-12-02 18:21:00

峰值下载速率超骁龙X60 MediaTek推首款毫米波5G调制解调器M80 (下载峰值11mb)

雷锋网消息，时隔两年后，MediaTek今天宣布推出新一代5G调制解调器M80，这是MediaTek首款支持毫米波频段的5G调制解调器，M805G调制解调器的最高下行速率可达7.67Gbps，上行速率峰值为3.76Gbps，对比高通2020年2月最新发布的第三代骁龙X60，骁龙X60搭配高通新的毫米波天线模组下载速度最高可达7.5Gb...。

2024-12-01 00:50:32

光峰Z2H激光投影仪使用评测真实用户使用评价分享 (光峰uh435)

发表在其它家用投影仪品牌2022，2，914，43光峰Z2H激光投影仪适合商务办公使用，内置大容量电池，可以在不接电的情况下使用，具体这款投影仪的使用效果如何呢，下面就分享真实用户的使用评价，看看这款投影仪是否真的好用，光峰Z2H激光投影仪使用评测，1.金属外观的精致高级，用它看电影，一点问题没有，投影效果也非常好，图像清楚，亮度也还...。

2024-11-29 01:49:07

双子座男生的性情特点解析 (双子座男生的性格特点)

在提到双子座男生的时刻，置信很多人脑子里都冒出了一个，小恶魔，的笼统，特意是关于曾经跟双子座男生有过一段情缘的女生，更是对他们又爱又恨，上方是我为大家整顿的双子座男生的性情，宿愿大家喜欢，双子座男生的性情双子男喜欢活在自己的环球里，他喜欢事件的开展能在他管理的范畴之内，双子容易孤独，大家都说是一种绝症，其实是不足平时心，这个环球只要先...。

2024-07-09 21:46:35

吉利汽车厂家在哪个市区 (吉利汽车厂家电话服务热线)

吉利汽车的消费基地普及世界，<，在国际，吉利汽车的工厂散布宽泛，包含临海<，、路桥<，、肖春<，、上海<，、兰州<，、湘潭<，、宝鸡<，、桂林<，、晋中<，、张家口<，、成都<，、济南<，和慈溪<，...。

2024-07-07 03:19:54

型号XML6796 市场报价多少啊金旅龙翔中型奢侈客车 (型号xma2007-dj是什么笔记本)

序号型号市场参考价HS1XML6601C2元lv2XML6700C2元twsb[3XML6700C2H元mK\=GN4XML6796E1G元$，5XML6796E1A元，1<，kv06XML6836E1G元3G7XML6836E1A元，8XML6700C元<，`K`9XML6796E3G元HlNo10XML6837E13元TH...。

2024-07-06 01:17:18

MVC-SQL数据库_视频讲解_用法示例-mvc编程词典

MVC-SQL数据库是什么意思？怎么用？本专题通过翻译、语法解释、视频讲解、实例代码运行方式详细介绍了MVC-SQL数据库的定义和使用方法

2023-11-08 05:00:30

【木马专家2021下载】2022年最新官方正式版木马专家2021免费下载

腾讯软件中心提供2022年最新2021官方正式版木马专家2021高速下载，本正式版木马专家2021软件安全认证，免费无插件。

2023-09-19 01:32:05

文章推荐

2023类似猪猪农场游戏下载大全有哪些类似猪猪农场的游戏 (2023类似突袭的泰国电影)

你有没有玩过农场游戏，今天小编为大家准备了类似于猪猪农场游戏的榜单，在这些游戏里，你只要种几块地，再养几只猪，不需要过多精密的操作，只要播种下去，过几个小时再登录游戏看看，猪圈里的猪就已经长大了，农田里的庄稼也已经成熟了！你是不是已经迫不及待想知道有哪些这样休闲养老的游戏了呢，1.，疯狂养猪场，如果你想体验养猪的游戏乐趣，那就一定不能...。

2025-02-12 00:07:37

资讯动态

网友俄罗斯女战士自拍照受追捧超正点 (俄罗斯女游客)

妹纸们都爱自拍，这话一点都不假，最近一位俄罗斯妹子的自拍照火了，这位名叫Yulia的俄罗斯女战士，空军，，通过社交网络陆续奉上了一组自己用手机拍摄的照片，外形靓丽的她，配上一身军装，看起来别有一番韵味，不少网友看过这组照片后都大呼这位俄罗斯女战士超级正点，大家觉得呢?PS，一起来看看这位被誉为，俄罗斯最美女战士，的真容吧，最后一张尺度...。

2025-01-31 02:31:11

网络百科

如何在一周内快速摸清一个行业 (如何在一周内快速减10斤)

不管是创业，亦或是进入一个新的行业工作，我们都需要对这个行业有一个清晰的了解，一周时间很短，想完全摸清一个行业是不可能的，不过大致了解，还是完全可以做到的，那么一周时间你需要了解哪些知识呢?一、行业框架1.基本术语∶大致了解行业术语、专业名词有哪些，2.行业规模∶行业整体规模和数据，行业年度经济收入多少，3.生命周期∶处在行业生命周期...。

2025-01-30 23:42:27

网络百科

宽凳科技完成近亿元B2轮融资 AI大模型数据服务赛道迎来爆发 (宽凳科技融资)

近日，国内领先的高质量AI大模型数据服务商宽凳科技正式宣布，完成B2轮亿元融资，本轮融资由广东融泰资本与浙江德清政府产业基金共同投资，本轮融资将主要用于加速商业规模化扩张与研发产品迭代，持续的成功融资有力保证了公司近年商业的强劲发展与盈利前景，宽凳科技创始人兼CEO刘骏表示，今年是AI大模型数据的元年，这个大趋势在智能交通领域尤为明...。

2024-12-03 22:52:22

资讯动态

创业梦想下火锅超市哪个品牌好呢 (梦想创业)

火锅俨然不再是四川人的专利，在那一锅红油热汤的氛围下，天南海北的人们在这道美食面前俯首，而且在不同地域的饮食理念之下，火锅自身也在演变着，衍生出诸多不一样的口感来！但在那创业的梦想之下，火锅超市哪个品牌好昵，不得不说，火锅的滋味尤其令人难忘，一锅红油，热气腾腾，切的薄薄的牛肉，在滚汤中翻滚几下，就能呈现出令人垂涎三尺的浓香来，若是再去...。

2024-12-02 23:48:12

创业加盟

失忆症 登上PNAS 科学家提出基于相似性加权交错学习 针对深度学习的 (失忆症ns)

相关文章

文章推荐

失忆症登上PNAS 科学家提出基于相似性加权交错学习针对深度学习的 (失忆症ns)