脑电图监督下的语义图像编辑

99 浏览量更新于2023-10-25 收藏 19.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Keith M. Davis III1, Carlos de la Torre-Ortiz1, Tuukka Ruotsalo1,2184800脑控图像编辑0first.last@helsinki.fi 1赫尔辛基大学，芬兰赫尔辛基 2哥本哈根大学，丹麦哥本哈根0图1：通过脑电图捕获脑信号来监督语义编辑任务。个体在寻找感兴趣的语义特征（如黑发）时，被展示带有关联向量表示的图像，并记录他们的脑反应。在通过这些脑反应训练模型以检测语义显著性后，使用分类的脑反应和关联的图像向量表示来建模与语义显著性相关的潜在空间特征。然后可以使用这个学到的特征表示来编辑新图像的语义特征。0摘要0尽管深度神经模型在语义图像编辑方面取得了最近的进展，但现有方法仍依赖于明确的人类输入。以往的工作假设需要经过手工筛选的数据集进行监督学习，而对于无监督方法，需要人工检查发现的组件，以识别修改有价值的语义特征。在这里，我们提出了一种新的替代方法：利用脑反应作为学习语义特征表示的监督信号。在一项神经生理学实验中，参与者（N=30）被展示人工生成的面孔，并被指示寻找特定的语义特征，如“老”或“微笑”，同时通过脑电图（EEG）记录他们的脑反应。使用从这些反应中推断出的监督信号，学习了生成对抗网络（GAN）潜在空间中的语义特征，并用于编辑新图像的语义特征。我们展示了隐式脑监督实现了与显式手动标记相当的语义图像编辑性能。这项工作证明了利用通过脑-计算机接口记录的隐式人类反应进行语义图像编辑和解释的可行性。01. 引言0最近，通过利用允许对图像表示进行平滑操作的模型，实现了对图像的语义编辑。然而，语义编辑需要捕捉底层模型对真实世界概念的语义信息的概念化，以实现令人信服的结果。由于它们在建模高度复杂特征方面的高性能，最流行的技术涉及基于生成神经网络的各种方法[28, 2, 11, 42, 41, 27,32, 16, 7]，尽管其他神经架构[4,29]也显示出潜力。最近的研究表明，生成对抗网络（GAN）[15]对语义概念具有人类可解释的表示[14, 42, 16, 7,41]，这在一定程度上解释了它们在语义编辑任务中的性能。然而，GAN缺乏对其潜在表示的直接可解释性，也不直接允许准确的语义控制。也就是说，语义表示被编码在一个连续的空间中，但由于其高维和多变量表示，从潜在特征到显著语义图像特征的映射是非平凡的。因此，识别和转换学习到的语义表示为可用形式仍然是一个未解决的问题。监督方法，如条件GAN，可以1http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html184810允许对特定功能进行控制，但这样做需要大量的人工劳动，因为在模型训练期间需要有适当标记的数据可用。这些方法也受到标记者主观意见的影响。由于GAN通常使用数千到数百万个示例进行训练，为特定语义特征的众包标记以匹配个人兴趣是不现实的。无监督方法通常涉及在潜在的GAN空间中识别组件[7,16]。然后需要人工评估来筛选这些发现的组件，以确定什么是语义相关的和什么不是[7]。虽然这些方法允许发现和控制语义特征，但不能保证找到高度主观或个人的特征，例如个人认为有吸引力的面孔或唤起特定情绪、心情或记忆的风景。无论是监督还是无监督，所有语义编辑方法及其评估都基于人类自然能力来评估语义相关性和显著性。换句话说，它们需要人类判断存在什么语义信息以及它有多明显。然而，目前的方法在执行时需要人工参与。虽然不建议替代人类判断，但可以显著改进这些判断的收集方式。在这里，我们提出了一种新的替代方法：脑控语义编辑。通过从大脑中记录个体感知视觉刺激时的自然、即时反应来获得人类判断，我们证明了可以使用来自大脑的隐式反馈来建模潜在空间的语义特征。与传统的监督方法不同，脑控方法可以更快地获取相关的标记信息，不需要在训练GAN模型时提供标签，并且不局限于探索性方法发现的特征，例如无监督方法中使用的方法。具体而言，我们提出以下研究问题：0RQ1: 脑反应能否用作语义图像编辑的监督信号？0RQ2:与使用手动标签进行编辑相比，基于脑监督的语义编辑表现如何？0我们展示了通过脑的隐式反馈学习潜在GAN空间内有意义的语义决策边界，并且使用这些决策边界进行的转换具有类似的性能。0更一般地，我们展示了一种有趣的新范式：利用人类自然的能力，通过直接从大脑记录的信号来检测和评估图像中显著的语义信息。这为语义图像理解和处理提供了一种新的方法。02. 背景02.1. 语义图像编辑0目前语义编辑的最新技术具有多种方法和技术，可以实现令人印象深刻的结果，例如图像修复[21]、风格转换[23,44]和语义特征的解耦修改[2, 39,43]。虽然这些方法和技术在实现上可能存在显著差异，但学习、发现和修改语义特征通常涉及以下一种或多种方法：聚合大型标记数据集、手动检查探索性技术的结果和/或提供一些具有感兴趣的显著语义特征的示例给模型。例如，在[32]中，通过迁移学习训练了一个图像分类器，用于检测包含在CelebA数据集中的手动标记的面部特征。然后，该分类器被用于自动标记从CelebA数据集训练的GAN生成的数十万张随机生成的图像。然后，使用模型置信度前10%的带标签图像来学习GAN潜在空间内的决策边界，然后使用这些决策边界对语义特征进行修改。其他方法涉及特殊设计GAN架构以便于修改[24,39]，以及利用各种数学技术（如主成分分析[16]）识别潜在空间中的重要维度，甚至构建可以学习操纵潜在空间的定制模型，如[41]中所示。还演示了基于示例的方法，其中使用包含感兴趣特征的图像作为输入来修改某个现有图像[40,38, 26,31]。进行源图像的期望转换的方法可以从添加或删除二进制特征（有云，无云；有眼镜，无眼镜）的滑块和复选框，到分类或多维属性（发色，狗的品种）[42]，使用自由绘制输入[27]和语义分割掩码[3]添加和删除场景对象，以及使用语音或文本输入进行修改[11]。虽然它们的形式可能不同，但最终这些输入都源自与系统的直接人类交互。2https : / / github . com / tkarras / progressive _growing_of_gans184820它们可能在形式上有所不同，但最终这些输入都源自与系统的直接人类交互。02.2. 脑机接口0脑机接口是一种交互范式，其中利用脑活动来控制软件或机械系统。通常，脑活动是通过佩戴在用户头部上方或周围的便携式可穿戴设备来测量的。监测脑活动的最流行方法之一是脑电图（EEG），它是一种非侵入性的方法，用于测量头皮表面由大脑产生的电位差异。这些数据可以用来实时建模脑状态和用户反应。在历史上，脑机接口（BCIs）的许多应用都涉及替代现有的交互范式，例如控制鼠标[37,45]或键盘[5]。然而，最近的研究表明，脑机接口可以应用于其他各种领域，如信息检索[13]、内容推荐[9]、分级相关性检测[30]、认知负荷估计[1]，甚至众包任务[8]。初步研究还展示了将BCIs与GANs和其他神经结构相结合的可能性[18,10]，以及生成符合个人偏好的图像[34]。由于EEG测量数据是在头皮表面而不是颅腔内进行的，所以收集到的数据噪声较大，空间分辨率较低。因此，虽然单独的EEG数据可能不足以监测非常具体的认知过程，但它们具有高时间分辨率，包含了事件相关电位（ERP）等特征，使得EEG适用于实时交互。ERP是大脑对事件（如观看图像）产生的电压变化，其与数字事件的相对容易关联使其在BCI应用中特别有用。ERP可以由各种成分组成，这些成分通过其极性（正或负）和相对于事件的时间来识别。例如，N200是在观看面孔后约200毫秒出现的负电位，而P300是在接受到被认为与当前任务相关或重要的刺激后约300毫秒出现的正电位[17]。虽然以前曾尝试将BCIs与生成模型配对[20, 33,36]，但越来越多的人担心结果不是来自认知效应，而是由实验设置的块结构引入的混淆[22]。因此，在计算机视觉环境中利用脑反应指导生成模型仍然是一个尚未解决的问题。在[20, 33, 36]中，将目标刺激放置在实验块的末尾，而不是0与在块中随机出现相比，由于EEG的自然时间特性，这会产生人为的正分类。也就是说，在实验块的末尾收集到的信号可以与在实验块的开头收集到的信号区分开来，而不管产生这些信号的刺激物的内容如何。在我们的实验中，我们使用随机的“奇葩”范式[35]仔细控制EEG信号的时间变化。在我们的实验设计中，我们在同一个实验块中对目标和非目标刺激类别进行完全随机化。03.神经生理实验0在本节中，我们提供了关于如何进行神经生理实验的完整描述。详细描述了参与者、刺激物、实验设备、收集EEG数据的程序以及在收集后如何处理和清理这些数据。03.1.参与者0神经生理数据来自于从赫尔辛基大学和阿尔托大学招募的31名参与者。实验的性质和目的向所有参与者解释，并且每个参与者签署了知情同意书，以承认他们在赫尔辛基宣言下的权利的理解。一名参与者选择提前结束实验，因此获得了30名参与者的完整数据，其中13名自报为女性，17名自报为男性，所有参与者的视力正常或矫正到正常，并且没有已知的神经疾病史。参与者的平均年龄为28岁（标准差=7.14，最小值=18，最大值=45）。无论参与者是否完成了完整的实验，他们都以本地电影券的形式获得了参与的补偿。03.2.刺激物0刺激物是使用预训练的GAN架构2通过从一个512维多元正态分布中抽样的70,000个潜在向量的随机过程生成的[19]。一个未参与神经生理实验的人工评估员手动筛选了所有刺激物，以确保它们看起来像人类，并且不包含不真实的伪迹。然后，这些图像和用于生成它们的相关的512维潜在向量根据以下视觉特征分为八组：微笑、不微笑、女性、男性、年轻、老年、黑发和浅发（金发）。所有图像都应用了一个椭圆灰色框来遮挡背景和非面部特征。184830图2：左侧显示了实验设置和RSVP任务的可视化。参与者被指示寻找语义特征，例如黑发，并且每500毫秒呈现一个新的刺激。右侧，我们绘制了在不同任务中查看相同刺激时在Fz电极处测得的平均脑响应。对于“目标”，响应来自于在任务“黑发”期间查看黑发人的图像。对于“非目标”，响应来自于在任务“金发”期间查看黑发人的图像。因此，尽管刺激保持不变，但脑部产生的诱发响应是不同的，因为脑部响应的性质取决于给定刺激是否包含感兴趣的显著语义特征。03.3.实验设备0EEG数据是使用32个Ag/AgCl电极记录的，按照10-20系统排列（具体位置可在补充材料中找到）。使用2,000Hz的Quick-Amp USB（BrainProductsGmbH，Gilching，德国）放大器进行信号放大、滤波和数字化。眼动被检测到使用两对双极电极进行伪迹检测 -一对位于左右眼外眦1厘米处，另一对位于右瞳孔上下2厘米处。03.4. 实验过程0参与者完成了八个显著性识别任务，每个任务对应于预定的感兴趣的视觉特征，如第3.2节所述。在每次迭代之前，参与者完成了一个演示任务。对于演示任务，他们被展示了四个示例刺激图像，并被要求手动选择包含前述显著特征的图像，以进行后续的显著性识别任务。这些图像在实际任务中不被用作刺激。在每个任务期间呈现的所有刺激都根据语义特征显著性被分配了一个二进制标签。例如，在“微笑”任务中，参与者被展示了面孔，这些面孔要么微笑（标记为目标），要么不微笑（非目标）。参与者被要求仅观察呈现的面孔，并在看到与任务描述（微笑，目标）相匹配的面孔时做个心理记录。在显著性识别任务期间，参与者不需要进行其他物理输入。0显著性识别任务。每次迭代期间以随机顺序显示目标类别的20个刺激和非目标类别的50个刺激。刺激以快速连续视觉呈现（RSVP）格式以每500毫秒一个的速度呈现。为了确保为每个参与者收集足够的数据，并且参与者至少看到每个图像一次，显著性识别任务和演示任务对于每个图像类别总共进行了四次迭代，共计32次。03.5. 数据预处理0EEG测量通常包含来自各种来源的不需要的伪迹和噪声，例如参与者的运动和其他电气设备。采用了标准的信号清理程序[25]以提高信噪比。预处理步骤旨在减少实时应用中的信号噪声，因此只使用可以在实时中完成的自动化操作进行信号清理。为了去除由呼吸引起的慢速信号波动和由电气设备产生的高频背景噪声，对信号应用了0.2-35Hz频率范围内的带通滤波器。滤波后，数据被分割成与刺激开始时间相关的时间锁定带（时期），范围从-200到900毫秒。基线校正是根据-200到0毫秒的刺激前期进行的。使用基于阈值的启发式方法删除包含大量瞬态伪迹的时期，例如由眨眼引起的伪迹。预处理后，每个时期的大约11％的数据被删除。184840参与者的时期被删除了，每个参与者平均剩余2239个时期。04. 基于大脑监督的语义编辑0在这里，我们解释了我们的方法的步骤，如图1所示。0准备工作我们假设存在一个生成函数 G ( z ) → x，其中任何给定的向量 z 都可以转化为图像表示 x，反之亦然。上述第3.4节中描述的识别任务为每个生成的图像及其关联的向量表示产生了大脑信号 E的张量表示。当参与者被要求识别包含某些语义特征的图像时，查看图像会产生一个包含与目标语义特征的显著性 s相关信息的响应 E 。首先，我们定义一个函数 SAL ( E ) →s ，仅使用大脑响应 e 作为输入，可以估计某个图像 x的语义显著性 E 。接下来，我们定义一个函数 SEM ( Z, S )→ W 。给定一组图像向量 Z 和相关的一组语义显著性分数S ，该函数识别一组特征变换 W ，当应用于任何给定的 z时，对应于图像形式 x 的 s的变化。最后，我们使用学习到的变换 W，乘以一个正或负的常数 α ，来修改给定的表示 z。结果是一个经过转换的向量 ˆz ，具有一个图像形式 ˆ x，其中特定语义的显著性得分 s发生了变化，同时与其他语义特征解耦（即，其他特征保持不变）。变化的幅度与 α 成比例。这个函数可以写作 EDIT( z, W , α ) → ˆ z 。0从脑信号中估计显著性为了构建显著性估计函数SAL，我们使用了正则化的线性判别分析（LDA）分类器[6]。该分类器使用脑反应的向量表示进行训练，使用二进制标签（目标或非目标）指示感兴趣的语义特征是否在相关的刺激图像中显著。脑反应通过将给定时段的所有32个通道的时间序列电压数据连接成一个数组来进行向量化。使用留一交叉验证，估计与个体相关的脑反应中每个刺激图像x的语义显著性分数s。0在潜在的GAN空间Z中确定特征变换W，我们使用具有线性核的支持向量回归（SVR）模型[12]。在这里，我们希望满足方程0 = W � Z +b。也就是说，找到一些点Z上的超平面W �。0给定一个向量表示Z和相关的显著性分数S，对于每个语义类别，使用支持向量回归（SVR）模型进行训练。SVR具有方便的性质，即在学习估计给定向量z的s的同时，得到的超平面的单位法向量W等同于函数EDIT中的W。0对于给定图像x的表示z，可以使用ˆz = z +αW来改变给定语义的显著性s，同时与其他语义特征保持解耦。当α > 0时，目标语义的显著性s将增加，当α <0时，s将减少。05. 语义编辑实验0在收集必要的神经生理数据之后，我们使用记录的脑反应对新图像进行语义转换进行了建模实验。在本节中，我们详细解释了如何构建控制条件以量化基于脑监督的语义编辑过程的性能。然后，我们描述了用于量化我们方法性能的评估过程。05.1. 控制条件0为了评估基于脑的模型的性能，选择了三个控制条件。对于这些控制条件，除了用于估计W的信号外，其他因素都保持相等。对于第一个控制条件，通过使用手动分配给神经生理实验刺激的显式标签训练的SVR模型找到了W。这个控制条件被称为explicit模型，用于比较基于脑标记的模型和使用明确定义的标签训练的模型之间的性能。第二个控制条件使用随机洗牌的脑源标签来找到W。这样做是为了衡量标签准确性对于产生良好的变换超平面的重要性。我们将这个控制条件称为randomlabel模型。第三个控制条件是通过从多元正态分布（512维）中进行采样来创建W，而不是通过SVR找到W。这个控制条件称为randomvector，用于确定图像可以通过在样本空间内随机移动来多大程度上与目标标签匹配的下限。05.2. 评估0实验数据在收集后不久进行了匿名处理。由于这个原因和实验的时间安排，它184850图3：使用Brain模型和三个控制模型对任务“黑发”（左）和“微笑”（右）进行的转换的示例结果，给定相同的源图像，其中感兴趣的语义特征不显著。请注意，explicit表示使用从手动标签训练的模型进行的转换，而brain表示使用从分类的脑反应训练的模型进行的转换。0由于不可行让原始参与者评估转换结果，因此招募了两名未参与神经生理实验的独立评估者来评估转换结果。一名评估者进行主要评估，而第二名评估者用于计算评估者间一致性的kappa统计量。生成的输出通过使用图形用户界面由这些评估者进行随机盲目用户研究进行评估。对于每个源图像，大脑模型和三个对照条件分别生成了四个编辑图像，共计四个图像集。评估者每次随机顺序呈现一个图像集（因此同一源图像不会连续评估多次）。每个图像集由源图像和使用多个（ α = 1, 2, 3,4）W进行转换的四个图像组成。这些图像的排序也是随机的。评估者被要求在五级Likert量表上对每个图像进行数字评分，以表示图像与目标视觉特征的匹配程度，其中0表示与标签不匹配，4表示完全匹配。此外，还收集了每个图像的另外两个指标：真实性和身份保留。评估者被要求为每个图像提供二进制评分，以表示它是否看起来真实，并且是否看起来描绘了与其他图像中相同的人物。对于每个语义显著性任务，随机选择了15个源图像，由大脑模型和三个对照条件进行转换。总共，主要评估者注释了9600个图像，而第二评估者评估了相同生成图像中的512个图像，以估计注释过程的可靠性。06. 结果0在本节中，我们提供了语义编辑实验的评估结果。我们还对神经生理学研究结果进行了简要概述。06.1. 神经生理实验0图2显示了Fz电极对微笑图像的平均诱发反应的ERP图，用于两个条件任务：“微笑”任务和“不微笑”任务。明显显示了P300效应，并确认尽管参与者看到了相同的图像，但他们对图像的神经生理反应取决于任务。因此，在“微笑”任务中，微笑的面孔会在Fz电极产生较大的正性反应，因为它与任务匹配。然而，在“不微笑”任务中，微笑的面孔不会产生这种正性反应，因为它们不符合目标描述。对于所有参与者和所有语义显著性任务的脑反应分类，平均F1分数为0.67（最小值=0.54，最大值=0.87，标准差=0.12），这与使用类似设备、数据预处理和分类技术的BCI通常期望的性能一致[6]。06.2. 语义编辑实验0语义编辑实验的结果显示，大脑模型的表现与显式模型类似。大脑模型和显式模型始终能够生成适当改变语义特征显著性而不显著改变其他视觉特征的图像，而随机对照组则不能。示例结果可见于图3和图5。大脑模型和显式模型(a)(b)(c)184860图4：大脑模型和对照组的语义编辑性能的小提琴图。图4a显示了每个模型在所有任务的最终步骤的评分值。图4b显示了每个模型在所有任务中最终步骤的评分值与源图像之间的差异。大脑模型和显式模型的表现均显著优于随机对照组。比较大脑模型和显式模型的结果，从图4c可以看出，随着 α 的增加，大脑模型和显式模型之间的性能存在轻微差异。0任务原始评分增量逼真度身份保持0大脑显式 R1 R2 大脑显式 R1 R2 大脑显式 R1 R2 大脑显式 R1 R20金发 0.74 0.92 0.16 0.25 0.65 0.81 0.04 0.14 0.90 0.90 0.93 0.63 0.97 0.97 1.00 0.85 女性 0.68 0.84 0.13 0.18 0.62 0.79 0.06 0.13 0.80 0.87 0.930.80 0.98 0.91 1.00 0.94 年轻 0.80 0.86 0.47 0.50 0.30 0.43 0.04 0.10 0.73 0.70 0.83 0.70 0.98 0.98 0.99 0.88 微笑 0.54 0.73 0.12 0.93 0,23 0.640.03 0.13 0.87 0.97 0.87 0.63 0.99 1.00 1.00 0.83 深色头发 0.65 0.93 0.06 0.10 0.65 0.93 0.04 0.08 0.80 0.87 0.80 0.67 0.95 0.95 1.00 0.85 男性0.77 0.90 0.22 0.32 0.62 0.76 0.05 0.16 0.73 0.80 0.90 0.73 0.99 0.98 1.00 0.90 老年 0.26 0.34 0.09 0.18 0.16 0.27 0.01 0.05 0.67 0.47 0.63 0.670.93 0.92 0.99 0.82 不微笑 0.69 0.83 0.33 0.48 0.36 0.53 0.01 0.18 0.83 0.80 0.80 0.73 0.99 0.99 1.00 0.860平均值 0.64 0.79 0.19 0.27 0.48 0.65 0.04 0.12 0.79 0.80 0.84 0.70 0.97 0.96 1.00 0.870表1：所有测量结果，以非目标起始图像为基础，显示四个模型（大脑、显式、随机标签（R1）和随机向量（R2））的结果。所有测量值介于0和1之间，0表示最差的性能，1表示最佳性能。在所有任务中，两个模型在性能上均显著优于随机对照组（p < 0 . 001）（经Bonferroni校正），基于增量计算。对于逼真度和身份保持，R1的性能作为上限，因为R1基准产生的目标图像与源图像几乎无法区分。0显式控制模型在所有指标上的表现均优于随机对照组：最终得分、增量、身份保持和逼真度。然而，对于 I f，大脑模型的增量和原始评分的分布更广，如图4所示。此外，大脑模型的每一步引入的变化较显式模型更小。评估的完整结果显示在表1中。比较大脑模型和显式模型，在所有任务中，显式模型和大脑模型之间的性能差异具有统计学意义（双侧t检验，经Bonferroni校正， p < 0 . 05）。然而，在任务之间进行比较，性能差异仅在任务深色头发中具有统计学意义（经Bonferroni校正， p < 0 . 01）。对于身份保持和逼真度，大脑模型和显式模型的表现相似，两者之间没有显著差异。R1模型未能0不会对源图像进行太多改变，很好地保持了源图像的身份。大脑和显式模型生成的图像比随机向量模型更加逼真，尽管效果很小（经Bonferroni校正， p < 0 . 01）。在身份保持方面，大脑和显式模型之间没有显著差异。两个评估者之间，语义编辑性能的Cohen'skappa系数为0.88，身份保持为1.00，合成图像逼真度为0.99。因此，所有评估指标都具有很高的评估者间一致性。07. 讨论和结论0在这项工作中，我们寻求以下研究问题的答案：184870图5：大脑模型对每个任务执行的转换的样本结果。任务的名称指示目标输出的描述。例如，对于任务 young，目标是生成一个看起来更年轻的图像。类似地，对于任务dark hair ，目标是生成一张头发更黑的图像。0研究问题1：大脑反应能否用作语义图像编辑的监督信号？我们已经证明大脑反应可以用于检测图像中感兴趣的语义特征的显著性，并且这些数据的质量足以监督图像的语义编辑。研究问题2：与基于手动标签的编辑相比，基于大脑监督的语义编辑的表现如何？虽然显式模型的表现优于基于大脑的模型，但性能差异很小，足以进一步研究基于大脑的方法。虽然这里描述的实现涉及在预训练的GAN上学习潜在空间，但我们相信大脑监督可能推广到许多其他GAN控制方法及其他领域。相同的P300相关效应可以用于快速探索和选择由无监督转换技术产生的潜在空间操作和特征。还可能有可能在0将企业脑信号作为辅助信息直接用于训练表示。我们方法的根本限制在于从脑电图响应中估计语义显著性的准确性，这不是因为范式本身的局限性，而是由于当前可用传感器技术的质量。脑电图仍然是一种相对嘈杂且空间不准确的技术，用于捕捉脑活动。因此，使用脑电信号进行二元分类问题时，通常在0.65-0.80的分类准确率范围内，通常被明确标记的技术所超越。然而，当考虑到相对于手动技术，脑响应可以以多快的速度记录下来（每秒2个刺激呈现），这种性能差距就不那么显著了。随着传感器技术的改进和/或更好的成像技术，可以合理地期望脑监督方法在不久的将来超越其手动替代品。随着脑成像传感器技术的不断改进和价格的降低，脑机接口成为一种常见的交互范式的前景越来越可能。因此，值得开始为如何将来自这种传感器技术的信息集成到现有和未来的图像处理方法中奠定基础。这不仅仅是为了增强或补充现有模型的性能，而是从根本上改变这些模型的监督和控制方式。在这里，我们首次证明了可以使用来自大脑的响应进行语义图像编辑。更广泛地说，这项工作提出了一种新的范式：在监督模型训练和控制中融入生理反馈。这种范式超越了计算机视觉和机器学习研究社区目前使用的监督信号，更有效地利用人们检测语义特征和语义显著性的自然能力。此外，直接使用来自大脑的测量允许隐式地识别可能在传统手动标记技术中难以量化的语义维度。这意味着计算机视觉系统可以直接从人类对视觉信息的大脑反应中学习对其用户重要的语义显著性，甚至是语义图像表示。0致谢0这项研究部分资助来自芬兰学院。计算资源由芬兰网格和云基础设施提供（urn:nbn:fi:research-infras-2016072533）。我们感谢Michiel Spap´e对神经生理实验的贡献和建议。184880参考文献0[1] Lena M Andreessen, Peter Gerjets, DetmarMeurers和Thorsten O Zander.为改善数字阅读而努力的神经适应性支持技术：通过文本难度和呈现速度对阅读施加的心理负荷的被动BCI评估。用户建模和用户自适应交互，31（1）：75-104，2021年。0[2] Grigory Antipov, Moez Baccouche和Jean-Luc Dugelay.使用条件生成对抗网络进行人脸老化。在2017年IEEE国际图像处理会议（ICIP）中，页码2089-2093。IEEE，2017年。0[3] Aayush Bansal，Yaser Sheikh和Deva Ramanan.形状和上下文：野外图像合成和操作。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码2317-2326，2019年。0[4] Apratim Bhattacharyya, Shweta Mahajan, Mario Fritz,Bernt Schiele, and Stefan Roth.使用多尺度自回归先验的归一化流。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码8415-8424，2020年。0[5] Benjamin Blankertz，Guido Dornhege，MatthiasKrauledat，Michael Schr¨oder，John Williamson，RoderickMurray- Smith和Klaus-Robert M¨uller.柏林脑机接口展示了新型心理打字机hex-o-spell。2006年。0[6] Benjamin Blankertz, Steven Lemm, Matthias Treder,Stefan Haufe, and Klaus-Robert M¨uller.单试验分析和ERP成分分类-教程。神经影像学，56(2):814-825，2011年。多元解码和脑阅读。0[7] Anton Cherepkov, Andrey Voynov, and Artem Babenko.在语义图像编辑中导航GAN参数空间。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码3671-3680，2021年。0[8] Keith M Davis III, Lauri Kangassalo, Michiel Spap´e, andTuukka Ruotsalo.脑源化：通过协作脑-计算机接口进行众包识别任务。在2020年人机交互计算系统CHI会议论文集中，页码1-14，2020年。0[9] Keith M Davis III, Michiel Spap´e, and Tuukka Ruotsalo.通过脑信号推断的协同过滤。在2021年Web会议论文集中，页码602-611，2021年。0[10] Carlos de la Torre-Ortiz, Michiel M Spap´e, LauriKangas-salo, and Tuukka Ruotsalo.用于交互式图像生成的脑相关反馈。在第33届ACM用户界面软件和技术年会论文集中，页码1060-1070，2020年。0[11] Garoe Dorta, Sara Vicente, Neill DF Campbell, and Ivor JASimpson.扭曲的GAN：用非配对数据进行语义属性编辑。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码5356-5365，2020年。0[12] Harris Drucker, Chris JC Burges, Linda Kaufman, AlexSmola, Vladimir Vapnik, 等。支持向量回归。0[12] Harris Drucker, Chris JC Burges, Linda Kaufman, AlexSmola, Vladimir Vapnik, 等。支持向量回归。0[13] Manuel JA Eugster, Tuukka Ruotsalo, Michiel M Spap´e,Oswald Barral, Niklas Ravaja, Giulio Jacucci, and Samuel Kaski.自然脑信息界面：通过人脑信号推断的相关性推荐信息。科学报告，6(1):1-10，2016年。0[14] Lore Goetschalckx, Alex Andonian, Aude Oliva, andPhillip Isola.Ganalyze：向认知图像属性的视觉定义迈进。在IEEE/CVF国际计算机视觉会议论文集中，页码5744-5753，2019年。0[15] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio.生成对抗网络。神经信息处理系统进展，27，2014年。0[16] Erik H¨ark¨onen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris.Ganspace：发现可解释GAN控制。arXiv预印本arXiv:2004.02546，2020年。0[17] James E Hoffman, Robert F Simons, and Michael R Houck.在控制和自动目标检测期间的事件相关电位。心理生理学，20(6):625-632，1983年。0[18] Lauri Kangassalo, Michiel Spap´e, and Tuukka Ruotsalo.用于生成与感知类别匹配的图像的神经自适应建模。科学报告，10(1):1-10，2020年。0[19] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.渐进式增长的GAN以提高质量、稳定性和变化性。arXiv预印本arXiv:1710.10196，2017年。0[20] Isaak Kavasidis, Simone Palazzo, Concetto Spampinato,Daniela Giordano, and Mubarak Shah.Brain2image：将脑信号转化为图像。在第25届ACM多媒体国际会议论文集中，页码1809-1817，2017年。0[21] Avisek Lahiri, Arnav Kumar Jain, Sanskar Agrawal, PabitraMitra, and Prabir Kumar Biswas.先前引导的基于GAN的语义修复。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码13696-13705，2020年。0[22] Ren Li, Jared S Johansen, Hamad Ahmed, Thomas VIlyevsky, Ronnie B Wilbur, Hari M Bharadwaj, and Jef- freyMark Siskind.EEG分类实验中块设计的危险和陷阱。IEEE模式分析与机器智能交易，43(1):316-333，2020年。0[23] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换.在IEEE/CVF计算机视觉与模式识别会议论文集中，页码3809–3817，2019年。0[24] Ming-Yu Liu and Oncel Tuzel. 耦合生成对抗网络.《神经信息处理系统进展》，29:469–477，2016年。0[25] Steven J Luck. 事件相关电位技术简介.MIT出版社，2014年。0[26] Liqian Ma, Xu Jia, Stamatios Georgoulis, Tinne Tuytelaars,and Luc Van Gool.基于示例的无监督图像到图像转换与语义一致性. 《arXiv预印本》，arXiv:1805.11145，2018年。184890[27] Evangelos Ntavelis, Andr´es Romero, Iason Kastanis, LucVan Gool, and Radu Timofte. Sesame:通过添加、操作或擦除对象来进行语义编辑场景.在欧洲计算机视觉会议论文集中，页码394–411。Springer，2020年。0[28] Guim Perarnau, Joost Van De Weijer, Bogdan Raducanu,and Jose M ´ Alvarez. 可逆条件GAN用于图像编辑.《arXiv预印本》，arXiv:1611.06355，2016年。0[29] Stanislav Pidhorskyi, Donald A Adjeroh, and GianfrancoDoretto. 对抗性潜在自编码器.在IEEE/CVF计算机视觉与模式识别会议论文集中，页码14104–14113，2020年。0[30] Zuzana Pinkosova, William J McGeown, and YasharMosh- feghi. 分级相关性的皮层活动. 在第43届国际ACMSIGIR信息检索研究与开发会议论文集中，页码299–308，2020年。0[31] Baptiste Rozi`ere, Morgane Riviere, Olivier Teytaud,J´er´emy Rapin, Yann LeCun, and Camille Couprie.有启发性的对抗图像生成. 《IEEE图像处理》，30:4036–4045，2021年。0[32] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou.解释GAN的潜在空间以进行语义人脸编辑.在IEEE/CVF计算机视觉与模式识别会议论文集中，页码9243–9252，2020年。0[33] Concetto

下载后可阅读完整内容，剩余1页未读，立即下载