社交机器人的对抗行为通过多Agent分层强化学习建模

90 浏览量更新于2023-11-29 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

545Socialbots on Fire：通过多Agent分层强化学习建模Socialbots的对抗行为陈太乐tql3@psu.edu宾夕法尼亚州立大学美国摘要龙传成warwick.ac.uk大学（University of Warwick）联合王国1引言dongwon@psu.edu宾夕法尼亚州立大学美国社交机器人是社交平台上的软件驱动的用户帐户，自主行动（模仿人类行为），旨在影响其他用户的意见或传播针对特定目标的有针对性的错误信息。由于社交机器人破坏了社交平台的生态系统，它们通常被认为是有害的。因此，已经有一些计算工作来自动检测社交机器人。然而，据我们所知，这些社交机器人的对抗性质尚未被研究。这就引出了一个问题：“控制社交机器人的对手能否利用人工智能技术来为自己谋利？”“对于这个问题，我们成功地证明了对手确实有可能利用强化学习（RL）等计算学习机制来最大化社交机器人的影响力，同时避免被检测到。我们首先将对抗性socialbot学习表示为两个功能分层RL代理之间的当一个代理策划一系列可以避免检测的活动时，另一个代理旨在通过选择性地与正确的用户连接来最大化网络影响力我们提出的策略网络使用大量的合成图进行训练，并且在最大化网络影响力（高达+18%）和可持续的隐蔽性（高达+18%）方面都比看不见的现实生活图的基线更好地概括。+40%不可检测性）下的强大的机器人检测器（90%的检测精度）。在推理过程中，我们的方法的复杂性线性扩展，独立于网络的结构和新闻的病毒式传播。这使得我们的攻击在现实生活中非常实用CCS概念• 计算方法→顺序决策。关键词socialbot，socialbot，对抗，强化学习ACM参考格式：Thai Le，Long Tran-Thanh，and Dongwon Lee.2022年Socialbotson Fire：Modeling Adversarial Behaviors of Socialbots via Multi-AgentHierarchicalReinforcement Learning. 在 ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，10页。https://doi.org/10.1145/3485447.3512215允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512215社交机器人是指社交平台上的自动用户账户，这些账户试图表现得像真正的人类账户一样，通常由自动软件、人类或两者的组合控制，即，cyborgs [4]. 与传统的垃圾邮件机器人不同，传统的垃圾邮件机器人可能没有适当的配置文件或者可以容易地与常规帐户区分开，社交机器人经常通过使用被盗的配置文件图片或传记、建立合法的追随者、回复他人等来模仿真实生活用户的配置文件和行为。[4]的文件。社交机器人经常被指责传播分裂的信息-例如，仇恨言论、歧视和其他低可信度的内容已被证明会扩大在线和离线社区之间的政治分歧和不信任[4，20，30]。因此，为了减轻社交机器人的这种有害扩散，人们进行了广泛的研究，其中大部分集中在如何有效地检测它们[10，37，54]。然而，这些作品通常遵循猫捉老鼠的游戏，他们被动地等待社交机器人逃避发生，然后才能做出反应并开发合适的检测器[8]。然而，与其遵循这种被动的方案，不如主动地对社交机器人及其在社交平台上的对抗行为进行建模，从而更好地推进下一个机器人检测研究。特别是，我们提出了一个问题“socialbots可以利用计算学习机制，如强化学习，以他们的优势？“据我们所知，社交机器人的对抗性还没有得到充分的探索和研究。然而，拥有社交机器人农场的对手根据某些策略（或算法）操作他们的社交机器人是可能的。因此，主动模拟这种计算学习机制并更好地理解社交机器人的对抗方面将大大有利于未来的社交机器人检测研究。一般来说，社交机器人具有两个本质上是对立的主要目标：（i）通过社交网络促进大众宣传传播，以及（ii）逃避社交机器人检测器并在其下生存。第一个目标可以被建模为NP难影响最大化（IM）问题[25]，其中机器人需要建立其追随者网络-即，种子用户，使得通过这些用户从机器人传播的任何新消息可以有效地传播并影响许多其他人。同时，它还需要系统地限制其在线行为，使其不会轻易暴露于社交机器人检测器。虽然IM问题已经被几个作品[3，24，25，27]广泛研究，但他们只关注在给定种子节点的固定和静态预算#（相对较小）的情况下最大化网络影响，并且他们假设每个节点都是同等可获取的。然而，这些假设在我们的背景下是不实际的。不仅社交机器人需要在长时间范围内连续选择下一个最佳种子节点或追随者，潜在的大量种子预算546（）下一页→ →→（）∈（）∈WWW节点，它还需要考虑从一个非常有影响力的演员那里获得追随者-例如， Elon Musk，实际上比普通用户更具挑战性。同时，优化其追随者网络的社交机器人还必须避免做出可疑行为-例如，不断地跟随其他人，这可能会引起机器人检测器的注意。因此，学习如何导航社交机器人是一项非常实用但具有挑战性的任务，有两个相互交织的目标，无法单独优化。为了应对这一挑战，在本文中，我们制定了对抗社会机器人学习（ASL）问题，并设计了一个多智能体层次强化学习（HRL）框架来解决它。3我们的主要贡献如下。首先，我们制定了一个新的ASL问题作为一个优化问题的约束。其次，我们提出了一个解决ASL问题的方案，将其框架为两个HRL代理的合作游戏，这两个代理代表了社交机器人的两个独特功能，即（i）选择下一个最佳活动，例如，推、转推、回复、提及，以及（ii）选择下一个最佳追随者。我们仔细设计了RL代理，并利用无监督的图表示学习，以最大限度地减少由于长时间范围和大型图结构而导致的潜在计算成本。第三，我们证明了这样的RL代理可以从合成图中学习，但在真正的不可见图上推广得很好。具体来说，我们在现实生活数据集上的实验表明，学习的社交机器人在影响力最大化方面优于基线，同时通过不断逃避90%检测准确率的强大黑盒社交机器人检测器来维持其寿命。此外，在推理过程中，我们的方法的复杂性线性扩展，并且独立于网络的结构和新闻的病毒式传播。第四，我们在OpenAI的gym [ 1 ]库下发布了一个环境。这使研究人员能够模拟社交机器人的各种对抗行为，并以主动的方式开发新型机器人检测器。2相关工作2.1Socialbots检测在过去十年中，大多数关于社交机器人的先前计算工作[2，10，37，39，42，52，54]主要集中在开发计算机模型以有效地检测社交网络上的机器人[4，8]。这些模型通常使用监督学习算法在地面实况数据集上训练，例如，随机森林，决策树，SVM，将个人社交媒体帐户分类为二进制标签-即，合法或合法[4]。此外，这些学习算法通常依赖于一组统计工程预测特征，例如追随者数量、推文频率等。 [5，42，54]，或深度学习网络，其中特征自动从非结构化数据（如帐户的描述文本）中学习。尽管存在许多可以用于检测社交机器人的可能特征，但是可以直接从官方API提供的用户元数据中提取的统计特征，例如，Twitter API更实用，因为它们在实践中具有良好的计算速度[54]。事实上，流行的socialbot检测API botometer使用的许多功能都属于这一类。此外，我们稍后还表明，使用从用户元数据中获得的简单统计特征可以帮助训练社交机器人检测器，在保持测试集上的预测准确率约为90%。3.1）。无论社交机器人检测器如何提取其预测特征，它们主要是按照反应模式设计的，在这种模式下，它们学习如何在社交机器人出现后检测它们（因此可以收集训练数据集）。2.2对抗式社交机器人学习虽然以前的工作帮助我们更好地理解社交机器人的检测方面，但它们的学习方面尚未得到广泛研究[8]。与学习如何使用其特征的静态快照来检测社交机器人不同，ASL计算建模社交机器人随着时间的推移的对抗性学习行为据我们所知，关于这一任务的相关工作仅限于[7]。这项工作采用进化优化算法从固定的社交机器人“tweet tweet retweet reply，.“，并检查这种排列是否有助于提高机器人检测器的检测精度。然而，这样的排列，即使在本质上是对抗性的，也只是社交机器人的静态快照，并没有讲述机器人如何进化的整个故事。换句话说，我们仍然缺乏一个通用的计算框架来模拟社交机器人的时间动态及其对抗行为。因此，本文的目的是将它们的行为形式化为马尔可夫决策过程（MDP）[21]，并设计一个RL框架来训练社交机器人，以优化其在现实网络中的对抗目标。我们研究了社交机器人的两个对抗目标：影响人们，同时逃避社交机器人检测。虽然第一个可以被建模为图网络上的IM任务，但传统的IM算法-例如，[3，25，27]，假设种子节点的数量相对较小，并且所有节点都是同等可获取的，所有这些都不适用于如前所述的社交机器人上下文也有一些[33，49]，利用RL到IM任务。然而，它们的范围仍然限于对种子预算数量的单一限制。在时间约束下的影响最大化，即，在这种情况下，未被检测到导致提前终止是一个不小的问题。3问题公式化3.1社交网络环境网络表示和影响扩散模型社交网络包括用户、他们的交互以及他们如何相互影响。我们将这个网络建模为有向图G= V，E。两个用户u，v，V之间的边，表示为u，v，E，意味着u可以对v产生影响。u，v还说明了一条新闻可以从u传播到v由于没有可以完美反映现实世界行为的影响力模型，为了对通过G的影响力流进行建模，我们采用了独立级联模型（ICM）[16，17]，这是社交网络背景下最常用的[22，26，34]。 ICM最初被提出来模拟“口碑”行为，这类似于在线信息共享现象。在ICM中，节点可以是活动的，也可以是非活动的。一旦节点u被激活，它就有一个机会以均匀的激活概率p激活或影响其不活动的邻居N（u）。起初，每····Socialbots on Fire：Modeling Adversarial Behaviors of Socialbots via Multi-Agent Hierarchical Reinforcement Learning WWW547S1+|N（u）|SSSSSS（）下一页一（S）A为S（S）（S）SSS（）物镜2：S∈一FFFS（）≥ASN（）|S|F（·）F（A）表1：社交机器人检测器F的预测特征特征描述#tweets用户发布的tweets数量#replies#用户发布的回复#retweets#用户发布的转推#平均tweets平均每个时间步发布#tweets#平均回复数平均每个时间步发布的回复数#平均转发数平均每个时间步发布的转发数#转推。比率#转推/#推其他人扩大。尽管这些操作是在Twitter上下文中tweet->post，retweet->share，reply->comment，mention->tag on Facebook.在实践中，并不是每个节点都需要同样的努力来转换为追随者。例如，机器人需要随着时间的推移积累其声誉，并更频繁地进行交互以产生影响力Elon Musk，而不是一个普通的用户，成为它的追随者。由于强调这种观察的真实模型是未知的，我们使用一个简单的启发式来建模：<$Q（u，t）=max（ 1，Q f（u，t））其中回复数/推文数#retweet.replies.ratio#retweets/#replies #mentions.ratio#unique mentions posted per tweetf（u，t）<$Bernoulli（1−1+|St|），（1）除一组种子节点外，节点不活动。之后，随着环境在一系列离散时间步中展开，影响将通过激活G中的不同节点在E和p之后传播。当没有额外的激活节点被激活时，该过程结束[24，32]。因此，p也是新闻的病毒式传播一条新闻在G中传播的速度有多快然后，我们使用G=V，E，p来表示社交网络G。用σ，G表示扩散函数，该函数测量G中有多少个节点是一条信息，例如，假新闻可以通过ICM模型传播。给定一个固定的网络结构V、E和新闻病毒性p，不同的会导致不同的σ、G值。因此，选择一个好的是决定性的优化传播的影响G。然而，选择最大化σ，G已经被证明是一个NP-困难问题[25]。社交机器人社交机器人是G中的顶点，它试图模仿人类的各种行为，例如，通过G传播宣传或低可信度内容[4，44，46]。它开展了一系列活动A，以同时实现两个主要目标：物镜1：通过选择性地收集好的种子节点来优化其对G的影响，即，追随者，V，随着时间的推移逃避机器人不被发现和移除这两个目标经常处于紧张状态，因为改善目标1通常会损害目标2，反之亦然。也就是说，虽然拥有良好的追随者网络使社交机器人能够随时向大量用户传播虚假信息，但具有高度的不可检测性有助于它在很长一段时间内保持这种优势。由于社交机器人通常是以群组的形式部署的，后来的社交机器人也可以很容易地继承当前社交机器人之前建立的追随者网络。如果一个机器人被检测到并从G中删除，它不仅会失去它的追随者并暴露自己被用来开发更强大的检测器，它还可能冒着泄露其他机器人身份的[ 50]以其人之道还治其人之身[50]。这使得通过目标2实现的可持续性与以前的文献相比变得非常重要-例如，[24，25，51]，其中优化起着更重要的作用。和之间的关系。表示活动序列-即，[6]《易经》中的“六经”包括在每个时间步t进行的四种可能的动作类型，即推、转推、回复或提醒，并且只有最后三种可以直接与其中，具有超参数Q1的<$Qu，t是环境要求社交机器人与影响者U持续交互的次数高u，使其在t时成为跟随者。直觉，一个机器人与良好的声誉在时间步t有大量的跟随者t，可以影响其他人跟随自己比一个新创建的机器人更轻松。总的来说，A编码何时以及什么类型的retweet，reply或mention，用于获得新的关注者s∈S，s然后决定A中这种交互的频率。因此，A和S在时间上是相互依赖的。Socialbot检测模型。机器人检测器负责从G.让不0， 1表示一个模型，该模型基于一个账户在时间步长t（t）之前的活动序列来然后，这种有序活动的序列通常表示为统计特征的无序列表，例如回复数量，每天的推文，由socialbot检测器[10，37，54]。在本文中，提取并采用了几个功能（表1）从以前的作品进行检测。大多数功能都被流行的机器人检测APIBotometer利用[9]。我们使用随机森林[47]算法在近15KTwitter帐户的公开数据集[36，53]上进行监督学习，其中一半被标记为社交机器人。此数据集不暴露于社交机器人。在这里，我们还假设这是一个黑盒模型-即，我们无法获得其参数。在标准的5重交叉验证（使用80%/20%的数据进行训练和测试）后，在一个看不见的测试集上实现了近90%的F1得分。由于和是相互依赖的，我们可以很容易地看到，这也对社交机器人的可检测性产生了影响。请注意，为了专注于研究社交机器人的对抗性方面，我们不得不求助于帐户特征和社交机器人检测模型的某种组合F1得分的90%也与SOTA检测器在类似特征集上一致[37]。3.2ASL问题和目标函数从上述分析中，本文提出研究对抗性社会机器人学习（ASL）问题，以实现目标1和目标2. 换句话说，我们的目标是解决以下问题。问题：对抗性社交机器人学习（ASL）旨在开发一种自动社交机器人，黑盒机器人检测器F，同时最大化其通过一组有选择的追随者S影响G。WWWThai Le、Long Tran-Thanh和Dongwon Lee548S−FAS| |∈∈（·）不一≥（S）≥≥F一一不| || |∈[]P图1：ACORNHRL框架的示例。随着环境的展开，AG enT I（π1）决定执行哪种类型的活动（T、R、A或M）。每当选择一个交互动作（R，A，M）时，AG enT II（π2）就会选择一个新的跟随者。由于在t4时选择的用户u4是影响者，因此π2需要执行不止一次而是Q=3次动作“A当每一个|一|当K=7时，触发边界检测器F（At）。具体来说，我们将此任务表示为具有如下目标函数的优化问题。社交机器人检测器F每次都可以在社交机器人上运行预测t，Agent II主要负责- 即，以选择累积哪个跟随者，仅当代理1选择这样做时-即，转发回复提及这将A的总空间减少到仅V+4。因为和是相互依赖的（Sec.3.1），两个代理需要不断合作，以优化影响最大化和不可检测性。注意，该MDP背后的马尔可夫假设没有被违反，因为时间t处的影响函数σ和检测概率都仅取决于两个代理在t1处的统计快照。该HRL任务随后被详细描述如下。状态在[12，29，35]之后，我们假设状态空间S可以被分解为机器人特定的SDNA和网络特定的SENV，以及sI SDNA，sI I SENV，其中sI，sI I是AgentI的状态空间，并且分别为AgentII具体地，si编码（i）fol的数量它执行一个新的活动。然而，Au和|V|可以潜在地要非常大。因此，我们假设F只在每个降低|S|不（ii）At的快照在时间步长t处，当我时间K新的活动被添加到（Eqn.2b）。这使得Tmin是社交机器人被检测到并被（等式2）移除的最早间隔时间步。2b、c）。由于R在V σ b、G 0和T 1上都是单调递增的，为了使R最大化，社交机器人不能只关注Obj 1或Obj 2。换句话说，Eqn。（2d）鼓励社交机器人同时优化这两个目标。4建议的方法：橡子可以直接存储实际的T序列，这潜在地引起计算和空间开销，特别是当T变得非常大时。相反，我们将t压缩成一个固定的向量，总结了t之前每个tweet、retweet、reply和mention动作的频率。这有效地限制了sI∈R5的空间复杂度为O（1）。类似地，sII∈R4+|V|（k+1）包括（i）node2vec（G）[19]，其编码G的结构，|V|大小为k的向量，（ii）A t的统计快照和（iii）关于S t的信息，编码为：4.1马尔可夫决策过程公式（1（ugSt）11+|St|）|V|∈R|V|（三）ASL问题可以表示为一个MDP过程，它由状态集S、动作集A、转移函数、报酬函数R、折扣因子γ0， 1和视界T组成。由于A的空间需求可能非常 4 V用于4个可能的活动和V个可能的种子节点，特别是在大型网络上，由于潜在的稀疏奖励问题，这可能使任务更具挑战性。克服+的|N（u）|u=0以前的工作通常通过参数化的图神经网络（GCN）[28]作为策略网络的一部分来编码网络结构（[15，55]）。由于这种方法需要在训练过程中频繁更新参数，因此我们采用node2vec（G）作为一种替代的无监督方法，只需计算一次。虽然St可以被编码为独热向量（1（ugSt）），|V|，我们恩-我们将其转换为两个功能的HRL框架，通过将其乘以二进制来丰富它u=01+|S|代理，AgentI和AgentII，具有全局奖励（图1）。我们我们称之为ACORN（Adversarial soC ialbO ts leaR niN g）框架。f（u，t）条件1+不|N(u)|而AgentI负责决定在每个时间步的哪种类型的活动，（第二节）3.1），然后导致方程。（三）、这使AgentII能够根据当前的底部代表选择|St|.目标函数：给出一个黑盒机器人检测模型G=（V，E，p），K，Q，我们想要优化目标函数：F和社会网络环境的特点是什么St，AtmaxR=σ（ST，G）（ 1+T）服从T=minF（AT）= 1F（At）= 0T..<$Q（u，t）=max（1，Q f（u，t））< $1tT<$1 20的情况下，我们经过训练的社交机器人也可以持续更长的时间。这意味着AgentI可以将其对抗活动推广到看不见的现实生活场景。RL代理之间的依赖关系上述结果也证明了AgentI和AgentII联合训练的效果。首先，启发式和CELF方法在与学习的AgentI（蓝&绿线，图4）配对时的性能要比与独立训练的（没有AgentII）AgentI（黄&黑线，图4）配对时好得多。这表明，当使用AgentII进行训练时，AgentI变得更加通用，并且可以帮助社交机器人生存更长的时间，特别是当社交机器人仅使用启发式节点选择时。但是，AgentI在与AgentII配对时性能最佳。这表明，两个RL代理成功地学会了合作，而不仅仅是逃避计算分析。我们比较了计算的复杂性，特别是在推理过程中的CELF算法的Agent II。尽管CELF相对于传统的Greedy [25] IM算法有了显著改进，计算复杂度为S V m [48]（假设每次调用σ都需要m，并且只需要一轮Monte Carlo模拟），但其计算在很大程度上取决于σ，图的大小，并且只有当S很小时才在计算上实用。这也类似于其他传统的IM算法，如CELF++[18]，TIM[48]和ASIM [13]。为了说明，CELF需要更多的时间来计算，因为S增加，特别是在大p的情况下，即计算σ时需要到达更多节点（图5）。然而，通过π 2的前向传递的复杂度为1，AgentII能够线性扩展S，而不管网络结构和推理过程中新闻的病毒性。尽管我们的框架需要使用node2vec计算图形表示，但它被专门设计为可扩展，能够处理大型图形[40]，我们只需要运行一次。对学习政策的见解我们在图6中总结了所有方法的节点选择策略。我们观察到，启发式和CELF选择非常有影响力的节点与许多追随者（高出度）非常早。或者，AgentII在与有影响力的用户连接之前获取一系列正常用户（低出度）这导致早期检测和去除WWWThai Le、Long Tran-Thanh和Dongwon Lee552AS图7：在大型网络上机器人检测约束下多个社交机器人的性能基线和我们方法的可持续生存这表明AgentII可以学习处理关系约束（Eqn. （1））介于与环境之间。此外，ACORN选择的用户的程度具有正确的长尾分布，这意味着ACORN总体上仍然试图在过程的早期最大化5.3多个Socialbots结果我们已经在不同的现实生活中的新闻传播图上评估了我们的方法这些网络可以被认为是一个更大的社交网络的子图在实践中，不同的子图可以表示不同的特殊兴趣社区政治、COVID-19新闻或不同的政治方向。由于社交机器人通常以影响特定的用户群为目标与Vaxxer相反，实际上可以部署在不同子图上串联工作的多个机器人为了评估这种情况，我们将所有90个测试子图聚合到一个由135K个节点组成的大型网络中，并为每个子图使用每个学习的社交机器人图7显示ACORN仍然优于其他基线，特别是在时间范围的此外，由于其线性运行时间和高度并行的架构，ACORN可以有效地扩展到现实生活中的设置。6讨论和限制我们的贡献超出了我们的演示，这样人们就可以训练对抗性社交机器人，使用HRL框架有效地导航现实生活中的我们还将在gym库下发布一个用于ASL任务的多智能体RL环境[1]。这种环境将有助于研究人员测试不同的RL代理，检查和评估有关社交机器人行为的假设，机器人检测模型以及合成和现实新闻传播网络上的潜在影响扩散模型。我们提出的框架仍然有可能被故意利用来训练和部署社交机器人，在社交网络上传播低可信度的内容而不被发现。为了减少对我们工作的任何潜在滥用，我们还避免使用实际的社交机器人检测器API（如Botometer 2）来评估我们的框架。然而，最终，这种滥用可能会发生（就像最新的人工智能技术，如GAN或GPT的滥用是不可避免的）。然而，我们坚信，2https://botometer.osome.iu.edu/该框架在展示社交机器人的对抗性的可能性，并使研究人员能够理解和开发更好的社交机器人检测模型远远超过滥用开发“更聪明”的社交机器人的可能性。事实上，通过学习和模拟社交机器人的各种对抗行为，我们现在可以分析当前检测器的弱点。此外，我们还可以结合这些对抗行为，以主动方式推进新型机器人检测模型的开发[4]。在时间方面，这给了我们一个很大的优势，超过了传统的开发社交机器人检测器的反应流，研究人员和网络管理员总是比恶意机器人开发人员落后一步[4]。我们当前方法的一个限制是，我们只考虑了与四种活动相关的机器人检测器的统计特征，即，tweet、retweet 、reply 和mention（表1）。虽然这些特征有助于在现实数据集上实现90%的F1分数检测准确度，但我们希望为进一步考虑更复杂的网络和基于内容的特征奠定基础[11，36，37，54]。7结论和今后的工作本文提出了一种新的对抗性社交机器人学习（ASL）问题，其中社交机器人需要同时最大化其对社交网络的影响，并最小化强黑盒机器人检测器的可检测性。我们仔细设计并制定了这个任务，作为两个功能分层强化学习代理之间的合作游戏，具有全局奖励。我们证明，学习的社交机器人可以在很长一段时间内在看不见的现实生活网络中保持存在，同时在网络影响力方面优于其他基线。在推理过程中，我们的方法的复杂性也与关注者的数量呈线性关系，并且与网络的结构和新闻的病毒性无关。我们的研究也是朝着开发更复杂的对抗性社交机器人学习环境迈出的第一步，在这种环境中，多个社交机器人可以一起工作以实现共同的目标。通过模拟这些社交机器人在各种现实假设下的学习，我们还希望分析它们的对抗行为，以便在未来开发针对更先进的社交机器人的有效检测模型。33这项工作部分得到了NSF

下载后可阅读完整内容，剩余1页未读，立即下载