量子集体：解决上下文不足问题的新方法

27 浏览量更新于2023-10-16 收藏 12.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11010量子集体0Lora Aroyo �0阿姆斯特丹自由大学，荷兰阿姆斯特丹lmaroyo@gmail.com0Chris Welty †0Google研究纽约，美国cawelty@gmail.com0摘要0人工智能和集体智能系统普遍存在上下文不足的问题。可能有无数种可能的上下文可能会改变对某些信号的解释，可能会改变对某些刺激的适当反应。例如，一个图像理解系统在缩放的人脸图像中无法识别逮捕事件。如何知道有更多的信息，超出系统可以访问的范围，影响数据的解释？解决上下文问题的实践方法是一种实用的、工程的方法：分析错误（在推荐、问题回答、图像识别等方面），分类导致错误行为的上下文信息的类型，找到导致错误的最常见类型的上下文，并向系统添加关于该类型上下文的信息。显然，这种方法既不是通用的，也不是可扩展的，而且忽略了可能影响系统理解和行为的上下文信息的无名长尾。在本文中，我们概述了一种新的、更通用的识别上下文的方法。该方法基于一个相当简单的直觉：量子力学的数学比经典统计学的标准工具集更适合建模和模拟人类认知行为。海森堡的不确定性原理、状态的叠加和纠缠在集体智能中具有直接可测量的类似物。0CCS概念0• 以人为中心的计算 →人机界面设计和评估方法；人机界面设计和评估方法；人机界面设计和评估方法；• 计算理论 → 语义和推理；语义和推理；• 信息系统 →万维网；0关键词0歧义；上下文建模；众包；集体智能；量子数学；认知行为；人类计算；分歧；质量度量0� 这是通讯作者† 这是通讯作者0ACM承认本文是由美国政府的雇员、承包商或关联机构的员工合著或合著的。因此，美国政府保留以非独占性、免费的方式出版或复制本文，或允许他人仅出于政府目的这样做的权利。WWW'18 Companion，2018年4月23日至27日，法国里昂，©2018年计算机协会。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915500ACM参考格式：Lora Aroyo和ChrisWelty。2018年。量子集体。在2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，3页。https://doi.org/10.1145/3184558.319155001 引言0其他科学领域正在质疑经典概率论是否是解释和预测复杂行为的正确基础。例如，在心理学中，研究认知和理性时，正在形成一种新趋势，使用量子数学来解释“非理性”（或相互矛盾）的人类行为，例如使用量子数学来模拟人类决策过程[5]。这些研究人员并不提出人类大脑是量子计算机，而是认为量子理论的数学原理可以更准确地理解和模拟人类认知和行为，而不是概率和统计学。在经济学中，基于量子的纠缠理论被用于更准确地预测复杂市场。量子形式主义的一个方面使其更适合集体智能的是打破概率必须总和为1的假设，这个假设完美地模拟了机会游戏（例如，骰子落在每个特定面上的概率必须总和为1）。所有统计规律的数学属性都是从离散或连续建模的事件中导出的，使得所有可能性的总和为1。然而，这是对现实的一种极端简化，因为我们根据现有数据绘制统计数据并对世界进行建模，但总会存在可能的上下文，这些上下文超出了可能影响结果的数据范围，与骰子游戏不同。例如，在一篇揭示人类行为“悖论”的著名论文中，讨论了1997年9月进行的一项盖洛普民意调查。1002名受访者中有一半被问到以下一对问题：“您是否普遍认为比尔∙克林顿诚实可靠？”随后，同样的问题关于阿尔∙戈尔[7]。一半的受访者先被问到他们对克林顿的意见，然后是戈尔，另一半的受访者以相反的顺序被问到他们的意见。结果完全不同，并且实验已经重复了很多次，结果相同。直到最近，当量子数学被用来准确地模拟正在发生的事情时，这个问题被认为是一个统计悖论[8]。直观上，正在发生的事情应该是清楚的：一个人对政治家的“意见”是一个复杂的事情，既不是二进制的，也不是离散的；我们不仅仅“喜欢”或“不喜欢”他们，我们也不是在1-5的尺度上喜欢他们。通常我们可能同意某些事情，不同意其他事情，对他们的政策、演讲、个人生活、朋友、外貌等感到厌恶、兴奋或矛盾。当我们先被问到一个人时，它会引发一种特定的情感。0Track: 人机协同增强智能 WWW 2018，2018年4月23日至27日，法国里昂11020这可能会产生与其他人的整体印象不同的子集相关的关联。当问题简化为一个简单的“喜欢”或“不喜欢”的问题时，人们似乎同时相信相反的事情。这既不是悖论也不是非理性的（最初是这样认为的），而是使用为骰子游戏设计的数学形式主义来建模人类意见的问题。事实证明，用于描述状态叠加的数学形式主义效果更好。我们仍然可以将复杂情况（如人类意见）简化为“喜欢”或“不喜欢”，只要我们不假设它们是统计互补的；换句话说，只要我们允许在回答问题时“坍缩”的叠加。当然，这个想法无论简化的粒度如何都是适用的：人们可以喜欢和不喜欢“阿尔∙戈尔的环境政策”，因为他们可能喜欢其中的某些方面，而不喜欢其他方面。然而，需要注意的是，随着决策中添加更明确的上下文，上下文的影响会减少。02 方法0量子力学中使用的数学形式主义比经典概率和统计学复杂得多。然而，我们从简单开始，并提供一个示例，以证明直观的论证。我们首先介绍叠加的概念，在这篇简短的论文中，我们展示了如何更新人机协同方法，以提供有关叠加的信息，并帮助确定上下文的影响。我们对叠加的基本方法是放弃“骰子游戏假设”，即事件的概率及其明显的逻辑矛盾之和必须等于1的假设，以允许可能的叠加状态。为此，我们单独收集和测量事件发生的概率，而不是事件不发生的概率。这个额外的测量为我们提供了对上下文影响的洞察。我们一直在进行实验，使用量子建模来理解医学自然语言，理解声音，理解历史事件等。我们在主动学习框架中收集人类注释，该框架可以识别人类判断中最棘手的情况，并将较简单的情况留给机器[4]，[6]。在以往的工作中，我们已经证明了我们的方法在知识密集型领域（如医学）中达到了专家水平[3]。在理解医学语言的情况下，自然语言处理的最新技术几乎完全是一次处理一句话。毫不奇怪的是，许多句子在不包括前面的句子的情况下无法理解。对于NLP来说，问题在于当一次处理一句话时，无法区分机器误解了一句话和需要更多上下文才能理解的句子。在我们的观察之前，按照今天的做法，没有办法测量这些错误或对其进行建模。我们的方法允许我们首先衡量问题的严重程度，然后对这些句子进行建模，以便能够识别它们。03 实验0在一个简单而初步的实验中，我们给了一群无技能的工人88个来自医学领域的句子，并要求他们选择每个句子中表达的12个预先确定的语义关系中的哪一个（例如，治疗、症状、原因等）。他们还可以选择“没有”或“其他”。我们给另一组工人相同的句子，但要求他们选择哪些关系没有被表达。在两种情况下，鼓励工人选择“所有适用的”。例如，在句子“抗生素是治疗伤寒症状的一线治疗”中，我们预期所有正面任务中的工人都会选择治疗关系，而对于句子“GITELMAN综合征患者可以表现出正常的尿浓缩能力并且有低钙尿症”，我们预期会选择症状、相关和原因。对于负面任务，我们预期行为是相反的，即大多数人不会选择这些选项。每个句子由15名工人注释，他们可以看到带有候选关系参数高亮显示的句子；有关任务的详细信息可以在以前的工作中找到[2]，[1]。我们通过将每个句子上所有工人选择的总和视为一个向量，并使用余弦相似度进行比较来对结果进行归一化。如果我们假设选择特定关系的工人的比例是句子中表达该关系的概率（在正面情况下）或句子中不表达该关系的概率（在负面情况下），那么我们预期每个任务的观察概率，P(R)和P(¬R)，对于每个句子-关系对来说，总和为1。因此，我们预期来自每个任务的句子向量，表示句子可能关系的分布，其余弦相似度为0（向量呈直角）。在以前的实验中，当每个句子的工人数量固定为15（消除垃圾邮件后的每个句子为11-15）时，重复在相同数据集上进行正面任务时，少于1%的句子向量发生了显著变化。但是对于负面任务，28%（24/88）的句子与正面任务的注释有显著不同（余弦相似度>.30），12.5%（11/88）的句子的最高得分关系发生了变化。显然，收集补充任务的信息会导致工人的行为不同。考虑以下句子：“治疗组的成功率与治疗组之间相似，但是在脂质体两性霉素B组中记录的突破性真菌感染较少。”这个句子是从一个解释了治疗组的上下文中提取出来的，但仅凭句子本身无法正确地假设脂质体两性霉素B治疗真菌感染。在正面任务中，治疗是最受欢迎的单一关系，P(Tr) =.45，而在负面任务中，P(¬Tr) =.75，最高分数是associated-with，P(¬AW) = .58，而P(AW) =.09。值得注意的是，这些概率在单独采样时远未接近1，并且可以看出，在负面任务中，不一致将向量指向不同的方向（余弦相似度为.45）。对于72%的句子来说，这是一个有趣的结果。01 https://github.com/CrowdTruth/Medical-Relation-Extraction0跟踪：增强人类智能的人机协同WWW 2018，2018年4月23日至27日，法国里昂11030对于那些各个关系概率之和不等于1的句子，这些句子在没有任何上下文的情况下是可以理解的，就像上面给出的简单例句一样。与盖洛普民意调查的例子一样，这里发生的情况应该是清楚的，通过强迫工作者思考互补任务，他们会稍微不同地考虑选择。在原始任务中，选择额外关系更费力，所以工作者倾向于只选择最明显的关系，平均每个句子1.04个关系。在负面任务中，消除关系更费力，所以他们倾向于对可能的解释更包容，平均每个句子1.44个（非负面）关系。这种注释数量的差异主要体现在那些更令人困惑的句子中，无论是因为缺少上下文，如本例，还是在其他情况下，他们倾向于重新考虑次要或替代含义。这个实验并不意味着是最终结论，而是提供了一个很好的例子，说明了我们提出的考虑叠加作为表征人类解释差异的方式的直觉。0参考文献0[1] Chris Welty Anca Dumitrache, Lora Aroyo. 2015.使用CrowdTruth实现专家级标注质量：以医学关系抽取为例。ISWC2015BDM2I研讨会论文集（2015）。[2] Chris Welty Anca Dumitrache, Lora Aroyo. 2015.CrowdTruth度量语言歧义性：以医学关系抽取为例。ISWC2015LD4IE研讨会论文集（2015）。[3] Lora Aroyo和Chris Welty. 2014.CrowdTruth的三个方面。人类计算杂志1（2014），31-44。[4] Lora Aroyo和Chris Welty.2015.真相是谎言：CrowdTruth和人类标注的七个谬论。人工智能杂志26（2015），15-24。[5]Peter D Bruza，Zheng Wang和Jerome R Busemeyer. 2015.量子认知：心理学的一种新理论方法。认知科学趋势19（2015），383-393。[6] OanaInel，Khalid Khamkham，Tatiana Cristea，Anca Dumitrache，Arne Rutjes，Jelle vander Ploeg，Lukasz Romaszko，Lora Aroyo和Robert-Jan Sips. 2014.CrowdTruth：利用不同意见收集标注数据的机器-人类计算框架。语义Web-ISWC 201433（2014），486-504。[7] Zheng Wang和Jerome R Busemeyer. 2013.由经验测试支持的量子问题顺序模型和先验和精确预测。认知科学趋势5（2013），689-710。[8] Zheng Wang，Tyler Solloway，Richard M Shiffrin和Jerome R Busemeyer. 2014.由问题顺序产生的背景效应揭示了人类判断的量子性质。美国国家科学院院刊111（2014），9431-9436。0跟踪：增强人类智能的人机协同WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载