软件工程中证据的表示与聚集问题及其方法研究

177 浏览量更新于2023-12-12 收藏 1.04MB PDF 举报

在线获取

理论计算机科学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记292（2013）95-118www.elsevier.com/locate/entcs软件工程中证据的表示与聚集：基于理论和信念的观点PauloS'ergioMedeirosdosSantosand GuilhermeHortaTravassos1系统工程和计算机科学系PESC/COPPE/UFRJ巴西里约热内卢摘要在许多学科中，证据的充分表示和可行的聚集程序是一个具有挑战性的问题。正确的表示可以帮助科学家讨论和展示他们的发现结果，如果它足够简单，它可以帮助从业者基于改进的决策。实现。与单一证据相比，这种聚集增强了信心，是对知识体系的重要贡献。在本文中，我们提出了一个初步的建议，使用基于几何的理论和信念函数作为一种手段来表示和汇总证据。通过用相同的理论解释证据，我们使用信念函数将它们组合在一起，使理论命题（因果值）从组合的证据中产生。我们认为这可能是一个有用的方法来获得一个很好的估计多个证据组合。此外，我们指出它可能有用的从业者，正式化和重用他们的经验。给出了该方法的一个实际应用通过构建基于使用的阅读检测技术的理论框架，并综合三个相关的实证研究中所获得的证据。这一应用表明，该方法可以得到兼容的结果与汇总的证据。关键词：软体工程、理论、信度函数、证据表示、证据聚合、事后剖析、研究综合。1引言即使全世界有超过1000万的软件工程师，以及涉及软件工程学科的密集研究活动，专业人员和研究人员仍然可以使用有限的手段来分享和汇总日常软件开发活动中使用的软件技术的优点、缺点或限制1电子邮件：pasemes@cos.ufrj.br，ght@cos.ufrj.br1571-0661 © 2013 Elsevier B. V.在CC BY-NC-ND许可下开放访问。doi：10.1016/j.entcs.2013.02.00896P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118一般来说，从业者倾向于使用非正式和社交沟通渠道与同行分享他们的经验教训和最佳实践，包括博客、问答或信息wiki和技术会议。在这些媒介中，呈现经验的首选格式是使用故事和隐喻支持的叙事模式来说服观众[1]。轶事和小的示范也被普遍使用，所谓的项目事后分析代表了软件开发中经验教训的另一个重要来源通常由一个团队或一组开发人员临时执行，他们生成的结果通常以文本形式报告，旨在详细说明项目过程中哪些工作顺利，哪些工作出错[4]。除了文本报告之外，图形表示，例如使用Ishikawa diagrams [5]和认知图[6]的根本原因分析，也被用作一种实用的方法来编码和重用在软件项目的事后分析中生成和报告的经验除了在事后分析中的应用外，视觉格式主要被从业者用于通过图表和原始草图分享经验。与叙述形式结合起来，它们有助于描述涉及从业者环境中常见的不确定性的正如所料，这些非正式陈述中的大多数通常并不严谨。另一方面，相关性通常很高，因为它们与实践直接相关[2]。然而，尽管专业人员使用的所有这些渠道和形式对传播经验都是有效的，但其在实际知识体系中的组织仍然松散（许多地方有大量信息），难以跟踪（许多地方的信息不断发展）。因此，积累和处理所产生的证据的严格性挑战了研究人员和实践者。学术界似乎在解决这些问题方面发展得最快。自引入循证软件工程以来已经过去了八年，已经进行了超过122项二级研究[7]。循证软件工程的主要目标是尽管如此，即使在报告根据文献[1]，知识表征有三种模式：（1）命题式，这是学术界如果我们考虑到科学追求以最客观的方式来表示其推理以使其结果合法化，那么学术界使用的命题格式是因此，通过在其话语中使用命题陈述，它往往会增加调查主张有效性的可检验性。然而，在许多情况下，这导致了对实用主义的附带损害。P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-11897工业应用[9]。尽管如此，以图形方式表示证据合成的建议，例如通过使用认知地图进行主题合成[10]和系统评价[11]的图表，确实存在并指出找到不仅可以促进理解证据而且可以促进其聚合的模型因此，实践者和研究者如何从证据的表征和属性来理解证据有用性的取向不匹配构成了一个研究挑战。问题是如何将证据以一种既能应用于实践又能在软件工程知识体系中积累的方式向学术界和工业界展示和传播[12]。换句话说，有必要以相同的视角来表示行业经验和研究证据，以便所有利益相关者都能从中受益，无论其用于支持软件项目中的科学调查或务实决策。朝着这个方向前进的第一步是扩展证据的概念，正如学术界通常设想的并开始接受来自薄弱和不完整的各种证据（例如，，教训从实践中吸取的经验和教训）到严格和有据可查的（即，，起源于实验研究）[9]。通过这样做，软件工程师将有机会利用证据，即使它不是那么如果没有与之相关的统计学上有意义的结论，但与此同时，他们可以有机会汇总这些结论，并获得关于软件技术使用的然而，要使这种汇总成为可能，证据必须是基于实践的，即关于实践应用结果的真实证据，而不是基于预期或纯粹猜测的论点。一个有趣的方式来捕捉和表示证据是通过理论。在本文中，我们将试图利用理论作为一个框架，设计一个机制来表示和汇总证据。在大多数科学学科中，理论是科学知识形成和积累的坚实基础。理论支持科学家对现实世界中的某些现象进行有序的描述，这种描述方式减少了现实现象的复杂性[13]。因此，理论可以通过以简洁和精确的方式构建知识的共同概念框架来促进思想和知识的交流[14]。基于这些性质，我们支持了我们关于Bacharach [13]所述的定义理论的最小特征集的建议加入研究人员在该领域的应用理论的研究成果[15，16]，我们使用了Sjøberg等人的理论概念化。[15]理论概念化允许使用定义良好的视觉符号来表示理论该符号被公式化以与基于几何的理论一起使用视觉形式作为一种形式，与理论概念有很好的契合当目标是复杂的简化或聚合时，98P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118使用一组定义良好的规则将信息转化为有意义的模式[1]。因此，它可以通过提高从业人员的可读性和可理解性以及赋予研究人员所需的必要严谨性来促进工业界和学术界对知识的使用。我们的方法采用由同一理论解释的经验证据，并使用信念函数将它们的结果组合起来，形成组合理论的命题，这样我们就可以估计所有证据一起的通过使用信念函数（也称为Dempster-Shafer理论[17]），我们为每个命题评估两个维度：命题值（例如，，负/正效应）和对其价值的信心。本质上，这可能类似于本文的其余部分组织如下。第二节详细介绍了理论的概念化以及作为聚合机制的Dempster-Shafer理论。第3节介绍了方法。第4节讨论了它的优点和局限性。第6节对行业前景进行了评论，第7节指出了未来的工作。2背景2.1理论按照一般理解的理论，Sjøberg et al.[15]建议软件工程中的理论描述应该分为四个部分：结构（基本元素），命题（结构如何相关），解释（为什么命题被指定）和范围（适用于理论的话语范围）。我们选择使用Sjøberg等人的理论概念化，因为它已经为软件工程量身定制，并定义了具有特定标记语义的可视化表示图1显示了使用[15]给出的符号的图论模式。这个理论是从一个现实世界的行动研究中提取出来的，该研究是关于在一个中型到大型的Web软件项目中使用源代码重构的。符号语义部分基于UML。构造表示为类或类属性。类由一个框表示，其名称写在 top，例如“分布式项目”。一个类可以有一个子类（使用与UML中相同的泛化符号）或一个组件类（绘制为另一个框中的框，例如“源代码”）。通常，如果构造表示特定的变量值，则构造被建模为子类或组件类（例如，，“大规模Web系统”）。否则，如果关注的是值的变化，那么构造就是一个被建模为类属性的变量，比如'E变量'。属性被放置在类框的底部（水平线下方）。通常，类将表示研究的自变量（值构造）并将属性命题关系被建模为箭头。从A到B的箭头表示P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-11899图1.一、重构来自[19]的理论图A等于B，其中A是类或属性，B是属性。此外，B本身也可以是一种关系。在这种情况下，A被称为调节者，就像“经验”结构一样。这意味着A影响B关系效应的方向和/或强度。主持人也被定义为命题。在定义一个典型的SE场景时，理论应该呈现四个元素，称为原型（演员，技术，活动和软件系统），由继承根表示。驱动这些原型选择的是SE实践概括，描述为应用技术在软件中执行活动的参与者系统[15]。技术这个词也被用作方法和方法的同义词-学。此外，请注意，技术原型是理论，因为它定义了假设“通过应用技术X，这些结果是预期的”。这将在稍后用作聚合标准为了补充图形表示，需要一些额外的细节有必要定义每一个结构，并描述每一个命题及其为什么成立的相关解释。图1中的关系所附的P和E标签用于在原始文本中索引这些定义。为了说明这一点，表1描述了其中的一些定义。[19]见《明史》。重要的是要注意，命题值是以定性术语（例如，，代码重构积极地影响可维护性）。最后，概述了理论范围，它通常由理论子类和组件类元素（即组件类）组成。值构造）。2.2Dempster-Shafer理论Dempster-Shafer理论（英语：Dempster-Shafer Theory）是一种不确定推理理论，旨在处理不确定性和无知之间的区别。其创建的主要动机是希望将概率论从需要将不确定性度量与考虑中的每个假设联系起来的需要中解放出来[17]。那里100P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118Σ表1一些理论元素构建体C1代码重构（开发实践：修改软件结构而不改变其可观察行为的行为）C2源代码结构（源代码中可感知的结构属性，例如：可读性，算法结构）命题P5积极重构代码结构解释E5源代码结构改进：• 根据开发人员以前的知识，它在整个软件项目中变得更加同质。• 它的尺寸和复杂性都降低了。是DST中的三个主要概念：识别框架，基本概率分配函数（bpa或m）和信念函数（Bel）。本节总结了这些主要概念;然而，建议阅读[20]以获得完整的介绍。在DST中，假设的集合被称为识别框架，通常表示为Θ。Θ的任何子集A也被认为是代表与经典概率论的重要区别的假设。信念可以被分配给所有可能的Θ子集，表示为2Θ。任何DST模型的核心都是bpa函数，它表示每个不同证据对θ子集的影响。为了做到这一点，bpa函数将[0，1]中的numer分配给由m：2Θ>→[0，1]生成的Θgiven的每个子集，其中对m（·）的唯一限制如下：m（x）=1和ndm（x）=0。（一）x∈2Θ所以所有分配的概率之和为1，并且空集中没有置信度。如果在同一识别框架上有两个或多个独立的bpa函数，比如函数m1和m2，则可以使用DempsterP.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118101ΣΣ函数m1<$m 2. 组合规则定义为：i，jm1（Ai）m2（Bj）m（C）=Ai<$Bj=C，其中（2）31−KK=i，jAiBj=m1（Ai）m2（Bj）为了计算函数m3（即，，m1<$m2）值，上述等式对形式m1（Ai）m2（Bj）的所有乘积求和，其中A与B的交集产生C设置。K表示与碰撞有关的基本概率质量，并且它由所有的概率给定。矛盾通常产生于组合代表（部分）矛盾证据的bpa通过将m（k）a的值在其它识别子集的框架中重新分配，可以消除它们这就是1-K分母在上面的等式二、下一节将给出一个使用所有这些概念的示例，但有关其工作原理的预览，请参见表2。DST的最后一个重要概念是信念函数。置信函数是允许基于组合证据做出决策的函数-通常是单例假设（即，具有一个元素的子集）具有最高关联置信度。置信函数，对应于特定的BPA函数（例如，，m1或m2），将精确地承诺给由m定义的A的每个子集的信念之和分配给θ的每个子集A。那就是：Bel（A）=m（B）（3）BA关于如何使用信念函数进行决策有几个标准。一种常用的方法是选择假设（即，子集）具有最高的关联信念。通常情况下，这是只与单例假设，这是一个元素的子集。在下一节中，我们提出了一个不同的标准来支持决策，以更好地框架我们的问题。3基于Dempster-Shafer和相关理论的证据聚集我们的目标是汇总相关的证据，看看它们对一种特定技术“说”了什么这可以粗略地与处理具有相同假设的研究中产生的证据的定量Meta分析要求进行比较[18]。假设构建理论的过程是正确的，并且构造被很好地定义，每个新的证据将实例化一个新的理论，如果它不适合任何已知的102P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118理论，否则它将被聚合到一个现有的。由于证据通常与特定背景相关，因此所产生的聚合理论最初将具有少量的经验支持。支持一个理论的证据的存在，是可以支持它作为假说的定义，或者在光谱的另一端，一个定律。图2显示了汇总证据的过程图二、简化证据汇总流程视图为了合并证据，有必要定义是什么使其匹配一个已知的理论或没有。通过将背景映射到理论的价值结构，可以做到这一点由于目标是评估软件技术，因此必须匹配的第一个元素是技术构造（继承自技术原型的构造如果有一个理论，这样的技术，那么其他价值结构（代表理论范围）必须匹配的条件下，观察到的证据（即）。的上下文）。例如，如果证据是在一个大规模的Web系统项目中观察到的，那么该理论应该有一个等效的结构来映射这个上下文。正如我们可以看到的，拟合运算依赖于定义良好的结构，这样在类似的背景下观察到的不同证据可以与同一理论相关联分类学在这方面可以有很大的帮助在评估证据是否适合现有理论之后，有必要描述软件技术对所观察环境的影响这是通过使用命题和变量结构来完成的。在这个阶段，几乎所有的理论元素都被定义了，如果证据上下文不匹配任何已知的理论，就可以创建一个新的理论（见图2）。否则，证据命题被组合成现有的理论。这是使用DST的时刻当应用DST表示证据时，由于价值结构由上下文预先确定，因此仅需要考虑命题和相应的变量结构。图3中组合的左项包含与图1中所示理论相关的证据表示。它为每个变量构造定义一个BPA函数（例如，，m1−effort），使用BPA函数指定每个命题的值（例如，，{WN}对于弱否定的证据命题），并分配与证据相关联的信念（例如，，0.65）。表达式m1−effort（{WN}）=0.65应理解为“代码重构弱影响高确定性（0.65 Ω）的负面效果”。在这种情况下，负面意味着偏见。0.65的信念值是对我们研究的解释[19]。值得注意的是，我们给所有的理论命题分配了相同的信念（0.65），但这不是强制性的。事实上，我们已经使用了定性（扎根理论）和定量（分类回归）数据分析。数据类型区分（即，定性和定量）和分析P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118103结果（例如，，用于定量分析的p值）可以用于单独确定每个命题中的信念。然而，我们目前没有一个系统的程序来确定这一点。由于我们还没有完全解决如何考虑这些方面的信念是分配，我们已经分配的信念为0.65的所有命题考虑到事实上，证据是起源于现实世界的环境中，通过行动研究。这只是一个估计，以说明这种汇总方法。命题价值的识别框架由一组可用于限定命题的定性选项组成。根据李克特量表，我们定义了七个选项：强阴性（SN），阴性（NE），弱阴性（WN），独立（IF），弱阳性（WP），阳性（PO）和强阳性（SP）。因此，识别框架是Θ={ SN，NE，WN，IF，WP，PO，SP}。对于调节命题，我们定义了三个选项：反比（IP），中性（NU）和正比（DP）。因此，如果一个结构直接调节软件技术的效果，这意味着一个结构的值越高，主持人命题的识别框架是Θ ={ IP，NU，DP}。当信念被分配给一个有多个元素的集合时（例如，，m1- 度量（WP，PO）=0.65），它应该被解释为值的范围（即，介于弱正和正之间）。此外，请注意“独立”值的重要性。假设我们有一个情况，Bel−quality（{IF}）= 0.9。由于在这种情况下，质量结构对于理论是独立的，这是高度确定的，它可以被用作从理论中删除这个结构（和命题）的标准。另一方面，这给了我们增加新变量的自由。任何时候都可以建造。如果新的证据表明一个变量结构的相关性，而这个变量结构在理论中没有被考虑，那么我们只需将它添加到理论中，并为它创建一个新的bpa函数在定义了如何使用DST来表示证据之后，与同一理论相关的两个证据的组合可以通过应用Dempster组合规则（即，结合了为每个理论命题定义的所有BPA例如，假设图3中的两个证据必须组合在一起。图3.第三章。将与同一理论相关的证据表2显示了与结构命题相关的两个bpa函数的组合。这是通过使用组合规则为每个命题单独完成的表格格式仅用于说明目的。从表2中，我们得到了结构propo的组合bpa函数值104P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118m1−结构2−结构M{WP，PO}（0.4）{PO}（0.26）{WP，PO}Θ（0.6）{PO，SP}（0.65）Θ（0.35）{PO，SP}（0.39）Θ（0.21）表2两个bpa功能的组合（结构命题）地点：m1m2（{PO}）= 0.26，m1m2（PO，SP}）= 0.39，m1×m2（{WP，PO}）= 0.14，m1m2（Θ）= 0.21，对于所有其他的θ子集，m1<$m2从组合的bpa函数中，可以获得相应的置信函数。与组合bpa函数m3相关联的结构命题的置信函数值（即，m1<$m2）为：Bel3−结构（{PO}）= 0.26，Bel3−结构（PO，SP}）= 0.39 + 0.26 = 0.65，Bel3−结构（{WP，PO}）= 0.14 + 0.26 = 0.40，Bel 3 −结构（Θ）= 1。基于置信函数没有通用的规则来做到这一点，因为它取决于被建模的问题，特别是当存在与复合假设相关的语义时（即，，具有两个或更多个元素的Θ的子集）。仅具有一个元素的Θ的子集）。在我们的例子中，一个两元素子集代表了一个场景，在这个场景中，我们不确定一个特定的命题值，并为它指定了一个范围（例如：，考虑到这一点，我们定义了以下标准。当复合假设具有最高的信念，并且如果对信念做出贡献的单例不超过其总信念的75%时，则选择复合假设。否则，如果一个单例假设对与具有最高信念的复合假设相关的信念的贡献超过75%，则应该选择它。在我们的例子中，它发生在结构命题上。子集{PO，SP}是具有最高关联信念的复合假设，并且其单例假设贡献不超过75%阈值（{PO}贡献40%-0.26/0.65 = 0.4-，并且{SP}贡献为0%-0/0.65=0）。使用这些标准，我们有以下命题值：IP表示经验，因为Bel3−经验（{IP}）= 0.79，WN表示排序，因为Bel3−努力（{WN}）= 0.65，PO-SP用于结构，因为Bel3-结构（{PO，SP}）= 0.65，SP用于直接编码，因为Bel3-编码指令（{SP}）= 0.53，P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118105质量WP，因为Bel3−quality（{WP}）= 0.65，度量的WP-PO，因为Bel3-度量（{WP，PO}）= 0.72，可维护性PO，因为Bel3−可维护性（{SP}）= 0.53。这是考虑理论代表性的综合证据。在这个简短的例子中，它基于两个证据和与每个证据相关联的信念，1中的理论将得到上述命题值的支持。除了命题值本身（例如， ‘weakly positive for quality’) chosen with the deﬁned criteria, anotherimportant information associated with each theory 证据组合所产生的信念反映了证据集合的两个方面：（1）集合证据之间的一致程度和（2）每个证据的强度。因此，作为聚合结果的高置信度可以是例如大量弱证据报告类似观察结果或少量强证据也报告类似现象的结果另一方面，小信念既可以表示可用的弱证据的数量不足，也可以表示可用的强证据的数量不足在任何情况下，使用DST的有趣之处在于，它不仅指示趋势（例如，负或正），而且还给出了一个直观的参数，用于解释最终（聚合）命题值基于从DST组合规则导出的置信值最后，重要的是要看到，虽然只有具有最高信念的命题值被用于组合理论，但第一次组合产生的所有bpa函数值再举一个例子，与结构命题相关的bpa函数。如果我们有m4−结构（{SP}）=0.9的新证据，则所有m3值都将用于表3所示的组合中。在这种情况下，新的命题值将是SP，因为根据Bel4−结构（{SP}）= 0.84。表3结构命题的第三证据组合M4−结构{SP}（0.9）Θ（0.1）m3−结构{PO}（0.26）（0.23）{PO}（0.03）{PO，SP}（0.39）{SP}（0.35）{PO，SP}（0.04）{WP，PO}（0.14）价格（0.13）{WP，PO}（0.01）Θ（0.21）{SP}（0.19）Θ（0.02）结构命题的组合bpa函数值（注意，如等式2所定义，与同一子集相关联的所有概率被求和-例如，，{SP}）：κ= 0.36和1-κ= 0.64，m3·m4（{PO}）= 0.03/0.64 = 0.05，m3·m4（{SP}）=（0.35 + 0.19）/0.64 = 0.84，m3·m4（{PO，SP}）= 0.04/0.64 = 0.06，106P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118m3m4（{WP，PO}）= 0.01/0.64 = 0.02，m3m4（Θ）= 0.02/0.64 = 0.03，m3<$m4对于Θ的所有其他子集都是0。正如我们在本节中所看到的，证据汇总建议是一种可行的证据合成机制。它能够捕捉所考虑的每个证据的可靠性，并将其转化为综合结果，其中包括所涉及的不确定性。4真实案例在本节中，我们将我们的方法应用于一个真实的情况，其中与相同的软件技术相关的证据，并起源于类似的背景下被聚合。选择的主题是专门的和狭窄的，这样我们就可以集中精力分析方法。在我们描述用于示例的证据之前，我们需要描述使用我们的方法聚合证据所采取的步骤和程序然而，请注意，在这个时间点上，只有一个高抽象级别的过程描述将被解释。正在应用其他研究成果来详细说明这一过程。然而，出于概念验证的目的，接下来描述的步骤应该足以理解核心概念：(i) 定义：定义目标，根据目标预先选择初始理论（如果已经存在），并确定研究的纳入标准(ii) 研究选择：根据预先选择的理论和确定的目标，系统收集初步研究。(iii) 研究质量评估：估计证据的置信度（即，在其主张的信念）。(iv) 数据提取：对于每个收集到的证据，按照[15]中描述的步骤勾勒出一个理论，定义重要的结构，命题和命题值。(v) 数据综合：在图2所示程序的指导下，结合证据。接下来，评估和可视化聚合的结果对于这个概念证明，从聚合角度来看，主要目标是了解基于使用的阅读（UBR）检查技术的效果。有趣的是，探索多变量及其相互关系的概念与传统的荟萃分析一次只关注一个因果关系的概念截然不同。因此，我们不受限制，只能选择具有相同假设的研究，除非不同的研究比较不同的软件技术或在使用其他因变量或自变量的显著不同的背景下进行。事实上，这正是图2试图捕捉的。使用的证据来自UBR检查技术的一系列实验[21]，[22]，[23]和[24]。进行了研究，以调查UBRP.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118107在识别软件缺陷方面的性能。UBR是一种阅读技术，其主要目标是从用户在UBR中，故障没有被假设为同等重要，并且该技术旨在找到对用户对系统质量的感知具有最负面影响的故障为此，评审人员将按照优先顺序获得用例，并按照该顺序通过软件工件跟踪用例以识别故障。在UBR中集中检查任务的一个核心要素是用例的优先级。UBR假设用例集可以以反映所需聚焦标准的方式进行优先级排序。如果检查的目的是找出对某个系统质量属性最关键的故障，那么应该相应地对用例进行优先排序所有的实验都使用同一套仪器。受试者检查了真实世界的高级设计文档，该文档包括软件模块和发送到模块/从模块接收的通信信号的概述。该应用领域涉及出租车管理系统，设计文档指定了组成系统的三个模块，每辆车一个出租车模块，运营商一个中央模块，以及这些模块之间的一个通信链路。所有故障都被分为三类，这取决于从用户的角度来看故障的重要性A类故障代表以下故障：对用户至关重要的系统功能（即，对于用户重要并且经常使用的功能）。B类故障代表那些影响用户重要功能的故障（即：重要但很少使用或不那么重要但经常使用的功能）。C类故障是指不妨碍系统继续运行的故障。总共进行了四项实验研究两名研究人员参与了所有研究。第一个实验[21]比较了UBR和特别检查。第二个实验[22]调查了使UBR有用所需的用例中的信息量。最后两项研究[23]和[24]将UBR与基于检查表的阅读（CBR）进行了比较。考虑到这个例子的目的，我们没有使用第二项研究的证据，因为它解决了一个不同的研究问题，因此不可能将其结果与其他证据汇总。首先，我们阅读并记录了第一篇论文中的所有相关信息，将UBR与ad hoc进行了比较。从我们的论文解释和结果中，我们创造了理论来代表这第一个证据。理论构建的过程虽然是系统的，步骤清晰[15]，但并不精确，因为它取决于解释和个人推理。这样，构建的理论代表了我们对证据的理解，但我们相信它代表了一个广泛接受的观点，因为软件检查已经被经验SE社区广泛研究，作者已经进行了几项与此主题相关的研究。同样，这个例子选择这个主题也不是偶然的产生的理论如图4所示。按照方案，使用如表4所示的模板描述所有理论元素。一个主要的挑战-108P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118与图1所示的不同之处在于，我们现在比较的是同一类的两种软件技术（即，软件检查），而不仅仅是描述使用技术本身的影响。这种新的理论类型将被命名为比较理论，而以前使用的类型（图1）将被命名为描述理论。为了表示这种新的理论类型，[15]的符号被扩展。深入分析了UBR和ad hoc作为软件检测技术的特点.此外，所有提案都与这两种技术相关联，象征着它们正在进行比较。这就是为什么在命题行中复制了用于UBR和ad hoc结构的框线模式，以表示哪种技术彼此相比具有更好的性能。在本例中，如图4所示，adhoc仅在检测较大的数字时更好的小缺点。比较理论的另一个重要区别是命题值的集合。在比较软件技术时，为了限定该命题，可以使用 Likert 量表，其中包括以下选项：非常差（ SW ）、差（ WO ）、弱差（WW）、独立（IF）、弱好（WB）、好（BE）和非常好（SB）。见图4。 UBR和特别检查技术几乎所有的数据和分析报告中的文件是定量的。这促进了理论的构建，因为变量结构基本上是为实验定义的因变量。价值结构基于实验中使用的工具、研究设计和考虑的独立变量。在定义了结构之后，下一步是定义命题值。由于研究数据和结果是定量形式的，而在我们的方法中，必须以定性的方式指定命题值，因此我们必须从一种形式转换为另一种形式。当比较两种技术时，定量值以百分比给出。区间（0%，33%]、（33%，66%]和（66%，100%]分别用于导出定性值弱更好、更好和强更好的命题值。我们试图P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118109表4比较UBR和特定检查的一些理论要素构建体C1基于使用的读取（检查技术，从用户的角度，使用一组用例作为指导来引导检查，将读取结果集中在最关键的故障中）C3效率（占发现故障总数的百分比）C10Web系统（使用Internet基础设施进行操作的系统）命题P2基于使用的阅读在与关键故障相关联的效率方面比ad hoc在识别关键故障方面，P8基于使用的阅读比特别检查解释E2检查员按时间单位（小时）识别更重要的故障• 在检查的第一部分中发现的故障较多，并且检查持续的时间越长，由于缺乏集中而发现的故障越少。• p值= 0.0004• 作者没有明确提出效率，但由于实验是时间框（2.5小时），并且所有检查员的检查时间几乎相同，因此效率与识别出的故障数量直接相关（参见E8）。E8改进了源代码结构• 实验结果表明，控制评审者使他们专注于软件工件的重要部分是可能的。• UBR比ad hoc平均多检测88%的关键故障保持相同的标准，以确定所有定性命题值的所有证据，从三个研究考虑，但这是不可能的所有时间。技术文件中没有明确列出研究的一些结果，在这些情况下，尽可能使用其他手段获得数据计算或间接获得的价值或视觉媒介，如图形和图表）。这就是表4当隐式导出的值在我们的解释中太不精确时，我们使用诸如WB-BE的定性区间作为命题值。在积累了关于第一次实验的所有必要信息之后，110P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118确定命题值和相应的信念。图5显示了结果（注意m函数的索引1表示它代表第一个实验）。所有的命题值都是按照这个顺序给出的，用于比较UBR和ad hoc。因此，例如，#Minor faults（{WW}）应该被解释为可以看出，在这个例子中，相同的信念被分配给所有的理论命题，以保持概念证明的简单性。如前所述，这不是强制性的，在确定每个理论命题的置信值时，可以考虑统计检验的p值例如，考虑到故障总数，与有效性相关的假设的统计检验得出的p值为0.0652，认为其不具有统计学显著性。然而，其他命题的相同信念被分配给与结构“E的可靠性（全错）”相关的命题图五、来自[21]的比较证据的DST表示然而，尽管所有命题都被赋予了相同的信念，但信念值本身并不像前一节的例子那样仅仅是作者的解释，这是我们第一次尝试构建对信念的估计，但考虑到上述方面，仍有很大的改进对于估计，我们使用了技术文献中的两个评分模式（或问卷）。第一个，来自[9]，是证据质量的20分制评级。总的来说，回答四个问题来确定证据7分），考虑到研究类型;（2）如何测量结果5分），考虑是否是主观意见或与另一种做法的严格比较;（3）证据是如何报告的（1.. 5分），考虑到用于报告证据的出版物类型;（4）谁报告了证据（0分）。3分），考虑结果是否由同一个人发表。第二个，来自[25]，是一个筛选问卷，用于评估元民族志研究中发现的论文的质量。问卷有是或否的问题，并侧重于实证研究的更具体方面，如研究设计，控制组的使用和数据分析。调查问卷总共有11个问题，再加10分（第一个问题被丢弃，因为它已经在另一个调查问卷中涵盖P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118111把所有可能的分数加起来，最大可得30分。在此基础上，证据的可信度被确定为一篇论文获得的总分数例如，图5中的证据从第一份问卷中获得15（3+5+4+3）分，从第二份问卷中获得9分，总共24分除以30产生0.8的信念值。有了第一个研究的证据，知识体系现在有了一个比较证据（以及相关的比较理论）。它现在可以回答与UBR和ad hoc的比较相关的问题，尽管如果它不仅回答这种比较问题，而且还了解每种软件技术的影响，那将更加有用。我们设计了一种从比较证据中提取此类信息的方法，称为证据肢解操作（图6）。该方法包括以比较证据作为参考，并产生两个资料性证据，其中两者之间的差异由比较证据决定。为了在从三个研究中肢解三个比较证据时保持一致，采用了以下标准：对于被定性为弱差异（WW或WB）的比较命题，信息命题之间的差异值是李克特量表中的半个单位（例如，，如果一个信息性命题值是WB，另一个必须是间隔WP-PO）。类似地，如果我们有一个显著的差异（WO或BE），那么信息值的差异是李克特尺度的一个整数单位（例如，如果一个信息性命题值是PO，则另一个必须是SB）。最后，如果我们有一个很强的差异（SW或SB），那么信息值的差异是李克特尺度的一个整数和半个单位（例如，如果一个信息性命题值是WP-PO，则另一个必须是SB）。图第六章从[21]中分解比较证据值得注意的是，比较证据只决定了两个肢解的信息证据之间的差异，但信息112P.S.梅代罗斯-多斯桑托斯Travassos / Electron. Notes in Theor. Comput. Sci. 292（2013）95-118命题值本身（例如，、WP、PO或SP）是对研究结果的解释。此外，应该明确指出，我们没有为肢解操作提供先验的结论性论据，只是它在研究推理过程中具有合理的拟合。我们重复了到目前为止所描述的过程，用于比较UBR和CBR的两项剩余研究考虑到肢解行动，总共产生了九个证据。表5列举了它们，将可组合的那些放在一起简而言之，由于这些证据来自一系列研究，因此考虑到重现了类似的背景，所有这些研究都是可以结合在一起的。妨碍证据合并的特点是证据的类型（比较性或提供信息性）和所评价的技术。表5从分析的研究中生成的证据m函数描述m1−comp来自研究[21]的比较证据（UBR x ad hoc）。不能与m3−comp和m4−comp组合，因为比较了不同的技术。m3−compm4−comp来自研究[23]和[24]的比较证据（UBR x CBR）。可组合。m1−ad特别检查的信息证据来自[21]。m3−cbrm4−cbrCBR研究的信息证据[23]和[24]。可组合。m1−ubrm3−ubrm4−ubr[21][23]和[24]的UBR研究信息证据可组合。为了了解这种实际证据组合的结果，我们提出了UBR信息证据的聚合结果除了图6所示的m1−ubr命题值外，图7还显示了与其他两项研究中的UBR信息证据相关的命题值和各自的信念信念（0.83和0.87）是根据定义的标准计算的。此外，请注意，这两个证据还有两个结构（效率和对小故障的效率）。虽然第一项研究没有考虑这些变量，但与之相关的命题值通常仅基于其他两项研究进行汇总。最终汇总结果为：效率-全部故障的PO-SP;Bel（{PO，SP}）= 0.97，效率-关键故障的PO-SP;Bel（{PO，SP}）= 0.97，效率-重要故障的PO;Bel（{PO}）= 0.99，效率-次要故障的PO;Bel

下载后可阅读完整内容，剩余1页未读，立即下载