科学可视化中的简单和快速的图像评估工具

103 浏览量更新于2024-01-24 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

视觉信息学2（2018）225Versus-使用2AFC方法杨文，张文辉，张文辉.放大图片作者：Christopher J. Baldib，a，Seán I. O’DonoghueaCSIRO，Data61，澳大利亚b澳大利亚Garvan医学研究所c澳大利亚新南威尔士大学德国图宾根大学澳大利亚悉尼大学ar t i cl e i nf o文章历史记录：接收10十月2018收到修订版2018年12月17日接受2018年12月22日在线预订2019年关键词：评价可视化可视化分析图像比较众包评价方法2AFC图像评估工具可视化评价a b st ra ct新的可视化方法和策略对于应对任何科学领域中存在的大量数据集，以发现和找到以前未回答的问题的答案这些方法和策略不仅应该以简洁的方式以图像的形式呈现科学发现，而且还需要有效和富有表现力，而这往往尚未经过检验。在这里，我们提出了对，一个工具，使简单的图像质量评估和图像排名，利用两个替代的强制选择方法（2AFC）和一个有效的排名算法的基础上二进制搜索。该工具提供了一种通过网络设置评估实验的系统方法，而无需安装任何额外的软件或需要任何编程技能。此外，Versus可以轻松地与众包平台（如亚马逊的Mechanical Turk）对接我们演示了使用的图像评价研究的手段，旨在确定色调，饱和度，亮度和纹理是很好的指标，在三维蛋白质结构的不确定从众包的力量，我们认为，有需求，也有很大的潜力，这个工具成为一个标准的简单和快速的图像评估，目的是测试的有效性和表现力的科学可视化。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍创建一个有效的可视化来查看原始数据和结果是每一个科学分析中必不可少的关键步骤（Pavlopoulos et al. ，2015; Kandel etal. ， 2011; Wong ， 2011; Gehlen-borget al. ， 2010; Lampe etal. ，2007），并且存在适用于大范围数据的许多标准可视化方法然而，通常不知道所选择的可视化方法是否是针对特定类型数据集的最合适的方法，并且许多方法从未进行过定性或定量评估。这种评价研究的目的应该是确定所开发的可视化方法是否有效，表达，适当，公正和信息。用户研究和可用性研究∗通讯作者：CSIRO，Data61，澳大利亚。电子邮件地址：me@jennyvuong.net（J. Vuong），sandeep. unsw.edu.au（S.Kaur）、julian@joules.de（J. Heinrich）、bosco. csiro.au（B.K. Ho），christopher. sydney.edu.au（C.J. Hammang），b. garvan.org.au（B.F. Baldi），sean@odonoghuelab.org（S.I.同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2018.12.003可以是测试各种不同数据可视化的有效性和表现力的强大方法（Kosara 等人，2003年）。系统评价是一项复杂的任务，需要仔细规划和形成假设。研究人员需要选择正确的焦点，并寻求通过使用正确的方法来回答正确的问题（ Carpendale ， 2008; Plaisant ，2004），并确保可视化工具或方法在正确的上下文中进行评估（Isenberg et al. ，2008; Sedlmair et al. ，2011年）。通常，假设检验的评估框架需要针对特定的可视化设计进行定制，并且很难创建能够测试可视化方法的所有方面在本文中，我们将重点介绍一种工具，旨在提供一种设计和运行研究的简化方法，以评估可视化方法和图像质量。我们提出了对，一个工具来比较可视化技术的基础上，两个选择的强制选择（2AFC）的方法。通过以系统的方式并排比较图像，可以通过分析图像集之间的特定排名来评估可视化的某些方面Versus是灵活的，可以很容易地与流行的众包平台集成，也可以作为一个独立的2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinf226J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225申请招募领域专家。由于Versus是在线部署的此外，Versus有一个有组织的工作流程来设置实验。这有助于与研究设计相关的所有实验参数的交流，因此可以直接重现通过Versus进行的任何研究通过使用我们的工具，不需要编程技能，代码可以通过Github访问。2. 背景2.1. 用于评估可视化和图像质量的方法为了比较可视化中的特定图形或文本元素，Siirtola和Räihä（2011）提出了眼动跟踪作为交互式可视化的简单评估方法。虽然该方法提供了跟踪人的注视的手段由于方法的限制，运行这些类型的实验是耗时且成本密集的。Cleveland和McGill（1984）设计了一系列优秀的实验，为测试各种图形奠定了基础一组基本的知觉任务已经被定义为从这些图形中提取这些估计使得可以根据其感知误差的大小对可视化方法进行Mantiuk等人（2012）测试了四种最常用的图像质量评估方法，发现2AFC方法是所有测试方法中最准确、最有效和最省时的方法。如果图像经过精心选择和创建，并且测试问题和答案经过精心设计，2AFC方法提供了一种量化和定性分析问题以评估可视化的简单方法。参与者被并排呈现两个图像，并被要求基于一个简单的问题选择一个图像。结果通常是图像集之间的不同排名。我们在这里讨论了如何评估可视化的许多方法中的一些，从复杂到简单的方法。有关可视化方法、场景以及一般数据分析过程的评估的广泛概述和进一步讨论，请参阅Lam等人的优秀综述论文。（2012年）。在本文中，我们提出了一个实现的2AFC方法的图像评价提供了一个简单的，但强大的和广泛适用的概念，收集主观质量的判断，从专家用户和外行人在一个准确和时间效率的方式。2AFC已经成功地应用于心理物理学实验几十年，并越来越多地被用于评估可视化。关于其多功能性和应用的更详细的概述在第2.2节中讨论。2.2. 在科学研究中使用众包和2AFC方法众包是一个联合术语，描述了将服务外包给人群的概念，通常使用接触到大量具有不同人口特征的个体。存在一些基于网络的平台，旨在促进招募所谓的由实验者定义。亚马逊多产。2Figure Eight3（以前称为CrowdFlower）和Clickworker4是帮助在在线平台上连接实验者和参与者的平台。在本文中，我们将重点介绍MTurk，因为它已被证明适用于测试可视化设计和可视化方法（Liu和Heer，2018; Harrison等人，2018）。，2014;Gleicher et al. ，2013;Heer and Bostock，2010）。Borgo等人（2018）审查了使用众包招募参与者的各种可视化评估。在这些回顾的实验中，2AFC方法被应用于一系列研究以研究各种假设（ Harrison et al. ， 2014; Beecham et al. ， 2017年），其中两个已经由本文的一些作者进行了研究（Heinrich etal. ，2015，2016）。Harrison等人（2014年）研究了用户对数据相关性的感知是否并要求参与者选择哪个图像显示出更高的相关性。Beecham等人（2017）要求观察者并排查看两张地图，并选择他们认为显示出更高空间自相关性的地图。Heinrich等人（2015）成功应用2AFC技术研究了所选颜色方案的感知，表明应用于大分子结构的数据质量在另一项实验中，Heinrichet al.（2016）应用相同的实验程序表明，视点熵可以很好地预测选择带状蛋白质结构的最佳视点。对于在这些实验中测试的简单假设，2AFC图像比较方法是合适的，MTurk被用作在短时间内招募大量参与者的平台在上面提到的所有研究中，作者找不到任何关于使用自动化方法或工具来设置所述实验的提及。2.3. 用于评估可视化的为了简化用于评估可视化的实验的进行，已经开发了一系列工具以促进各种类型的评估的设置。这些工具的摘要见表1，其中详细介绍了它们的功能。在本文中审查的九个工具中，有五个允许与众包平台（如MTurk或Figure Eight）进行交互据作者所知，除了Lin和Bajić（2016）中描述的移动应用程序（工具名称未知）以及Turton等人描述的名为Evaluation Toolkit（ETK）的基于网络的平台外，没有直接的方法使用表1中审查的大多数工具设置2AFC实验。（2017年）。尽管这两种工具都基于2AFC方法，但这两种工具都不能轻松清晰地建立一个类似于本文所述的需要对图像进行排名的研究我们将在下面的两节中讨论这两种工具，并强调它们的主要区别和缺点。网络（Estellés-Arolas和González-Ladrón-de Guevara，2012年;Hirth等人，2011; Schenk and Guittard，2009; Howe，2006）。许多优点之一是快速到达大量用户而没有任何时间限制的可能性（即，互联网不受任何开放时间的限制），以及1 https://www.mturk.com/网站。2 https://www.prolific.ac/网站。3 https://www.figure-eight.com/网站。4 https://www.clickworker.com/网站。J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）2252272.3.1. Lin和Bajić的移动应用程序不幸的是，我们无法深入测试Lin和Bajić（2016）中概述的iOS应用程序，因为我们既无法在网上找到它，也无法通过Apple Store找到它。仔细阅读论文后，该工具的要点如下：1. 该应用程序使用的2AFC方法未优化，这意味着所有图像将相互比较。这种方法可能会导致大量图像进行比较，因此，测试时间明显延长，参与者的认知负荷也更高，更多详情请参见第3.3.12. 我们无法在论文中确定是否可以重复图像比较以测试每位参与者的答案是否一致，有关Versus如何处理重复的更多详细信息，请参见第3.3.23. 移动应用程序（如果找到并安装）目前仅在Apple移动设备上运行，无法在台式电脑。这大大减少了用户研究的可招募参与者的数量。4. 移动应用程序不与任何众包平台对接，参与者必须通过电子邮件招募2.3.2. Turton等人的ETKETK是一个JavaScript文件、HTML和CSS模板的集合，便于在Qualtrics中创建2AFC基于图像的评价研究，Qualtrics是一个基于Web的应用程序，用于创建在线调查。在仔细阅读了论文并多次尝试建立ETK评估之后，该工具的要点如下：1. 通过ETK实现的2AFC方法旨在针对心理物理实验的类型，其中实验者对确定特定参数的辨别阈值ETK 2AFC评价研究将刺激图像与基线图像进行比较。因此，它确定了基线图像在刺激图像上被选择的频率这与我们的工具所采用的方法有着根本的不同，我们的工具的目标是确定图像之间的不同排名，并将每个图像相互比较。2. ETK不是一个独立的解决方案，只能在Qualtrics调查中运行。 Qualtrics旨在为企业进行评估和调查。虽然一些学术机构可以获得免费许可证，但通常是付费服务。3. ETK实验的设置需要几个手动步骤和最低限度的编码技能才能最终运行研究。首先，实验者需要学习如何在Qualtrics中创建调查。然后，需要将ETK提供的JavaScript、HTML和CSS文件复制并粘贴到Qualtrics中的相关表单，如文档和每个代码文件中的注释所述。图像文件需要由实验者托管，图像的URL需要在JavaScript代码中手动更改4. 此外，由于ETK使用的2AFC方法与Versus实施的方法不同，因此也没有实现图像比较次数的优化5. 我们无法确定重复图像对比较以检查一致性是否简单。5 https://www.qualtrics.com网站。3. 软件详细信息Versus是一种基于网络的应用程序，允许基于2AFC图像比较技术自动创建用户研究，以在图像组之间产生不同的排名。此外，Versus采用了一种有效的排名方法来减少所需的比较次数，从而减少了进行研究所需的时间。该工具可以通过URLhttps://tinyurl.com/y83e8dkh 访问，代码可以在 Github（https://github.com/ODonoghueLab/Versus）上查看。该工具可以作为一个独立的工具来招募领域专家，也可以与众包平台集成，在短时间内聚集大量的参与者。3.1. 架构该软件包提供了为大量用户执行2AFC实验所需的所有功能该系统提供了用户管理、2AFC的二叉树计算、分析输出生成以及MTurk的便捷安装Versus是用JavaScript编写的服务器/客户端包，可以作为网站在本地或远程运行。服务器在Node.js中运行，使用Express框架和MySQL数据库。2AFC的二叉树表示被编写为服务器端模块。客户端编译为单页应用程序在Vue.js框架中使用Google Material设计界面。客户端和服务器之间的通信通过RPC-JSON API完成。图像被上传到服务器，并作为静态文件提供给客户端。3.2. 设置一个对比实验用户界面使用JavaScript框架Vue.js创建。在登陆页面，用户可以登录或注册。为了创建一个实验，研究人员首先上传一组要排名的在参数选项卡中，参见图2，实验者可以设置以下参数：重复的分数在给定研究中重复的图像对比较的分数（如果所有图像对比较都应重复，则为1，如果没有重复，则为0）起始页眉和起始简介：标题和文本显示在开头的一个experimentRunning header和running blurb：实验过程中显示的标题和文本，即这通常是参与者应该通过选择两个图像中的一个来回答的特定问题完成标题和完成简介：实验结束时显示的标题和文本除了此处列出的用户定义参数外，无需在Versus中设置其他参数。通过点击“下载结果. CSV”，可以将结果下载为CSV文件（逗号分隔值）3.3. 功能Versus旨在促进评估研究，旨在研究可视化的有效性和表现力。它可以轻松地与众包平台MTurk或任何其他允许通过链接进行集成的平台进行交互····228J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225−×+=表1概述了用于设置研究以评估可视化的可用工具和框架。名称2AFC众包独立平台细节EvalBench a （Aigner et al. ，2013年）没有–是的桌面旨在基于调查问卷方法（观察者观看图像，然后回答模块：多项/单项选择，自由文本，李克特量表，是/否，数字输入通过滑块或旋转盒）众包系统（英格兰没有八字形没有Web旨在评估Inviwo创建的可视化（Sundén et al. 、等人，2016年）2015）（一个软件，以创建可视化原型）的基础上的问卷调查方法（观察者观看图像，然后回答问题）Touchstone（Mackay et al. 页：1没有–是的桌面旨在评估HCI组件，例如指向技术GraphUnitb（Okoe和Jianu，没有MTurk是的Web旨在评估交互式网络图（2015年）TurkServer c （Mao et al. ，2012年）没有MTurk是的Web目标是在单个MTurk实验BREF（Schöönig et al. ，2017年）没有–是的Web旨在基于调查问卷方法（观察者查看图像，然后回答模块：单项/多项选择，自由文本）实验者d没有MTurk是的Web在MTurk基于问卷调查方法（观察者查看图像，然后回答一个问题）ETK e （Turton et al. ，2017年）是的MTurk没有Web针对心理物理学实验（6个不同的模块），运行在Qualtricsf调查–是的–是的移动旨在运行2AFC实验，以评估iOS移动设备相对于g是的MTurk是的Web基于Web的工具，用于运行优化的2AFC图像评估和图像质量评估研究ahttps://github.com/ieg-vienna/EvalBench。bhttps://github.com/mershack/graphunit。chttps://github.com/TurkServer/turkserver-meteor。dhttps://github.com/codementum/experimentr。ehttps://github.com/ascr-ecx/etk。fhttps://www.qualtrics.com/。ghttps://tinyurl.com/y83e8dkh、https://github.com/ODonoghueLab/Versus。3.3.1. 图像排序及图像对选择的优化方法取决于图像的数量n和参与者的数量，要测试的图像对的数量可以变得相当大（n（n-1））。Silverstein和Farrell（2001）提出了一种有效的方法，通过使用二叉树排序方法并假设排序中的传递性，将图像比较的数量减少到（n log2（n传递性定义了如果图像A被选择而不是图像B，并且图像B被选择而不是图像C，那么我们假设A> B> C的排名，而不必比较图像A和图像C。请参考图1（D F）的示意图。为了选择呈现给参与者的第一个图像对，图像被打乱，并随机选择两个。然后，基于二叉搜索树选择下一对。结果是给定集合中所有图像的完整排名3.3.2. 重复随机化在实验过程中，将重复图像对的特定部分，这由参数选项卡中的重复部分确定，参见第3.2节。图像对的重复计算一致性是必要的，一致性是一种通常用于测试参与者在数据收集过程中注意力的衡量标准。在每个显示步骤中，显示重复的选择由设置为硬连线概率p0的情况。2. 如果要显示重复，则从先前看到的图像对中随机选择重复图像对当构建完整二叉树所需的所有图像对都已显示时，将显示重复，直到满足图像对重复的数量，如参数Fraction to berepeated所计算的。如果图像A显示在左边，图像B显示在右边，那么当重复该图像对时，顺序会颠倒，见图2。 1（E）。请注意，虽然Versus允许重复图像对来计算一致性，但我们的工具不会自动丢弃任何未能通过特定一致性阈值的参与者的任何数据在对原始数据进行仔细分析后，每个实验者应根据设定的阈值单独做出丢弃结果的决定3.3.3. 参与者的招募作为第一步，研究人员像往常一样使用Versus创建了一个实验作为一个独立的工具。使用“参与者”选项卡中的与MTurk整合。在MTurk实验中整合对比实验的链接可以在选项卡标签下方的参与者选项卡中找到，参见图中的紫色矩形。二、复制此集成链接后，研究人员需要使用其请求者帐户登录MTurk，并使用模板“Survey Link”创建MTurk实验只需将集成链接粘贴到MTurk实验页面即可。Versus会自动为每个单击此链接的工作人员创建一个新的实验。工人实验的结果保存在Versus中。完成后，将为用户创建一个独特“调查代码”保存在Versus中，4. 使用对比进行的用户研究示例为了测试Versus的设置，以及演示该工具的不同方面，我们重新创建了用户研究J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225229Fig. 1. Versus上的2AFC图像比较研究的典型工作流程：具有紫色边界（C-G）的子面板完全由我们的工具自动处理，或者几乎不需要实验者的干预。（A和B）需要实验者的输入：在Versus中创建刺激图像和输入研究参数。(C)Versus可以与MTurk连接以招募参与者，也可以用作独立的专家招募工具（D）基于二叉树的优化2AFC算法的示意性说明(E)重复的图像对比较自动处理，并以一种方法的方式，允许正确计算的一致性的答复和删除的数据，从疏忽的参与者。(F)Versus自动计算每个参与者的图像的不同排名。(G)在每个实验结束时，如果参与者是通过MTurk招募的，Versus会显示一个MTurk支付代码（然后，可以下载原始数据进行进一步分析。Heinrich et al.（2015）中描述。在这项研究中，研究人员旨在测试色调，饱和度和亮度是否适合在蛋白质序列与结构比对中传达不确定性。通过同源性建模计算该比对，其中将具有已知结构的蛋白质的氨基酸序列（由独特的 UniProtConsortium 鉴定，2013ID）与具有未知结构的蛋白质的氨基酸序列进行比较。在此，假设通过允许“不确定的”氨基酸比对，可以根据这些序列的相似Aquaria（O'Donoghue et al. ，2015年），例如，是一个基于网络的工具，由我们的团队开发，允许同源性建模比对的计算，并能够查看所得的蛋白质的3D结构。在水族馆中，保守的、非保守的取代和插入被视为不确定的比对，并且分别以深灰色和浅灰色通过降低的饱和度/亮度来有关更多详细信息，请参阅 Heinrich et al. （ 2015 ）和O'Donoghue et al. （2015年）。除了复制颜色到不确定性的研究，我们还测试了参与者是否能够通过使用一个众所周知的金属质量参数来推断对齐我们认为它是一个直观和可理解的参数，用于指示不确定性，假设所有参与者都看到并与锈菌相互作用，并且能够利用它来推断蛋白质结构预测中的不确定性。对于这部分研究，我们将生锈不确定性参数应用于这些比对：• 保存的替代品：部分生锈• 非保守取代：完全生锈• 插入：浅灰色230J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225•≤×图二、用户研究可以通过上传要排名的图像集来创建。用户可以设置用户研究参数，邀请参与者（参见紫色矩形内的Mechanical Turk Survey Link），以及下载结果。4.1. 方法在Heinrich et al. （2015）是检查所使用的颜色方案是否适合传达对齐质量，即如果对齐质量是100% -参与者是否会更喜欢该图像而不是对齐质量，例如5%，实际上认为它是更高的质量？此外，我们还想测试其他视觉参数（如生锈的纹理）是否也适用于表示质量。4.1.1. 刺激的选择和创造蛋白质数据库（PDB）中的两种蛋白质结构（Bermanet al. ，2002）ID 1qcf和1ozn是从Heinrich等人研究的六种蛋白质结构中随机选择的。（2015年）。然后，我们手动选择具有以下PDB ID的另外四种蛋白质结构：2h9p、3mzs、4iq6、1b3u。所选结构如图所示。3.第三章。选择标准。根据原始研究中的以下标准选择了四种对准质量的大致均匀分布，每个结构以形状（球状、细长、简单、复杂等）表示不同的蛋白质组和二级结构的组成（β折叠-以黄色显示α螺旋-显示为蓝色，线圈和环-显示为绿色）选择标准是必要的，以确保不同蛋白质结构的多样性表示，以防止一些观察者可能对具有特定形状和二级结构数量的蛋白质产生偏见。截图。通过在Aquaria中打开具有对齐序列的结构来创建研究图像。然后，我们以相同的缩放因子缩放所有结构，并截取了一个测量为1062647像素的屏幕截图。结构1qcf和1ozn的图像由Heinrich等人的作者友好地提供。（2015年）。生锈的蛋白质首先，我们将蛋白质结构1b3u加载到Chimera中（Pettersen et al. ，2004年），并手动应用水族馆的配色方案的结构。然后，在导出3D模型后，我们将其导入Blender。在Blender中，材质定义其表面的视觉质量，例如颜色、透明度、衍射、光泽度等。 Aquaria材质和铁锈材质是使用循环渲染引擎材质节点系统创建的。水族馆材质风格由光泽和漫反射着色器与坚实的底色组成。根据Aquaria，基本颜色取决于每个残基的序列相似性评分光泽和漫反射的混合创造了一个闪亮的效果，类似于·J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225231×[F=-16图3.第三章。在我们的实验中测试的蛋白质结构：（a-b）取自Heinrichet al. （2015年）。（a）一次量化基金只在一项试验研究中进行测试。（ 1b3u被测试了两次：用这里显示的颜色方案，和生锈的纹理，见图。四、在Aquaria看到。铁锈风格的材质也包含光泽和漫反射着色器的混合，但底层的颜色是图案化的，并基于程序生成的噪波和马斯格雷夫纹理的组合。锈纹理应用的程度是由每个残基的基础上的序列相似性驱动的，具有逐渐减小的相似性残基具有覆盖在锈纹理的表面的逐渐增大的区域。场景照明由两个明亮的太阳灯和一个低亮度的背景光组成。灯光的位置尽可能地模仿水族馆的渲染风格鉴于Aquaria和Blender循环渲染系统不同，可能会看到与Aquaria的一些区别，但差异保持在最低限度。为了从相同的视角获得显示蛋白质的屏幕截图，每个图像都使用相同的相机视角渲染，参见图1。四、对于使用颜色来传达不确定性或使用蛋白质结构1b3u上的生锈纹理的直接比较，请参见图。五、4.1.2. 用户招募实验装置。我们招募了11名观察结构1qcf的参与者，见图。 3a测试Versus与MTurk的集成和功能，并发现我们工具中的潜在错误。经过测试和调试，我们招募了100名参与者，使用MTurk为每个结构1ozn，2h9p，3mzs，4iq6和1b3u，见图。 3b-f，分别。我们进行了六项用户研究（每个结构一项，另外一项针对生锈纹理的1b3u），测试了326个独特的MTurk工人，总共收集了25，185个选择每个图像对向每个参与者显示两次，即将重复分数设定为1（见第3.2节）。我们向每位参与者支付最低工资8.00美元假设每个图像对需要大约10秒才能完成，并且平均总数然后，通过点击MTurk实验中的Versus集成链接，要求参与者同意参与然后，实验将在Versus上启动（见图1）。 6）。4.1.4. 伦理批准本文中描述的用户研究获得了CSIRO澳大利亚伦理委员会的批准。收集所有参与者的知情同意4.2. 结果使用R进行分析，旨在重复Heinrich等人（2015）中进行的分析排名计算为图像在整个集合中的我们通过计算图像被选择的次数，除以图像在所有参与者中显示的总次数来计算这个参数如图如图7所示，比对质量似乎是所有蛋白质结构中感知的美学偏好的良好预测因子，具有较小的方差，由相关系数R2表示（参见图中的小标题）。所有相关系数均显著，α= 0。05.4.2.1. 生锈的纹理与配色方案我们对线性回归进行了方差分析，以比较基于表示不确定性的不同参数（铁锈和颜色）的对齐质量和图像排名之间的关系。结果表明，没有显著的图像排序和不确定性参数之间的相互作用，每个HIT的29个2图像对比较（包括重复），这导致每个参与者每个HIT支付0.68美元4.1.3. 任务复制Heinrich等人定义和使用的任务。（2015），其灵感来自于Secord et al. （2011），我们的目的是收集主观判断的审美质量的图像。在每个实验开始时，我们解释了研究的目标和任务：参与这项研究将涉及观看一系列的两个图像。对于每组图像，您将被要求选择您最喜欢的图像（即你喜欢的形象十个1791年，p 0。6778]。使用Fisher z变换，我们比较了不同不确定性参数的相关系数，见图7结果表明，锈蚀不确定度的R2与α = 0的颜色不确定度的R2无显著差异。05，[z= 2. 03，p=0。04]。5. 讨论和今后的工作在这里，我们提出了一个简单的设置工具，这是基于基于2AFC方法和有效的排名来比较一组图像，以快速有效地评估不同的可视化数据方式我们通过重新创建一个232J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225见图4。具有十个升序对齐质量（在子标题中表示为百分比）的十个序列（UniProt ID在子标题中表示）与PDB ID为1b3u的结构对齐。Rust被用作传达对齐质量的指标。图五、使用（a）颜色或（b）铁锈作为指示剂，将蛋白质结构上的7%序列与结构比对质量与UniProt ID 13bu进行比较。图六、Versus中的一个任务的屏幕截图，该任务基于两种选择的强制选择方法并排显示图像。用户单击每个图像下方的“选择”用户研究，以评估用户偏好与蛋白质序列-结构比对质量的相关性，结果与原始研究基本一致。此外，我们研究了其他视觉美学参数是否可以应用于3D蛋白质结构，以美学传达对齐质量，并表明生锈的纹理在统计学上与先前测试的配色方案相似。5.1. 众包平台的局限性和MTurk在VersusMTurk提供了一种强大的方式，可以将重要的任务分发给在线的大量个人然而，由于其简单性，设计和实现优化2AFC实验。通过众包平台测试大型参与者库的缺点是针对特定领域的专家的限制，例如，研究人员只对测试具有坚实基因组学背景的参与者虽然MTurk允许预先定义资格测试，即参与者只有在成功回答研究人员定义的一组问题时才能参与，但很难在脑海中定位特定的参与者我们认为，通过MTurk招募用户只适合于试点研究或测试一般假设。由于Versus也是一个独立的工具，不与任何众包平台连接，因此可以使用我们的工具招募领域专家和参与者，J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225233见图7。用户偏好等级作为比对质量的函数。焦点小组研究，这不可能单独使用MTurk。在目前的形式下，Versus只能通过嵌入调查实验中的链接集成到MTurk实验中。这意味着研究人员仍然需要登录MTurk，设置参数，并在众包平台上开始调查实验。虽然Versus大大方便了2AFC实验的设计和设置，但与MTurk的接口尚未完全实现。在未来的版本中，我们计划将Versus与MTurk完全集成，以便在Versus中完全创建HIT。5.2. 2AFC方法North（2006）提出了在选择对照实验来评估可视化时可能发生的一些问题。诺斯指出，一个好的可视化的合适的衡量标准是创造新见解的可能性2AFC方法在允许洞察过程方面有其局限性2AFC图像比较实验必须预先定义，要求参与者在给定的时间范围内仔细遵循特定的指示，必须从预先定义的答案中进行选择，这些答案必须易于理解以便于参与者这些观点极大地阻碍了参与者提出任何新颖的、有用的、深刻的、复杂的和相关的见解。为了对可视化进行定性评估这可以通过允许受试者在他们的选择中添加注释和/或以特定方式提出问题来实现，以便在洞察过程中提供然而，如果可视化评估的主要重点是测试是否有新的见解，那么2AFC方法不是一个合适的方法，因为测试的假设太复杂。我们理解Versus并非设计为适用于所有类型的现有可视化评估（包括交互式可视化）的工具。然而，我们相信2AFC方法可以快速准确地回答大量关于新颖的和现有的可视化策略和方法的有效性和表现力的有趣问题在未来的发展中，我们的目标是整合额外的实验方法，允许基于其他方法的可视化评估，如多项/单项选择问卷，开放文本问卷等，也允许交互式可视化的评估5.3. 结果分析在目前的形式下，Versus允许下载需要使用第三方软件（如Microsoft Excel，SPSS或R）进一步分析的原始数据，类似于单独使用MTurk时必须分析结果的在未来的版本中，我们的目标是添加一个模块，除了下载原始数据外，还允许以仪表板的形式进行初步统计分析，允许用户使用标准统计测试来测试简单的假设6. 结论新的可视化问题的解决方案是必不可少的，以应付随时可用的和大的数据集的增加，特别是在生物学领域。研究人员不仅需要承担提供可视化策略的责任，而且还需要评估这些策略是否适合和有效地传达有关底层数据的必要信息。Versus是一种多功能工具，旨在促进基于2AFC方法进行图像评价研究，以节省时间和准确的方式收集个体参与者的图像排名。工具234J. Vuong，S.Kaur，J.Heinrich等人/视觉信息学2（2018）225可以作为独立的工具使用，也可以与流行的众包平台（如MTurk）集成使用。确认这项工作得到了CSIRO的OCE科学领导者计划和计算与模拟科学平台的支持，部分由澳大利亚研究委员会在链接项目LP 140100574下提供支持。作者要感谢Michael Joss为开发此工具所做的贡献。引用Aigner，W.，霍夫曼，S.，Rind，A.，2013. EvalBench：一个可视化评估的软件库。在：计算机图形论坛，卷。32岁 Wiley Online Library，pp. 41比50比彻姆河戴克斯，J.，Meulemans，W.，Slingsby，A.，Turkay，C.，Wood，J.，2017.地图排列：空间结构对图形推理的影响。 IEEE Trans. 目视 Comput.Graphics 23（1），391-400.伯曼， H.M. ， Battistuz ， T. ，巴特， T. N. ， Bluhm ， W.F. ，伯恩，体育老师Burkhardt，K.，冯志，G.L.吉利兰，莱普湖，贾恩，S.，例如，2002.蛋白质数据库。晶体学报D 58（6），899-907.博尔戈河米卡列夫湖巴赫湾，McGee，F.，李，B.，2018.众包信息可视化评价EuroVis 2018，STAR State Art Rep.37（3），https://www.microsoft.com/en-us/research/publication/information-visualization-evaluation-using-crowdsourcing/.Carpendale，S.，2008.评估信息可视化。在：信息可视化。施普林格，pp. 19-45岁。克利夫兰，西南，麦吉尔河，巴西-地1984.图形感知：理论，实验和图形方法发展的应用。J. Amer. 国家主义者。Assoc. 79（387），531-554。财团，美国，2013.通用蛋白质资源（uniprot）。NucleicAcids Res.42（D1），D191-D198.英格兰河，Kottravel，S.，Ropinski，T.，2016年。科学可视化中集成和可重复评估的众包系统。In：Pacific VisualizationSymposium（PacificVis），2016 IEEE.IEEE，第40比47Estellés-Arolas，E.，González-Ladrón-de Guevara，F.，2012.走向综合众包定义。J. Inf. Sci. 38（2），189-200。Gehlenborg，N.， Baliga，N.S.，Goesmann，A.，Hibbs，MA，Kitano，H.，Kohlbacher，O.，Neuweger，H.，施奈德河，Tenenbaum，D.，例如，2010年。系统生物学组学数据的可视化。方法7（3s），S56.Gleicher，M.，Correll，M.，Nothelfer，C.，Franconeri，S.，2013.多类散点图中平均值的感知。IEEE Trans. Vis. Comput. Graphics 19（12），2316-2325.哈里森湖，杨，F.，

下载后可阅读完整内容，剩余1页未读，立即下载