数据之网的货币化策略

120 浏览量更新于2023-10-16 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1http://www.wikipedia.org8130Web of Data的货币化策略0Tobias Grubenmann «由AbrahamBernstein监督» 苏黎世大学信息学系苏黎世, 瑞士grubenmann@ifi.uzh.ch0摘要0受到万维网的启发，数据之网是一个互连数据片段的网络。数据之网的主要优点之一是，所有内容都可以由机器处理。然而，当涉及到内容的货币化时，这也有其缺点：广告和捐赠——作为万维网中重要的财务动力——无法转化为数据之网，因为它们依赖于向用户展示广告/呼吁捐款。为了解决这个问题，我们提出了两种不同的数据之网货币化策略。第一种策略涉及一个市场，用户可以以集成的方式购买数据。第二种策略允许第三方推广特定数据。作为回报，赞助商在用户点击赞助数据中的链接时支付费用。我们确定了两种不同类型的数据——商业数据和赞助数据——可以从两种相应的货币化策略中受益。通过我们的工作，我们提出了解决数据之网中内容的创建和维护的问题的解决方案。0关键词0数据之网，货币化，市场，整数规划，拍卖0ACM参考格式：Tobias Grubenmann. 2018. Web of Data的货币化策略.在WWW '18 Companion: 2018年Web会议伴侣, 2018年4月23日至27日,法国里昂. ACM, 美国纽约, 5页. https://doi.org/10. 1145/3184558.318656801问题0数据之网（WoD）是世界范围网（WWW）的扩展，旨在促进分布在网络上的数据的交换和处理。在WoD中，使用可机器处理的、语义注释的数据模型——资源描述框架（RDF）数据模型来公开数据。使用这个数据模型，机器可以根据一些任务规范代表人类自主访问数据。RDF数据模型的另一个优点是，数据源可以以联合的方式查询，而不需要事先达成共识的公共方案。尽管WoD是WWW的扩展，但在0本文以知识共享署名4.0国际（CC BY4.0）许可证发布。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW '18 Companion, 2018年4月23日至27日, 法国里昂 © 2018IW3C2（国际万维网会议委员会），根据创意共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04. https://doi.org/10.1145/3184558.31865680WoD更类似于查询一个大型的分散数据库，而不是浏览网页。虽然这有前面提到的优点，但也有其缺点。其中一个缺点是，大多数从WWW获得数据发布者的货币化策略不容易转化为WoD。WWW中的典型货币化策略包括广告、捐赠和补贴。广告可以说是WWW中最大的财务动力。WWW提供了将广告定制给用户并以前所未有的方式针对特定用户群体的机会。Web内容的发布者可以将广告嵌入到实际内容的展示中，以创建所需的印象（可能转化为点击和操作），广告商为此支付费用。如果我们想将此广告机制转化为WoD，我们需要一种将广告嵌入到RDF数据的展示中的方法。然而，与标记语言HTML不同，RDF数据模型不提供指示如何将某些数据元素呈现给用户的手段。事实上，可机器处理的数据的概念与向数据的使用者（可以是人或机器）展示广告的想法相悖。例如，查询语言SPARQL[11]可用于查询RDF数据，允许将查询答案投影到感兴趣的一组变量上。因此，元数据（如广告）可以很容易地被过滤掉。当然，始终可以在访问WoD的人类和机器之间的接口中引入广告。然而，这样的广告将由相应接口的发布者控制，而不是原始数据的发布者控制。数据发布者将无法从这样的广告策略中受益，这是我们研究的主要关注点。捐赠是WWW中的另一个重要的资金来源。这种货币化策略依赖于用户对Web内容的欣赏程度，以自愿捐款来保持服务的运行。如果发布者希望通过捐赠来为其服务提供资金支持，关键部分是让消费者意识到需要财务支持的需求，并指导他们如何捐赠。这个问题不应被低估。正如[6]所示，很大一部分用户不知道有可能向主要通过捐赠获得资金的维基百科1捐款，或者不知道如何捐款。为了解决这个问题，依赖捐赠的发布者偶尔会在其网站上放置横幅，呼吁捐款，例如。在WoD中，这个问题更加突出。与我们已经讨论过的广告类似，嵌入呼叫也不是一件简单的事情。0博士学位追踪WWW 2018年4月23日至27日，法国里昂2http://www.bloomberg.com3http://www.lexisnexis.com4http://www.thomsonreuters.com8140将捐赠转化为RDF数据。最终，捐赠呼叫可以被视为一种广告形式，其中广告商也是发布者。此外，用户可能根本不知道他们正在使用某个发布者的数据，特别是如果数据是联邦的一部分。即使RDF数据包含有关数据来源的一些归因，类似于广告，这些元数据也可以被过滤掉。结果，WoD中的发布者可能无法创建所需的意识以触发捐赠。除了广告和捐赠，补贴在资助Web内容方面也起着重要作用。与前两者不同，补贴实际上也适用于WoD环境。WoD上的大多数当前数据集（不是由爱好者维护）都是通过政府通过数据访问法律或研究资助进行补贴的。然而，补贴不能被视为一种实际的货币化策略，因为它们基本上将问题委托给其他人。问题陈述：如果没有新的货币化策略，许多有前途的数据集将得不到良好的维护，或者由于没有足够的资金来保持数据和服务器的运行而消失。为了解决这个问题，我们为WoD确定、建模和评估了两种新的货币化策略。第一种货币化策略侧重于WoD数据的消费者为数据发布者提供资金。在第二种货币化策略中，第三方（赞助商）为数据提供资金。这两种货币化策略可以应用于两种不同类型的数据：前一种策略适用于消费者愿意付费的数据，我们将其称为商业数据。后一种策略适用于某个赞助商愿意推广的数据，我们将其称为赞助数据。02 最先进的技术0最先进的技术可以分为两部分：数据市场和赞助搜索拍卖。02.1 数据市场0在WWW中，向客户收费以访问数据的想法已经得到实施。Bloomberg 2、LexisNexis 3和Thomson Reuters4向客户收取高额费用以访问其数据，主要使用订阅模式。所有这些例子的共同之处是它们可以以准垄断的价格出售其全部数据产品[2]。此外，对于关系数据库，已经提出了使用无套利定价方案出售数据的市场[4，12]。在[17]的工作中，考虑了通过拍卖机制出售数据时的负外部性。不幸的是，这些市场中没有一个允许客户加入来自不同提供者的数据集，这是我们正在调查的WoD场景的一个重要方面。此外，据我们所知，这些市场中没有一个考虑到由于价值或预算限制而导致的部分答案。在一项试点研究中，[19]通过模拟WoD的市场奠定了我们研究的基础。在[13]中，我们首次提出了在WoD上使用双向拍卖出售数据的想法。最后，0在[10]中，我们介绍了一个允许客户以集成方式从分散的卖家购买数据的市场模型。与以前的模型相比，我们的重点是在所有可用数据的基础上最大化客户的效用。02.2 赞助搜索拍卖0广义第二价格（GSP）是由Google于2002年推出，取代了第一价格模型，成为赞助搜索拍卖的行业标准[18]。GSP拍卖的主要优势是防止“循环”模式，即价格逐渐上升，然后突然下降的情况[5]。第一价格模型的另一种替代方案是Vickrey-Clarke-Groves（VCG）拍卖[3，7，16]。这种拍卖的优点是“真实”，意味着没有投标人有动机对其对拍卖结果的估值撒谎。[1]提出了一种新的拍卖机制，其中投标人可以对他们希望广告出现的确切位置施加额外的约束，因为投标人可能对广告的出现本身有价值，即使用户没有点击广告。到目前为止，这些拍卖模型都没有应用于WoD环境。一个原因是，正如在第1节中讨论的那样，来自WWW的在线广告无法转化为WoD。然而，正如我们在[9]中所展示的，拍卖技术仍然可以应用于WoD环境，尽管不是以其最初设计的方式。03 提出的方法0我们的基本方法是为商业数据和赞助数据制定两种不同的货币化策略。商业数据的主要特点是消费者对于消费数据的价值高于任何其他实体（包括但不限于数据发布者）将数据暴露给消费者的价值。价值表示消费和暴露数据的愿意支付的程度。商业数据的示例包括有关消费者行为或股票交易数据的数据。赞助数据的主要特点是存在一个我们称之为赞助商的实体，该实体对于将消费者暴露给数据的价值高于消费者对于消费数据的价值。赞助数据基本上是通常包含在广告中的任何数据。然而，与传统广告不同，赞助数据是由消费者明确请求的，并且不代表请求数据的附加信息甚至分散注意力。赞助数据的示例包括有关酒店和餐厅的信息或出售商品的数据。03.1 商业数据市场0为了回答第一个研究问题，我们提出了一个WoD商业数据市场。我们市场的主要特点是客户可以以一种集成的方式结合来自不同数据发布者的数据，这意味着客户可以访问所有参与数据发布者的数据，就好像只有一个大型数据库一样。然而，客户不必为所有可用数据付费。相反，客户可以提交一个查询，并且只会为那些精确需要形成特定查询的三元组（最小可能的数据片段）付费。02018年4月23日至27日，法国里昂，WWW 2018博士生论坛DataDataDataDataQuery Execution1.2.DataDataDataDataSelectedQuery AnswerBuying DecisionRDF DataRDF DataDelayDelayDelayBidQueryExecution8150此外，客户可以决定查询答案的大小。如果不使用这样的市场，用户将不得不直接从不同的数据发布者购买单个三元组。虽然这是可能的，但是当需要连接来自多个数据发布者的数据时，这种方法存在一个主要缺点：对于客户来说，很难估计一个发布者的三元组实际上将与另一个发布者的三元组连接。因此，客户可能会浪费金钱购买不连接的三元组，或者因为没有购买某些三元组而错过查询答案的一部分。正如我们在[8]中所展示的，WoD环境中的连接估计技术受到了来自误报匹配的严重影响，因此我们不能指望客户能够使用这些技术来精确购买那些需要形成特定查询答案的三元组。在决定客户应该购买哪些三元组之前，WoD的市场必须在发布者的数据上执行给定的查询。图1显示了我们市场中的必要步骤：0（1）市场从客户处接收查询并在可用数据上执行查询。（2）只选择完整查询答案的某个特定部分。（3）客户只向市场支付所选三元组的指定价格。0我的第一个研究问题关注客户的购买决策，我们称之为分配问题：0研究问题1：如何高效解决WoD市场的分配问题？03.2 赞助数据的延迟答案拍卖0对于第二个研究问题，我们提出了一种类似于赞助搜索结果拍卖的插槽拍卖。在这个拍卖中，如果用户点击查询答案中包含的某个链接，赞助商需要支付费用。为了激励赞助商支付此类链接访问费用，我们需要一种方法来优先考虑那些出价较高的链接，而不是出价较低或没有出价的链接。为此，我们在查询答案的交付中引入了延迟。具有高出价的链接的记录比具有低出价的记录更快地交付。通过引入这样的不同延迟，我们创建了查询答案的不同记录的排名。我们引入的排名类似于赞助搜索结果中的广告位排名。因此，我们可以将源自赞助搜索拍卖的拍卖技术应用于这种新的设置。图2说明了我们新拍卖概念的过程。与第3.1节中的市场类似，我们有一个用户向我们的系统提交查询，并且查询在所有参与发布者的数据上执行。然而，这一次，用户不选择查询答案的一部分。相反，完整的查询答案将传递给用户。根据赞助商对记录中包含的某些链接出价的多少，为查询答案的不同记录分配不同的延迟。延迟较小的记录被用户考虑的机会更大。0市场顾客0市场顾客0支付3。0完整查询答案选择的查询答案0图1：从查询到选择的查询答案的三个步骤。0提供者0拍卖用户0提供者0赞助商0查询答案0图2：用户根据赞助商的出价获得延迟的查询答案。0因此，访问链接的可能性更高。如果用户访问某个链接，赞助商必须向拍卖人支付一定的价格。价格是使用VCG机制[3, 7,16]计算的。第二个研究问题询问了延迟对所提出的拍卖的影响：0RQ2 延迟选择如何影响所提出的延迟回答拍卖？0博士生论坛WWW 2018，2018年4月23日至27日，法国里昂81604 方法论0我们的研究方法对于这两个研究问题略有不同。04.1 商业数据市场0对于商业数据市场，需要对市场的不同部分进行建模。第一部分模拟了在查询执行过程中如何从不同的数据发布者中提取必要的元数据（图1中的第1部分）。在我们的模型中，发布者的数据被组织成数据产品。数据产品是一组具有相同元数据（包括价格）的RDF三元组。我们使用RDF语句来描述关于数据产品的元数据。这使我们能够使用单个联合的SPARQL查询访问数据和数据产品的元数据。此外，用户可以直接在查询中使用元数据，根据特定需求限制查询答案。我们市场模型的第二个重要方面是选择查询答案（图1中的第2部分）。选择合适的查询答案的子集可以建模为整数规划问题，假设查询答案的值是关于包含记录的线性函数。然而，解决这样的问题是NP难的。如果值不是线性的而是单调递减的，我们无法将问题形式化为整数规划问题。我们的市场的查询执行使用联合查询引擎FedX[15]实现。在传统的联合SPARQL查询执行中，SPARQL查询被分割成发送到不同源的子查询。将来自不同子查询的查询答案组合在一起得到完整的查询答案。我们不直接将子查询发送到端点，而是必须重写每个子查询以检索有关不同数据产品的所有元数据。选择查询答案使用两种不同的方法实现：（1）使用商业求解器CPLEX5。只有当选择可以建模为整数规划问题时，才能使用此方法。（2）使用我们自己的贪婪算法。如果值是单调递减的，也可以使用此方法。为了评估这两种不同的方法，我们使用了两种不同的指标：算法的运行时间（确定其可行性）和选择的质量。特定查询答案选择的质量由其效用表示，该效用是用户对特定选择的价值减去客户必须支付的价格。04.2 延迟回答拍卖0延迟回答拍卖的模型基于赞助搜索结果的插槽拍卖。在这个模型中，我们有不同的插槽，被用户选择的可能性逐渐减小。由于查询答案是一组记录，没有不同记录之间的固有排序，因此所有记录最初的选择可能性相同。为了人为地创建这样的排序，我们必须为不同的记录引入不同的延迟。查询答案中的每个记录都被分配给一个特定的插槽，该插槽确定了延迟。05 https://www.ibm.com/jm-en/marketplace/ibm-ilog-cplex0尽管我们的延迟回答拍卖与赞助搜索拍卖类似，但我们需要为这种新环境设计一个新的点击模型。我们使用的模型假设用户能够在收到查询答案后判断链接的相关性，并且最多访问一个链接。与WWW中的链接不同，在WoD中，用户可以通过查询答案中嵌入的信息来判断链接的相关性。不同记录的延迟是我们拍卖的重要参数，必须由拍卖人选择。这些参数为槽位拍卖增加了一个新的维度，在传统的赞助搜索拍卖中没有对应物。因此，了解这些参数如何影响拍卖以及拍卖人如何对其进行优化是至关重要的。因此，我们进行了理论分析，以确定如何优化这些参数。此外，我们进行了模拟，以说明参数选择对社会福利（总生成财富）和拍卖人收入的影响。05 结果0现在我们将简要概述我们已经得到的两种场景的一些结果：商业数据市场（研究问题RQ1）和延迟回答拍卖（研究问题RQ2）。05.1 商业数据市场0为了评估第4.1节中概述的两种不同方法，我们在17个FedBench[14]查询上测试了这两种算法。我们对这个评估使用了第4.1节中描述的指标。就效用而言，使用CPLEX的第一种方法和使用我们的贪婪算法的第二种方法非常接近。我们观察到，在17个查询中，我们的贪婪算法在15个查询中达到了CPLEX效用的90%以上。对于另外两个查询，我们的贪婪算法至少达到了80%。与此同时，贪婪算法的运行速度在大多数情况下比CPLEX快1到3个数量级。图3比较了使用CPLEX的方法（我们称之为整数规则）和我们自己的算法（我们称之为贪婪规则）。在另一项评估中，我们表明CPLEX对查询答案的多样性非常敏感，并且对于某些参数范围，CPLEX无法在12小时的时间限制内找到最优解。正如我们的结果所示，所研究的两种方法——整数规则和贪婪规则——都可以用来解决分配问题。虽然使用CPLEX可以保证最优解，但我们自己的算法通常可以在更短的时间内达到类似的结果。这回答了研究问题RQ1：在大多数情况下，分配问题可以用这两种方法有效地解决。在某些情况下，整数规则优于贪婪规则。然而，在大多数情况下，贪婪规则可以是一个好的快速替代方案。最后，对于某些情况，由于运行时间过长，整数规则是不可行的。05.2 延迟回答拍卖0我们分析了延迟回答拍卖的特性，并发现通常无法同时优化收入和0PhD Track WWW 2018，2018年4月23日至27日，法国里昂0.000.010.101.0010.00100.008170CD1 CD6 LD1 LD2 LD3 LD4 LD5 LD6 LD7 LD8 LD11 LS1 LS2 LS3 LS5 LS6 LS70运行时间[s]0整数0贪婪0图3：使用CPLEX（整数）和我们自己的算法（贪婪算法）在FedBench基准测试中的运行时间（以秒为单位）。0在具有相同延迟参数集的情况下，最优收入和最优社会福利都要求部分查询答案无限期延迟。然而，这种方法可能会减弱用户的体验，因为用户只能接收到部分可用数据。我们的模拟结果显示，在一小部分出价远高于其他出价的情况下，优化收入和优化社会福利的参数差异很大。该分析对于理解拍卖参数的选择对拍卖的影响非常有帮助，从而回答了研究问题RQ2。06 结论和未来工作0为了在数据网络中创建发布内容的财务激励，我们提出了两种不同的策略，一种是商业数据，一种是赞助数据。正如第5节中讨论的那样，我们已经就这两种策略建立了一些结果。对于第一种策略，我们比较了消费者如何选择查询结果子集的两种不同方式，并比较了它们在运行时间和效用方面的性能。未来的工作是研究数据提供者如何确定其数据的最佳价格。我们相信，可以通过使用强化学习技术等方法来学习这样的最优价格。我们还需要探索订阅模型在我们的新环境中的适用性。最后，我们的市场为考虑在数据提供者服务器上执行查询所施加的成本的市场感知查询优化提供了新的可能性。对于第二种策略，我们已经对我们的拍卖设置进行了理论分析，并进行了一次模拟，展示了我们模型的一些有趣特性。然而，我们仍然缺少使用真实数据对我们的方法进行评估。为此，我们计划使用传统广告拍卖的数据集。我们必须研究如何将这些数据集应用到我们的新环境中。0致谢0我要感谢我的导师AbrahamBernstein对我的博士研究的指导。本工作部分得到瑞士国家科学基金会的支持，资助号为#153598(http://p3.snf.ch/project-153598)。0参考文献0[1] Gagan Aggarwal, Jon Feldman, and Shanmugavelayutham Muthukrishnan. 2007.Bidding to the Top: VCG and Equilibria of Position-Based Auctions. In Approxi-mation and Online Algorithms. WAOA 2006. [2] Yannis Bakos and Erik Brynjolfsson.1999. Bundling Information Goods: Pricing, Profits, and Efficiency. ManagementScience 45, 12 (1999), 1613–1630. http://EconPapers.repec.org/RePEc:inm:ormnsc:v:45:y:1999:i:12:p:1613-1630 [3] EdwardH. Clarke. 1971. Multipart Pricing of Public Goods. Public Choice 2 (1971), 19–33. [4]Shaleen Deep and Paraschos Koutris. 2017. QIRANA: A Framework for Scal- ableQuery Pricing. In SIGMOD ’17 Proceedings of the 2017 ACM InternationalConference on Management of Data. 699–713. [5] Benjamin Edelman and MichaelOstrovsky. 2007. Strategic Bidder Behavior in Sponsored Search Auctions. InDecision Support Systems, Vol. 43. 192–198. [6] Ruediger Glott, Philipp Schmidt, andRishab Ghosh. 2010. Wikipedia survey – overview of results. Technical Report.United Nations University MERIT. [7] Theodore Groves. 1973. Incentives in Teams.Econometrica 41(4) (1973), 617–631. [8] Tobias Grubenmann, Abraham Bernstein,Dmitry Moor, and Sven Seuken. 2017. Challenges of source selection in the WoD. InProceedings of the International Semantic Web Conference ISWC ’17. [9] TobiasGrubenmann, Abraham Bernstein, Dmitry Moor, and Sven Seuken. 2018. Financingthe Web of Data with Delayed-Answer Auctions. In WWW 2018: The 2018 WebConference. [10] Tobias Grubenmann, Daniele Dell’Aglio, Abraham Bernstein,Dmitry Moor, and Sven Seuken. 2017. Decentralizing the Semantic Web: Who willpay to realize it?. In Proceedings of the Workshop on Decentralizing the SemanticWeb (DeSemWeb). http://ceur-ws.org/Vol-1934/contribution-01.pdf [11] SteveHarris and Andy Seaborne. 2013. SPARQL 1.1 Query Language. https://www.w3.org/TR/sparql11-query/. (March 2013). [12] Paraschos Koutris, PrasangUpadhyaya, Magdalena Balazinska, Bill Howe, and Dan Suciu. 2013. Toward PracticalQuery Pricing with QueryMarket. In Proceed- ings of the 2013 ACM SIGMODInternational Conference on Management of Data. 613–624. [13] Dmitry Moor,Tobias Grubenmann, Sven Seuken, and Abraham Bernstein. 2015. A Double Auctionfor Querying the Web of Data. In The Third Conference on Auctions, MarketMechanisms and Their Applications. [14] Michael Schmidt, Olaf Görlitz, Peter Haase,Günter Ladwig, Andreas Schwarte, and Thanh Tran. 2011. FedBench: A BenchmarkSuite for Federated Semantic Data Query Processing. International Semantic WebConference (2011), 585–600. [15] Andreas Schwarte, Peter Haase, Katja Hose, RalfSchenkel, and Michael Schmidt. 2011. FedX: Optimization Techniques for FederatedQuery Processing on Linked Data. In International Semantic Web Conference (1).601–616. [16] William Vickrey. 1961. Counterspeculation, Auctions, and CompetitiveSealed Tenders. The Journal of Finance 16(1) (1961), 8–37. [17] Xiang Wang,Zhenzhe Zheng, Fan Wu, Xiaoju Dong, Shaojie Tang, and Guihai Chen. 2016.Strategy-proof data auctions with negative externalities. In Proceed- ings of theInternational Conference on Autonomous Agents Multiagent Systems (AAMAS).1269–1270. [18] Christopher A. Wilkens, Ruggiero Cavallo, and Rad Niazadeh. 2017.GSP – The Cinderella of Mechanism Design. In WWW ’17 Proceedings of the 26thInterna- tional Conference on World Wide Web. 25–32. [19] Mengia Zollinger,Cosmin Basca, and Abraham Bernstein. 2013. Market-based SPARQL Brokerage withMaTriX: Towards a Mechanism for Economic Welfare Growth and Incentives for FreeData Provision in the Web of Data. Technical Report IFI-2013.4.02018年4月23日至27日，法国里昂举办的WWW 2018博士生培训

下载后可阅读完整内容，剩余1页未读，立即下载