合作投资平台中专家价值和错误信息的分析

191 浏览量更新于2023-12-04 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+Ⓧ合作投资平台中的价值和错误信息王天一，清华大学和加州大学圣巴巴拉GANG WANG，加州大学圣巴巴拉分校和弗吉尼亚理工大学BOLUN WANG，DIVYA SAMBASIVAN，ZENGBIN ZHANG，加州大学圣巴巴拉分校XING LI，清华大学郑海涛，本.加州大学圣巴巴拉分校在众包系统中，通常很难将高能力的“专家”与普通工人分开这对于需要广泛领域知识的挑战应用程序领域尤其如此。股票分析问题就是这样一个领域，即使是高薪，受过良好教育的领域专家也容易犯错误。作为一个极具挑战性的问题空间，许多众包应用程序所依赖的在这篇文章中，我们研究了在SeekingAlpha和StockTwits的背景下评估和识别专家的问题，这两个众包投资服务最近开始侵占由大型投资银行主导了几十年我们试图通过实证分析SeekingAlpha文章（9年）和StockTwits消息（4年）的完整数据集，了解内容对合作投资平台的质量和影响我们开发情绪分析工具，并将贡献的内容与相关股票的历史表现相关联。虽然SeekingAlpha文章和StockTwits消息提供了最小的相关性，以股票表现的总和，一个子集的专家贡献更有价值的（预测）的内容。我们发现，这些作者可以很容易地通过用户交互来识别，基于他们的分析的投资显著优于更广泛的市场。这有效地表明，即使在具有挑战性的应用领域，也存在次要或间接的群众智慧。最后，我们进行了一项用户调查，揭示了用户胎动我们还致力于通过检测控制多个身份的作者来识别潜在的股票操纵类别和主题描述符：H.3.5 [信息存储和检索]：在线信息服务; J.4 [计算机应用]：社会和行为科学通用术语：测量、管理、设计其他关键词和短语：众包，股票市场，情绪分析本文的第一个版本发表在第18届ACM计算机支持的协作工作和社会计算会议（CSCW 2015）的会议记录中[Wang et al. 2015]。本版本扩展了原始版本，包括第10节（1.5页）、第11节（4.5页）以及第8.3节（1.5页）中此外，本文还提供了一个运行该算法的实时演示它还在文章的其余部分添加了一些更详细的解释和讨论这项工作得到了美国国家科学基金会IIS-1321083和CNS- 1224100资助、DARPA GRAPHS计划（BAA-12-01）和国务院的部分支持。本材料中表达的任何意见、发现、结论或建议均为作者的观点，不一定反映任何资助机构的观点。作者Wang和X.电子邮件：tsinghuawty@www.example.com，xing@cernet.edu.cn; T. gmail.comWang，G.王湾，澳 - 地 Wang ，中国山杨 D.Sambasivan ， Z.Zhang ， H.Zheng 和 B.Y. Zhao ， Computer ScienceDepartment，UC Santa Barbara，Santa Barbara，CA 93106; email：{tianyi，gangw，bolunwang，divya_sambasivan，zengbin，htzheng，ravenben}@ cs.ucsb.edu.允许制作部分或全部本作品的数字或硬拷贝供个人或课堂使用，不收取任何费用，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页或显示器的初始屏幕上显示此通知以及完整的引用。本作品的版权归ACM以外的其他人所有，必须予以尊重。允许使用学分进行摘要复制，再版，张贴在服务器上，再分发到列表，或在其他作品中使用本作品的任何组成部分，需要事先特定的许可和/或费用。可向出版部索取，ACM，Inc.2 Penn Plaza ， Suite 701 ， New York ， NY 10121-0701 USA ，传真： 1 （ 212 ） 869-0481 ，或permissions@acm.org。c 2017 ACM 1559-1131/2017/05-ART8 $15.00DOI：http://dx.doi.org/10.1145/3027487ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月8八T. Wang等人ACM参考格式：Tianyi Wang ， Gang Wang ， Bolun Wang ， Divya Sambasivan ， Zengbin Zhang ， Xing Li ， HaitaoZheng，and Ben Y.赵2017.合作投资平台的价值和错误信息。ACM Trans. Web 11，2，Article 8（May2017），32 pages.DOI：http://dx.doi.org/10.1145/30274871. 介绍在互联网时代，“群众智慧”现象已经彻底改变了内容的生成、发现和管理。用户贡献的内容现在主宰着餐厅视图（ Yelp ）、旅游和酒店（ TripAdvisor ）、百科全书（Wikipedia）、一般问答（Quora、Yahoo Answers），甚至摄影（Flickr）。即使内容在这些平台上激增，内容策展（例如，识别高质量内容和生成此类内容的2013年a]。这个问题在快速增长的合作投资分析领域（即，对股票、债券和商品的价值和投资策略的用户贡献分析）。150多年来，个人投资建议一直是高盛和雷曼兄弟等投资银行和财富顾问的专属领域然而，在过去的十年里，CNBC和彭博社等网络填补空白的是快速增长的服务，如SeekingAlpha和StockTwits，独立分析师和散户投资者可以免费贡献和分享分析SeekingAlpha现在报告超过300万用户和900万每月独立访问。这代表了美国投资市场的重要组成部分，估计超过5000万家庭拥有共同基金或股票[投资2013]。在本文中，我们试图了解在合作投资平台上共享的分析的质量和影响，以及如何将高质量的分析与偏见或不知情的意见区分开来。我们针对两个主要但截然不同的社交投资平台，SeekingAlpha和StockTwits，并根据他们的建议与市场基准，标准普尔500股票市场指数，分析投资回报的潜力。我们试图了解贡献者的专业知识如何影响贡献内容的质量和实用性，使用SeekingAlpha作为“专家”模型（所有内容由不到0.27%的用户贡献）和StockTwits作为“同行”模型（任何用户都我们的工作有三个目标。首先，我们评估这些平台的内容质量，以确定这些合作平台为个人投资者提供了多少价值（如果有的话）其次，我们比较了基于“专家”模式和基于“同行”模式的两个平台，以探索构建合作社会投资系统的设计原则和经验教训。最后，我们的目标是评估技术，以确定最有效我们将我们的贡献总结如下。首先，我们从两个平台开始收集纵向数据集（SeekingAlpha 9年，StockTwits 4年我们在每个数据集上开发情感分析器，使用关键字处理和机器学习分类器的混合验证表明，我们的方法在提取对个股的情绪方面具有很高的准确性（SeekingAlpha为85.5%，StockTwits为76.2%）。其次，我们分析了在不同的时间尺度上，这两种服务的内容情感与股票回报之间的相关性。我们发现，从SeekingAl- pha和StockTwits的内容提供了最小的前向相关性与股票表现。ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八虽然一般的文章提供的价值不大，但我们发现SeekingAlpha中的一部分第三，我们评估了简单投资策略的假设表现，这些投资策略都是来自两个平台的顶级作者。我们发现，基于顶级SeekingAlpha作者的情绪的策略表现非常好，并且明显优于大盘。更重要的是，我们表明，这些专家可以很容易地确定没有历史股票市场数据，只使用用户与他们的文章互动这表明为用户设计一个第四，我们对SeekingAlpha用户和贡献者进行调查，以了解他们对SeekingAlpha服务的使用、依赖和信任结果表明，尽管看到了潜在的故意误导或操纵的文章，大多数用户仍然严重依赖网站内容的投资建议。大多数人认为SeekingAlpha是独一无二的，在没有它的情况下不会使用竞争性的替代品。最后，为了进一步净化SeekingAlpha内容，我们探索了一种新的方法（即，stylometry分析），以识别串通发布操纵文章的Sybil帐户。关键的直觉是，由同一攻击者控制的多个Sybil帐户应该表现出异常相似的写作风格。我们的方法在地面实况数据上产生了有希望的结果，并发现了新的可疑作者。最近一篇发表在金融期刊上的文章也研究了SeekingAlpha，并显示了其内容与收益惊喜之间的统计相关性 [Chen 等人， 2014] 。相比之下，我们的工作对比了专家（SeekingAlpha）与基于同行（StockTwits）的系统的性能，评估了现实和简单的交易策略的性能，并通过详细的调查报告了用户对SeekingAlpha的看法。我们还实现了一个网站1来实时运行我们的算法。在网站上，我们提供了一个工具来查询股票的情绪，并提出了我们的交易策略的现场模拟我们的策略运行良好，在实时挖掘数据时表现优于市场。总之，协作投资分析的兴起显著改变了散户投资者管理投资的方式。我们的分析表明，即使在像SeekingAlpha这样的热门网站上，大多数文章也不能很好地反映市场表现。然而，SeekingAlpha作者的一个子集提供了有价值的内容，可以用来建立交易策略，显着优于更广泛的市场。更重要的是，这些作者不仅可以通过他们的统计表现来识别，还可以更容易地通过他们的文章从其他用户那里产生的反馈来识别。这表明，即使对于股票交易这样复杂的特定领域问题，来自人群的更广泛的输入也有助于在海量数据中识别高质量的内容。最后，我们的用户调查结果证实，大多数SeekingAlpha用户已经看到并学会了区分有偏见或操纵性的文章和有用的文章。此外，像样式分析这样的自动化工具可以用于此类平台以识别共谋操纵贡献者。2. 背景：SEEKINGALPHA和STOCKTWITS寻找阿尔法。SeekingAlpha（SA）于2004年推出，是当今最受欢迎的独立股票分析平台。截至2014年初，SA拥有超过800万独立月观众和300万注册用户[Tweney 2013]。SA用户可以订阅感兴趣的股票以接收相关文章和新闻摘要，1http://hotcrp.cs.ucsb.edu:88/。ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月八T. Wang等人关注贡献者以接收他们的文章，并通过对文章的评论与贡献者和其他用户互动。SA贡献者包括独立投资者，投资组合经理，专业投资者和投资公司。在8,000名贡献者中，大约有400人自称是投资公司。SA支付每个贡献者10美元每1,000页的文章浏览量。斯托克特维茨。StockTwits（ST）成立于2009年，是一个在交易者之间分享想法的金融社交网络。StockTwits上的任何人都可以贡献内容--短消息限制在140个字符以内，涵盖特定投资的想法--并将他们的消息发布到所有人都能看到的公共流中没有编辑委员会或内容策展，用户也不会因为他们的信息而与Twitter一样，ST用户关注他人建立定向社交链接，也关注他们感兴趣的股票代码。与SeekingAlpha不同，StockTwits提供投资者对个股情绪的实时流媒体。截至2013年底，StockTwits拥有30万注册用户，其内容在互联网上达到4000万观众[StockTwits 2014]。3. 方法Seeking Alpha和StockTwits代表了基于专家和同行的投资分析中最大和最具代表性的网站。在这项研究中，我们试图量化用户贡献的投资分析中的情绪与股票实际走势之间的关系，如何以及是否可以利用这种相关性来获得投资收益，以及用户如何在投资中查看和利用SeekingAlpha等平台我们的方法如下：- 首先，我们从SeekingAlpha和StockTwits收集完整的贡献文章数据集然后，我们为这两个数据集开发情感分析器，并评估其准确性。第二，我们计算贡献内容的情绪与他们讨论的股票表现之间的统计相关性我们对不同的时间尺度、个股和综合市场都这样做。我们还根据作者的表现对他们进行排序，以确定其内容始终与股票表现相关的作者。- 第三，我们提出了利用两个平台的顶级作者的情绪来识别和交易股票的策略，并根据基线市场指数对其进行评估我们探索的有效性的战略，确定顶级作者的历史表现和与其他用户的互动。最后，我们对SeekingAlpha用户和贡献者进行了一次大型用户调查，以了解他们如何利用社交投资平台以及他们对股票操纵的看法。过去在SA上发现了股票“泵和转储”骗局[Feuerstein 2014; Kimelman 2014]。然后我们探索技术（例如，stylometry分析），以确定参与股票操纵的Sybil作者。4. 数据收集寻找阿尔法2014年4月，我们抓取了自2004年推出以来在SeekingAlpha上发布这产生了由8，783名作者撰写的410，290篇文章和2，237份新闻和会议记录（记录涵盖董事会会议和电话会议）。我们的分析侧重于文章，不包括SA“市场趋势”或成绩单形式的新闻我们的抓取还产生了4，115，719条评论，其中75%是由227，641名非贡献用户撰写的剩下的25%来自作者自己。我们抓取所有作者和活跃用户的个人资料，以获取他们的简介以及追随者和追随者的数量。ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八Fig. 1.从SA和ST提取的股票代码。图二.没有历史价格的符号分解。每一篇SeekingAlpha文章都有一个“关于”字段，列出了文章讨论的股票;我们的文章中有163，410篇（约40%）在其关于字段中至少有一个股票代码。没有股票代码的文章通常讨论整体市场趋势或股票板块。从SeekingAlpha文章的整个数据集中，我们能够提取10，400个独特的股票代码。斯托克特维茨。我们很幸运地得到了StockTwits Inc.的许可。访问其历史邮件存档，包括从2009年（首次发布）到2014年2月发布的所有邮件该数据集包含86，497名用户发布的12，740，423条消息每个消息包括一个消息ID、作者每条消息限制为140个字符，股票代码前面有一个在我们的数据集中，大约67%的StockTwits消息至少有一个CashTag。从这些消息中，我们提取了9，315个独特的股票代码。StockTwits消息也可以被作者标记为10%的邮件（130万）具有此标签。我们稍后使用这些标记的消息作为基础事实来构建和评估情感分析工具。情绪分析工具用于提取作者对所讨论股票的意见。更多细节可以在第6节中找到。股票历史价格数据。我们的两个数据集共包含13，551个独特的股票代码。来自两个网站的符号并不完全重叠（图1）：6，164个符号出现在两个数据集中，大多数代表纳斯达克和纽约证券交易所的股票。SeekingAlpha-only符号（4，236）主要是在场外交易公告板（OTCBB）上出售的小型股票，而StockTwits-only符号（3，151）主要来自多伦多证券交易所。我们使用Yahoo！Finance open API [Yahoo2014]抓取所有股票代码的历史价格。对于每只股票，我们获得其历史每日开盘价和收盘在我们的13,551个符号中，我们找到了10,273个符号的数据。我们使用Yahoo Finance和Bloomberg追踪了3，278个缺失的符号（见图2）。首先，2，579个缺失符号失效（即，由于公司解体、合并/收购或破产而使符号第二，125只股票是活跃股票，要么是外汇交易所的股票，要么是雅虎没有覆盖的场外交易股票。第三，158个符号是ETF或共同基金，期货合约和货币。最后，我们手动检查剩余的416个符号，发现它们通常是用户定义的符号，例如$CRASH或$QUORA等非上市公司。缺失符号占SeekingAlpha文章的7%和StockTwits消息的6%;因此，我们认为这不会影响我们的整体结论。我们在表I中总结了我们分析中使用的最终数据集。ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月八T. Wang等人表I.收集数据的基本统计网站以来的数据发贴总数员额（含库存）活跃用户（作者）覆盖股票SeekingAlpha2004410K163K228K（8783）10.4KStockTwits200912.7M8.5M86K（86K）9.3K图三. 一段时间内的作者和活跃用户总数。活跃用户的数量只是所有注册用户的一小部分。见图4。文章在作者和个人股票上的分布。5. 初步数据分析在这里，我们简要分析了我们的数据集，以了解这两个系统中用户社区和内容的结构这两种制度完全不同。SeekingAlpha专注于由一小群“专家”提供的详细的、类似博客的贡献，这些贡献相比之下，StockTwits鼓励所有用户做出简短的贡献。我们比较和对比了平台随时间的增长，作者贡献的倾斜以及所覆盖股票的分布。用户增长。图 3 显示了两个系统的用户随时间的增长情况。回想一下，我们的SeekingAlpha数据包括所有对至少一篇文章做出贡献或评论的用户。在这两个网站上，活跃用户都在以稳定的速度增长，但只占所有注册账户的一小部分（236,000个活跃账户对340万个SeekingAlpha账户，86,000个活跃账户对340万个SeekingAlpha账户）。300K帐户的股票Twits）。内容在作者和股票上的分布。作者对于SeekingAlpha和StockTwits，我们发现每个作者的贡献是高度倾斜的（图4（a））。在SeekingAlpha上，20%最活跃的用户贡献了80%的文章，而在StockTwits上，20%的活跃用户贡献了90%的消息。尽管StockTwits试图利用人群的力量，但它在ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八（N）是句子1中肯定（否定）词或短语的数量Ni图五.不同市值类别的职位/股票百分比。内容贡献比SeekingAlpha。这让人担心，大众的智慧可能会被最活跃的作者所主导。这两个网站上发布的内容也高度偏向于一小部分“热门”股票（图4（b））。超过70%的SeekingAlpha文章覆盖了前10%最受欢迎的股票。在StockTwits中，这种偏差甚至更大，90%的消息集中在10%最受欢迎的股票上。图 5 显示了文章对大市值公司的高度重视： 47% 的 SeekingAlpha 文章和 28% 的StockTwits消息覆盖了市值在100亿美元到2000亿美元之间的公司股票，这只占所有股票的14%。对于最大的公司（市值>2000亿美元），重点更为突出它们只占所有股票的0.3%，但在两个平台上都覆盖了10%到15%的内容。6. 情感提取我们对用户贡献的投资分析价值的分析取决于我们对SeekingAlpha文章和StockTwits消息中情绪的这个过程的第一步是开发可靠的工具，从发布的文章和消息中提取对股票的情绪（积极或我们在这里讨论我们的情绪分析技术，并在后面的章节中依靠它们来计算股票表现的相关性和驱动交易策略。我们从SeekingAlpha和StockTwits中提取情感的方法是完全不同的。更具体地说，SeekingAlpha文章足够长，可以使用关键字字典应用方法，而我们对StockTwits中的短消息应用了监督机器学习方法，使用带有“看涨”或“看跌”标签的消息我们的验证结果表明，我们实现了85.5%的准确率为SeekingAlpha和76.2%的StockTwits。我们注意到，这些准确性结果与现有的情感分析技术相当（情感强度，0.815）或明显优于现有的情感分析技术（例如，Sentic-Net，0.590和幸福指数，0.639）[Chen et al.2014年;Goncalve等。2013年]。6.1. 情绪分析：寻找阿尔法我们开发了一种基于字典的方法来提取情感SeekingAlpha arti- cles。在高层次上，我们根据文章中积极和消极关键词的比例来衡量作者的情绪（对股票）我们依靠广泛使用的金融情绪词典[Loughran and McDonald 2011]来识别文章中的积极和消极关键词，并计算S=10g1+的实体评分。Pi，Pi在哪里我I.了这种情绪分数是一个十进制值，高正值表示强烈和积极的感觉，时间，反之亦然。例如，一个非常积极的文章有100个积极的ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月八T. Wang等人−−一个词和0个负面词得到4.6分;一个非常负面的文章有100个负面词得到4.6分。然而，将该方法简单地应用于SeekingAlpha arti- cles存在问题首先，许多文章讨论多个股票，并且对于每个讨论的股票，情绪可能完全为所有股票生成一个情绪评分显然过于简单化了。其次，简单的关键字计数很容易出错。例如，“低风险”包含负面关键字“风险”，但整体情绪是积极的此外，否定通常会改变词语的情感，例如我们对我们的方法进行了一些改进，以应对这些挑战。首先，我们划分多股票文章，并为每个股票代码分配单独的句子（股票代码很容易被识别为每篇文章中的超链接）。我们的方法是一个简单的基于距离的切片：我们将股票符号（和公司名称）视为地标，并将每个句子分配给文章中最接近的地标。由于一个句子包含多个股票的情况很少见，因此我们不将它们包括在我们的分析中以避免错误。接下来，我们对基本关键字计数进行两项调整。首先，我们识别名词短语的情绪，如我们提取出现在超过1%的文章中的频繁名词短语第二，我们扭转了受否定词影响的词或短语的情感[Pang et al. 2002年]。为了验证我们的方法，我们从我们的文章集合中抽取了300篇文章，并人工将其情绪标记为积极或消极。我们有三个研究生阅读每篇文章并投票选出最终的标签。然后我们在这些文章上运行我们的情感提取方法来生成情感分数。实验结果表明，该方法的准确率达到85.5%。请注意，这种准确性只考虑分数的极性，即一篇文章是正面还是负面。该准确度与先前的论文中的实体分析相当[Goncalvesetal. 2013年]。在我们的进一步分析中，我们将汇总对同一股票的文章的情绪（观点）。在这种情况下，整合的情感将实现更高的准确性[Sheng et al.2008年]。6.2. 情绪分析：StockTwits大约10%的StockTwits消息已经有了情绪标签，要么是“看涨”，要么是“看跌”。我们的目标是为剩下的90%提取情感。我们选择使用有监督的机器学习，因为消息对于基于字典的方法来说太短[Goncalve setal. 2013年]。实验结果也证实了这一点，基于词典的方法对StockTwits的识别准确率仅为16.2%。为了构建一个机器学习分类器，我们遵循先前的工作[Pang和Lee2008]来使用unigrams的存在（即，独特的词）作为特征。为了减少机器学习模型中的噪声，我们排除了所有消息中出现少于300次的不频繁的单字，并从消息中删除停用词，股票代码和公司名称。我们使用地面实况消息作为训练数据，并根据经验测试多个机器学习模型，包括朴素贝叶斯，支持向量机（SVM）和决策树。我们随机抽取了5万条标记为“看跌”和5万条标记为“看涨”的消息我们发现SVM模型产生最高的准确率（76.2%），并使用SVM来构建最终的分类器。StockTwits消息的情绪得分是二进制的：1表示积极情绪，1表示消极情绪。对于具有多个符号的罕见消息（5%），我们将相同的情感得分归因于消息中的所有符号（消息太短而无法切片）。7. 预测股票价格变动使用我们的情绪分析工具，我们现在可以量化SeekingAlpha和StockTwits内容的价值，通过测量它们的情绪之间的统计相关性，ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八−−−−σXσY图第六章文章情绪与近期股价走势（1、7、30天）的皮尔逊相关系数对个别股票和每只股票我们的目标是研究内容发布后不同时间段的这种相关性，对于两个平台和不同的历史时期（以解释股票市场的牛/熊周期）。7.1. 每篇文章情绪与股票表现我们首先研究每篇文章如何预测其所讨论的股票的未来价格趋势我们计算一篇文章的情绪（正面或负面）与股票未来价格变化之间的皮尔逊相关系数[Pearson1895]。为了简单起见，我们忽略了价格波动的幅度和情绪的强度，并将这两个指标减少到二进制（正/负）值。皮尔逊相关系数被广泛用于衡量两个变量之间的线性相关性。2皮尔逊相关系数适用于此，因为变量是线性相关的。对于二进制值，Pearson相关性等同于phi相关性。它的值范围从1到1，其中1表示完全正相关，0表示不相关，1表示完全负相关。在此上下文中，皮尔逊系数为1，如果股票在被一篇文章正面讨论后，总是会增值的我们计算两个变量S和P之间的皮尔逊系数。如果文章的情绪是积极的（消极的），S我们研究了相关文章发表后不同时间窗口的股票价格变化，包括第二天，下周和下个月。对于具有多个股票代码的文章，我们将每个股票作为一个数据点。我们还对每年的文章进行分组，并计算每年的皮尔逊相关系数，以了解不同年份之间相关性的一致性。结果如图6所示。首先，我们观察到，两个系统在不同的时间窗口和不同的市场年份为了更好地理解皮尔逊值，考虑75%相关性的预测历史将产生0.4的皮尔逊我们的结果中最显著的相关性为0.05，这意味着预测准确率为53%，比随机猜测高3%这意味着，作为一个整体，SeekingAlpha文章和StockTwits消息为投资者提供的价值最小仔细观察，SeekingAlpha通常比随机好一点，而Stock-Twits的相关性较弱，有时是负相关。显然，StockTwits更适合作为即时市场情绪的衡量标准，甚至不能预测短期表现。相比之下，SeekingAlpha在不同的时间内更一致2对于两个变量X和Y，皮尔逊相关系数ρX，Y=E[（X−μX）（Y−μY）]，其中μX和σX为X和E的平均值和标准差就是期望值。ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月八点T. Wang等人P（d）∼P（d）==−见图7。顶级作者对2013年股票表现的相关性分析。我们考虑两组作者，基于2013年表现的顶级作者（左）和基于2012年表现的顶级作者（中）。作为参考，我们还显示了与随机情绪的相关性。Windows，对预测下个月的价格走势仍有一定价值。我们注意到，SeekingAlpha的准确性在高波动性的市场年份（2008-2009年，2011-2012年）略低鉴于个股价格的高度波动性，预测两个时间点之间的价格变化可能具有挑战性在这里，我们通过仅预测文章前后某个时间窗口内平均价格的上涨和下跌来简化指标对于一个简单的实验，我们使用2013年的数据来计算文章情绪与文章前后1周平均价格之间的我们发现相关性得分略有改善（SA为0.067，ST为0.035），但仍然非常弱的相关性。接下来的问题自然是：弱相关性在所有作者中是一致的吗？还是有作者的贡献一直能很好地预测股票表现，但却被淹没在噪音中？在这里，我们执行一个简单的测试，以确定是否存在更准确的作者。我们根据作者的文章在一年内预测股票回报的程度对作者进行排名（例如，2013年）。对于每个作者，我们测量他或她所有文章的平均假设回报率，作为一个百分比，在一个时间窗口W之后。如果P（x）是给定日x的股票收盘价，并且文章在第d天发布，则从正面文章获得的回报R为R=P（d+W）-P（d），并且负数项目的回报率是RP（d+W）−P（d）。在我们的实验中，我们将W设置为1周，并计算2013年每篇文章的平均回报率来排名作者然后，我们仔细研究了排名靠前的作者讨论的500只股票的相关性图7（a）清楚地表明，SeekingAlpha和StockTwits的顶级作者的相关性得分都非常高（约0.4）;也就是说，顶级作者可以预测一周内的股票走势，准确率为75%。实际上，我们不能使用当年的数据（例如，2013年），以确定该年度的我们只能依靠过去的表现来指导我们。因此，我们使用2012年的数据对作者进行排名，然后研究他们2013年股票推荐的表现正如预期的那样，这些作者的股票在2013年的相关性结果顶级SeekingAlpha作者显示，相关性得分在0左右。12（p 0. 004），这仍然比平均水平好得多。这证实了我们的直觉，即过滤掉请注意，这并不适用于StockTwits;也就是说，没有StockTwits作者可以在不同的时间段一致地预测股票表现StockTwits是基于同行的，用户专业知识水平低于Seeking Alpha oin平均水平，并且没有对用户帖子进行审查或审核。为了进一步验证我们的结果，我们还重复了我们的实验与随机的感觉。也就是说，我们为每篇文章分配了一个随机的情绪，而不是使用我们在第6节中计算的情绪得分。我们在图7（c）中使用随机变量绘制相关性如图所示，随机情绪给出非常弱的相关性（<0。03）。这个结果给了我们两个启示。首先，ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八点见图8。预测标准&普尔500指数使用整个网站的综合情绪与只使用情绪相关的指数500支股票。图7（b）来自作者的专业知识，而不是运气好的结果。其次，从实际应用的角度验证了本文提出的情感分类方法的准确7.2. 市场预测由于文章与个股之间的相关性较弱，我们认为所有文章的综合情绪可能是整个市场的预测指标。在这里，我们使用标准普尔500指数作为衡量整体市场表现的指标，是一个被广泛接受的市场指数，基于500家大公司的市值。我们将标准普尔500指数视为一只股票，并根据一段时间内的综合情绪进行交易。在实践中，这可以使用SPY，一个交换跟踪标准普尔500指数的交易基金（ETF）这个过程很直观：我们从持有标准普尔500指数的头寸开始。每隔K天，我们检查过去K天发布的文章的汇总情绪，并选择买入或卖出标准普尔500。在K天的窗口内的情绪是通过首先计算每天所有文章的平均情绪来计算的，然后如果净积极的天数多于净消极的天数，则将整体情绪设置为积极的如果某个窗口的情绪是负面的，我们会卖出标准普尔500指数的全部头寸（如果有的话）。如果市场情绪是积极的，如果我们没有头寸，我们就买回全部头寸，如果我们已经有头寸，我们就持有。长期业绩。我们使用SeekingAlpha（2005年1月至2014年3月）和StockTwits（2009年9月至2014年2月）的数据来模拟这种交易策略。3我们将时间窗口K设置为1周。[4]在每个数据集上，我们运行两个配置，一个使用[5]作为基准，我们对标准普尔500指数采取图8显示了一段时间内累积的总回报（按初始投资标准化）。对于SeekingAlpha（图8（a）），我们发现两种配置都优于实际的S P 500。综合情绪通常可以预测市场趋势。毫不奇怪，对指数中500只股票的情绪会产生更准确的结果。仔细观察表明，我们的策略明显优于3SeekingAlpha在2004年总共只有三篇文章。因此，我们从2005年开始进行SeekingAlpha模拟。4我们测试了K为1天/周/月，发现每周聚合产生更好的回报[Wang et al. 2015]。5标准普尔500指数的股票清单定期变化，我们在评估中相应地调整了清单ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月八点T. Wang等人2008-2010年鉴于SeekingAlpha的整体负面情绪，我们的策略没有持仓，避免了大部分市场损失。对于StockTwits（图8（b）），我们发现所有三条线完全重叠。事实上，在我们汇总了全网的情绪后，StockTwits对市场的总体看法几乎都是积极的。我们的情绪驱动交易相当于买入并持有。总之，我们的分析表明，对于SeekingAlpha和StockTwits来说，情绪与业绩的相关性都很低。然而，也有作者在他们的文章中不断提供高相关性分析。挑战在于有效地识别它们。接下来，我们将应对这一挑战，并为股票交易制定实用的情绪驱动策略，这些策略可以显著跑赢市场。8. 实用的基于情感的交易到目前为止，我们已经确定，虽然所有文章与股票表现的相关性都很低，但用户群体的某些子集贡献的内容与股票表现的相关性要强两个关键问题仍然存在。首先，这些“有价值”的作者是否第二，一旦确定，他们的内容可以分析，以形成真正的股票交易策略的基础，以及如何将这些策略执行？我们分三个部分来回答这些问题首先，我们探索了几种可能的排名算法，用于从SeekingAlpha和StockTwits中识别有价值的作者（及其分析贡献）其次，我们考虑可能的股票交易策略的基础上，这些贡献的情绪分析最后，我们使用历史股票数据来驱动这些交易策略的模拟，并使用实证结果来得出关于这些顶级作者的价值以及我们识别他们的机制的有效性的8.1. 排名作者为了识别我们系统中的顶级作者（可能很小）子集，我们探索了两组不同的分类。首先，我们考虑使用经验性的过去业绩（即，情绪和股票表现之间的相关性）作为衡量作者排名的标准。虽然这可能是按表现对作者进行排名的最直接方法，但其计算需要访问大量资源，包括过去的股票数据和情绪分析工具。其次，我们考虑一个更简单的替代方案，基于用户交互（评论）。直觉是，用户反馈和对内容的参与提供了有价值内容的良好指标。按预测准确度排名作者。我们的第一个排名启发式是纯粹的经验：我们根据作者以前的文章预测股票收益的程度对作者进行排名。对于给定的作者和历史时间段（例如，一年），我们计算他或她的文章在给定期间张贴的平均假设回报回想一下，我们在上一节中使用它作为作者预测能力的度量。这个排名指标的一个变体是作者与每篇文章指标相比，这突出了那些在一系列股票上表现一贯良好的作者，而不是那些在一小部分股票上写了大量文章的作者我们在实验中考虑了这两个指标。按收到的评论对作者进行排名。基于经验的性能指标的挑战在于，它们需要大量的历史数据和计算资源在这里，我们还考虑了基于读者参与度的更简单近似值的价值直觉是，这些系统中的观众是一个有价值的ACM Transactions on the Web，卷。号112、第8条，公布日期：2017年5月合作投资平台中的价值和错误信息八点=N资产，我们可以观察读者对贡献内容的反应，并间接推断内容的价值。更具体地说，我们使用两种排名方法，根据评论总数或每篇文章的评论对作者进行在没有对评论进行语义分析的情况下，我们使用前一时期的评论数量（例如，一年）作为用户协议的近似指标在我们的实验中，排名靠前的作者每年可以收到多达1万条评论，一篇热门文章甚至可以收到1,000多条评论。8.2. 基于情绪的股票交易策略给出顶级作者的排名，下一步是制定一个股票交易策略，利用（希望）对个股的有价值和预测性的情绪。我们的策略每年从前一年顶级作者的文章中选择一组股票进行交易（按相关性或评论排序）。为了简单起见，我们从排名靠前的作者提到的500只股票中构建了一个模拟投资组合较小的投资组合的实验显示出高度一致的结果，为了简洁起见，省略了。在交易策略方面，我们实施两个简单的策略：一个基本的对于这两种策略，我们根据早期的结果每周交易股票长期战略。我们的长期策略通过

下载后可阅读完整内容，剩余1页未读，立即下载