没有合适的资源?快使用搜索试试~ 我知道了~
Table 1: DIG project-level details, including funding and col-laborations.Pedro Szekely (USC Information SciencesInstitute)Columbia University, Inferlink Corp.,Next Century Corp.Project VolumeUS Defense Advanced Research ProjectsAgency (DARPA) under the Memex pro-gram and Air Force Research Laboratoryand sharing information, so users can quickly and thoroughly orga-nize and search subsets of information relevant to their individualinterests. The technologies developed in the program would pro-vide the mechanisms for improved content discovery, informationextraction, information retrieval, user collaboration and other keysearch functions.One of the projects funded under the Memex program is theDomain-specific Insight Graph (DIG) project, led by the USC In-formation Sciences Institute. To address the challenges posed byMemex, DIG uses a knowledge graph-centric approach. In recentyears, knowledge graphs have emerged as powerful platforms bothin search and the general Artificial Intelligence community (es-pecially, Semantic Web and Natural Language Processing). DIGadvances the state-of-the-art both in using and in representingknowledge graphs for search and analytics. Over three years ofresearch, DIG has emerged as a single extensible ecosystem thataddresses many of the challenges of Memex, and is now widelyin use by many real-world agencies for fighting problems such ashuman trafficking with the use of technology (Section 2). DIG canbe set up and used by people with no programming abilities, animportant strength in an era when systems continue to becomeever more complex and opaque. DIG is available on GitHub as anopen-source project1 under a permissive MIT license.Some other project-level details are listed in Table 1. Notably,the project involved both academic and industrial partners, and inaddition to the formal collaborations listed in the table, informalcollaborations with other teams funded under Memex were alsoroutinely undertaken over the life of the program. For example,the Ache crawler, developed by a research team from New YorkUniversity, is included in the DIG ecosystem for those who want totruly start from scratch i.e. data collection.1https://github.com/usc-isi-i2/dig-etl-engineTrack: International Project WWW 2018, April 23-27, 2018, Lyon, France4330领域特定洞察图(DIG)0Pedro SzekelyUSC信息科学研究所加利福尼亚州马里纳德尔雷,pszekely@isi.edu0Mayank KejriwalUSC信息科学研究所加利福尼亚州马里纳德尔雷,kejriwal@isi.edu0摘要0DARPAMemex计划的目标是资助建立领域特定搜索系统的研究,该系统集成了最先进的专注爬行(“领域发现”),信息提取和语义搜索,并且可以由没有编程或技术经验的用户和领域专家使用。领域特定洞察图(DIG)是在Memex下提出并获得资助的,并且已经发展成为一个端到端的搜索系统,目前被200多个执法机构用于打击人类贩卖,被美国证券交易委员会(SEC)的调查人员用于调查证券欺诈,以及其他许多困难、具有社会影响力(例如调查)和不寻常性质的领域。0CCS概念0• 信息系统 →万维网;用户和交互式检索;环境特定检索;信息系统应用;0关键词0领域特定搜索,知识图谱,人类贩卖,调查搜索,动态信息检索0ACM参考格式:Pedro Szekely和MayankKejriwal。2018年。领域特定洞察图(DIG)。在《2018年Web会议论文集(WWW2018)》中。ACM,纽约,纽约,美国,2页。https://doi.org/10.1145/3184558.318598301 引言0当今的网络搜索使用集中式方法,使用一套适用于所有查询的工具搜索互联网。尽管它在商业上取得了广泛的成功,但对于许多用例,特别是在政府、国防和社会系统中,它并不起作用。例如,当今的网络搜索仍然是一个主要是手动的过程,不保存会话,需要几乎精确的输入,一次只能输入一个,而且不会组织或聚合结果,只是一个链接列表。此外,常见的搜索方法无法获取深层网络(标准商业搜索引擎未索引的网络部分)中的信息,并忽略页面间的共享内容。DARPAMemex计划的目标是将在线搜索能力推进到远远超越现有技术水平的地步。目标是发明更好的与信息互动的方法,以便用户可以快速而彻底地组织和搜索与他们个人兴趣相关的信息子集。该计划开发的技术将为改进内容发现、信息提取、信息检索、用户协作和其他关键搜索功能提供机制。在Memex计划下资助的项目之一是由USC信息科学研究所领导的领域特定洞察图(DIG)项目。为了应对Memex提出的挑战,DIG采用了以知识图为中心的方法。近年来,知识图谱在搜索和通用人工智能社区(特别是语义Web和自然语言处理)中已经成为强大的平台。DIG在使用和表示知识图谱方面推动了技术的发展。经过三年的研究,DIG已经发展成为一个单一的可扩展生态系统,解决了Memex的许多挑战,并且现在被许多真实世界的机构广泛使用,用于利用技术解决人类贩卖等问题(第2节)。DIG可以由没有编程能力的人设置和使用,这是一个重要的优势,因为在系统变得越来越复杂和晦涩的时代,人们继续变得越来越复杂和晦涩。DIG在GitHub上作为一个开源项目1提供,采用宽松的MIT许可证。表1列出了一些其他项目级别的细节。值得注意的是,该项目既涉及学术合作伙伴,也涉及工业合作伙伴,并且除了表中列出的正式合作之外,在该计划的整个生命周期中还经常与Memex资助的其他团队进行非正式合作。例如,由纽约大学的一个研究团队开发的Ache爬虫被包含在DIG生态系统中,供那些真正想从头开始即数据收集的人使用。0本论文发表在知识共享署名4.0国际(CC BY4.0)许可下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31859830首席研究员0合作组织0持续时间 3年(2014-2017)0资助机构0官方网站 http://dig.isi.edu2SIGNIFICANCE AND IMPACT2.1Research Outputs2.2Outreach Outputs3TIMELINE2http://usc-isi-i2.github.io/home/#workshops3http://usc-isi-i2.github.io/home/#tutorials4https://chi2018.acm.org/authors/case-studies/5http://datadaytexas.com/2018/sessions#kejriwalpartner (Next Century Corporation). The second year (2015-2016)was spent on building an advanced search engine for the noisyknowledge graphs ingested by DIG. Throughout this period, theprimary domain that DIG was being tested on was the human traf-ficking domain, due to both the technical difficulties entailed bythe domain, as well as its potential for real-world impact. In thefinal year (2016-2017), the different strands of research in DIG werepackaged into a final system called myDIG that allows users toconstruct domain-specific knowledge graphs in arbitrary domains.myDIG was evaluated by investigative users in multiple domainsthroughout 2017, and a final ‘packathon’ testing the capabilitiesof the system recently concluded, with successful results, in thefirst week of November 2017 (when the Memex program officiallyconcluded).4340Memex资助的研究,包括DIG和其他研究人员的成果,已经实现了搜索技术的民主化,因为它允许没有编程经验的用户构建领域特定的搜索引擎,这通常需要相当大的技术专长。用户可以在统一框架下设置自己的信息提取器、搜索引擎、专注爬虫甚至定制的用户界面。该软件是开源的,并且已经被用于建立第一个由执法部门和其他资源匮乏的机构积极使用的搜索引擎。在人口贩卖领域,Memex工具已经导致了美国的最新起诉,并正在永久过渡到州地区检察官。DIG在过去的三年里也产生了重要的研究成果,除了在顶级学术会议和工业场合进行的教程、演讲和演示之外,还进行了研究推广。0DIG在三年的时间里产生了15多篇同行评审的出版物,一些例子包括[9],[10],[6],[8],[5],[2],[4],[3],[1],还有更多的正在审查中,至少有一个数据集资源[7]。两篇论文获得了最佳论文奖[9],[10]。更广泛地说,我们的经验促使我们撰写了一本关于知识图谱的研究生教科书,将于今年晚些时候由MITPress出版。DIG支持了许多硕士学生的招聘和指导,并且在至少两名博士生的支持下起到了重要作用。此外,DIG下进行的研究也对计算机科学以外的领域产生了影响。例如,与社会科学家合作,我们正在使用backpage.com网页构建和可视化美国性工作者的社交网络,以更好地了解这个领域。0除了研究论文和系统之外,我们还组织了2个研讨会,并在搜索和知识图谱等领域进行了几次跨学科教程,包括在国际语义网会议或ISWC(2017年),ACMKDD会议(2017年),Web会议(2018年)和AAAI会议(2018年)等顶级会议上。我们还在ISWC 2017和最近的AAAI2018上展示了DIG系统,该系统被提名为最佳演示奖。我们在CHI2018上以案例研究和视频的形式提出了调查搜索的问题。最后,我们在工业场合,包括Data Day Texas5,一个于2018年1月在德克萨斯州奥斯汀市举办的700多人的工业活动上,将DIG作为一个AI for social good系统进行了演示。0DIG图形用户界面(GUI)和DIG中的早期信息提取模块已经在2014年的项目开始几个月内与我们的用户界面合作构建完成。第二年(2015-2016)花费在为DIG摄入的嘈杂知识图构建一个先进的搜索引擎上。在这个时期,DIG被测试的主要领域是人口贩卖领域,这是由于该领域的技术困难以及其潜在的现实影响。在最后一年(2016-2017),DIG的不同研究方向被打包成一个名为myDIG的最终系统,允许用户在任意领域构建特定领域的知识图。myDIG在2017年的多个领域中得到了调查用户的评估,并且在2017年11月的第一周(Memex计划正式结束时)进行了最终的系统能力测试,取得了成功的结果。04 结论和未来工作0域特定洞察图(DIG)项目是在DARPAMemex计划的资助下,为解决领域特定搜索中的重要挑战而创建的。DIG成功地展示了良好使用Web技术,特别是从Web数据构建知识图谱,可以用于解决许多挑战。最近,DIG还被用于社会科学,并通过其他项目的支持不断扩大范围和能力。DIG现在用于支持的一些用例包括因果探索、涉及时间序列的搜索和推理、地缘政治预测的研究支持以及多模态知识图谱。我们将继续维护该项目,并致力于保持其免费、开源和易于使用。0参考文献0[1] Kyle Hundman, Thamme Gowda, Mayank Kejriwal和Benedikt Boecking. 2017.Always Lurking: Understanding and Mitigating Bias in Online Human TraffickingDetection. arXiv预印本arXiv:1712.00846(2017)。[2] Rahul Kapoor, MayankKejriwal和Pedro Szekely. 2017.使用上下文和约束改进人口贩卖网页的地理标记。在第四届国际ACM管理和挖掘丰富的地理空间数据研讨会上。ACM,3。[3] Mayank Kejriwal, Jiayuan Ding, Runqi Shao, AnoopKumar和Pedro Szekely. 2017. FlagIt:一种用于最小监督人口贩卖指标挖掘的系统。arXiv预印本arXiv:1712.03086(2017)。[4]Mayank Kejriwal和Pedro Szekely. 2017.在非法网络领域中的信息提取。在第26届国际万维网会议上。国际万维网会议指导委员会,997-1006。[5] Mayank Kejriwal和Pedro Szekely. 2017.用于人口贩卖领域的调查搜索引擎。在国际语义Web会议上。Springer,247-262。[6]Mayank Kejriwal和Pedro Szekely. 2017. 用于社会公益的知识图谱:人口贩卖领域的实体中心搜索引擎。IEEE大数据交易(2017)。[7] Mayank Kejriwal和PedroSzekely. 2017.用于人口贩卖领域的神经嵌入。在国际语义Web会议上。Springer,139-146。[8]Mayank Kejriwal, Pedro Szekely和Craig Knoblock. 2018.用于打击非法活动的调查知识发现。IEEE智能系统(2018)。[9] Pedro Szekely, Craig AKnoblock, Jason Slepicka, Andrew Philpot, Amandeep Singh, Chengye Yin, DipsyKapoor, Prem Natarajan, Daniel Marcu, Kevin Knight等。2015.构建和使用知识图谱来打击人口贩卖。在国际语义Web会议上。Springer,205-221。[10]Linhong Zhu, Majid Ghasemi-Gol, Pedro Szekely, Aram Galstyan和Craig A Knoblock.2016. 多类型图上的无监督实体解析。在国际语义Web会议上。Springer,649-667。0会议: 国际项目WWW 2018,2018年4月23日至27日,法国里昂
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功