没有合适的资源?快使用搜索试试~ 我知道了~
软件影响7(2021)100052原始软件出版物用于构建特定领域搜索引擎的元引擎马扬克·凯杰里瓦尔地址:4676 Admiralty Way,Suite 1001,Marina del Rey,90502,CA,美国自动清洁装置保留字:特定领域搜索知识图信息提取复杂领域知识发现信息检索A B标准近年来,特定领域搜索(DomainSpecificSearch,DSS)已成为一个日益增长的重要应用研究领域人工智能(AI)和信息检索(IR)。在过去6年的研究中,我们的团队开发了一个名为myDIG(我的特定领域洞察图)的“元引擎”,它提供了一个相对简单的和可定制的工作流程,无需在爬行、信息检索或用户界面方面进行高级技术培训即可构建DSS。myDIG系统已被应用于一些重要和困难的用例(最值得注意的是,打击人口贩运),除了被研究生用于从头开始构建复杂的DSS代码元数据当前代码版本v2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2020-60可复制胶囊法律代码许可证MIT使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性系统已在Docker如果可用,链接到开发人员文档/手册https://github.com/usc-isi-i2/dig-etl-engine/blob/master/docs/index.md问题支持电子邮件在https://github.com/usc-isi-i2/dig-etl-engine/issues1. MyDIG系统尽管诸如搜索引擎和信息检索(IR)之类的术语如今与通用的、包罗万象的搜索引擎(如Google)相关联,但特定领域搜索(DSS)已成为应用人工智能(AI)中的一个重要应用领域,突出的例子包括电子商务搜索引擎(如Amazon和eBay托管的)、评论(Yelp)和学术搜索(Semantic Scholar)[1虽然这些决策支持系统的努力令人印象深刻,但它们只适合各自的领域和背景(例如,甚至例如由Amazon托管的电子商务搜索引擎不一定能被eBay使用),并且它们是封闭源的,不允许来自政府、非营利组织和较小的创业公司等资源有限的参与者为他们自己的域利用这些工具电子邮件地址:kejriwal@isi.edu。1 国防高级研究计划局。2https://www.darpa.mil/about-us/timeline/memex。3DIG是Domain-Specific Insight Graphs的缩写https://doi.org/10.1016/j.simpa.2020.100052收稿日期:2020年11月25日;接受日期:2020年DARPA1 Memex计划2是在2010年中期制定的在本文中,我们提出了高潮,成功的过渡,软件包装(和开源发布和许可)的一个端到端的DSS元系统称为myDIG3,可用于建立和定制DSS引擎为任何给定的域。myDIG系统有一个GUI,允许用户迭代地优化他们的desiderata该系统已成功应用于打击人口贩运等困难领域,并过渡到美国200多个执法机构。myDIG系统的一个成熟版本已经在MIT许可证下公开使用了一年多,我们非正式地了解到商业化的可能性。2665-9638/©2020作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsM. Kejriwal软件影响7(2021)1000522一些实体,如初创公司,也用它来建立知识图驱动的搜索引擎,只需要一两个程序员就可以建立。2. 系统摘要和影响myDIG元引擎支持以下技术,使领域专家能够构建定制的DSS系统:1. 一套IE技术,使用规则,算法和高级机器学习来自动从网页中提取各种相关的结构化属性。我们将这组相互关联的提取称为知识图(KG)。2. 索引技术,以确保快速检索的KG和网页中的文本3. 一个选项,用于保存每个已处理网页的缓存副本,以防网页在实时Web上离线(通常如此)。4. 关于哪个算法导致知识图中的哪个提取的起源数据。当存在冲突提取时,这是特别有用的,因为已知一些算法更精确,而另一些算法具有更高的召回率。5. 基于深度神经网络的计算机视觉图像和图像相似性搜索。这些算法必须能够以即插即用的方式进行集成6. 大数据架构支持新广告的流媒体摄取,而无需重新启动整个流程。在myDIG中,这是通过基于Spark的工作流来支持的。自成立之初,Memex计划就将人口贩运视为DSS技术的一个紧迫而重要的应用领域。人口贩运是一个规模确实令人震惊的问题,而且没有边界。我们在其他支持出版物中广泛描述了myDIG在人口贩运领域的应用和影响最近还发表了一项案例研究,提供了人机交互的可访问概述[ 4 ],而另一份期刊文章描述了该工具产生的影响的一些要点如下:1. 经过专门培训以侦查人口贩运案件的myDIG版本已移交给100多个执法办公室。在2017年,当它被转换时,HT KG包含了20亿+的三元组,3年多的数据覆盖率和数亿条从互联网上抓取的性广告。从它收集的证据(与其他Memex工具一起)导致美国至少有三起记录在案的人口贩运定罪42. 总体而言,作为向纽约县人口贩运应对部门推出的Memex工具套件的一部分,因人口贩运而被调查的卖淫逮捕比例从不到1%上升到62%以上;与此专家们对这些结果的广泛解释是,受害者越来越少,而对那些可能被贩运的人有更多的法律保护(包括允许贩运幸存者的条例,保护他们免受驱逐出境等政府行动的影响)。[4]一份关于此类定罪的新闻稿示例:https://www.sfgate.com/crime/article/Man-sentenced-to-97-years-in-human-trafficking-www.example.com.cn3. 包括旧金山和纽约在内的全国各地的地方检察官公开引用了Memex工具对他们工作的影响,其中myDIG是其中的一部分。除了人口贩运,myDIG还在其他试点调查领域进行了评估,即(i)证券(特别是便士股票)欺诈,(ii)非法枪支销售,(iii)通过USPS邮件的非法运输,(iv)麻醉品,以及(v)假冒电子产品。虽然每个域似乎都非常专业化,但它们具有共同的特征,这使得它们特别适合在myDIG中进行分析。除了调查领域,学生们还成功地使用我的- DIG为从化妆品到定制鸡尾酒再到足球的领域建立了搜索引擎。我们听说有多家初创企业使用它来构建或制作DSS原型,而相对较少的努力。最终,myDIG在语义Web和信息检索社区中产生了重大影响,因为它使研究人员能够相对容易地在(可能是深奥的)领域中探索搜索和分析。2018年,该系统在Web会议和AAAI上进行了演示,后者被提名为最佳演示[6,7]。在调查这些年来myDIG主要出版物收到的引文时[4,5,8该系统继续在我们团队参与的其他DARPA项目中使用,例如地缘政治预测和因果建模。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢我们衷心感谢我们的合作者和所有(前任和现任)为myDIG做出努力和贡献的团队成员,特别是在干燥和最终评估运行期间:PedroSzekely、Amandeep Singh、Linhong Zhu、Lingzhe Teng、NimeshJain 、 Rahul Kapoor 、 Muthu Rajendran R. Gurumoorthy , SanjaySingh,Majid Ghasemi Gol,Brian Amanatullah,Craig Knoblock和Steve Minton。这项研究得到了美国国防高级研究计划局(DARPA)和美国空军研究实验室(AFRL)的支持,合同号为FA 8750 - 14- C-0240。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表DARPA、AFRL或美国国防部的官方政策或认可(无论是明示还是暗示)。政府的引用[1]N. Bhatt,Domain specific search engine,2004,Google Patents,US Patent App.10/461,642。[2] K. Wöber等人,特定领域的搜索引擎,在:旅游目的地推荐-mendation Systems:Behavioral Foundations and Applications,CABInternationalCambridge,MA,2006,pp. 205-226[3] M. Kejriwal,用于调查人口贩运的特定领域搜索引擎和其他非法活动,在:犯罪活动和深网百科全书,IGI全球,2020年,第100页。478-496.[4] M. Kejriwal,P. Szekely,《技术辅助的调查性搜索:案例研究》2018 CHI Conference on Human Factors in Computing Systems(CHI计算机系统中的人为因素会议)的扩展摘要,pp.一比九[5] M. Kejriwal,P. Szekely,社会公益知识图:以实体为中心的人口贩运领域搜索引擎,IEEE Trans. 大数据(2017年)。M. Kejriwal软件影响7(2021)1000523[6] M. Kejriwal , P. Szekely , Constructing domain-specific search engines with noprogramming,AAAI。[7] P. Szekely,M. Kejriwal,特定领域的洞察图(DIG),在:2018年网络会议的配套程序,2018年,第10页。四三三四三四[8] P. Szekely,C.A.作者声明:A. Philpot,A.辛格角,澳-地Yin,杨氏D. Kapoor,P.Natarajan,D. Marcu,K. Knight等人,建立和使用知识图打击人口贩运,在:国际语义网会议,施普林格,2015年,第100页。205-221[9] M. Kejriwal,P. Szekely,Mydig:个性化的非法领域特定知识发现,没有编程,未来互联网11(3)(2019)59。[10] M. Kejriwal,J. Ding,R. Shao,中国茶青冈A. Kumar,P. Szekely,Flagit:一个最低限度监督的人口贩运指标挖掘系统,2017年,arXiv预印本arXiv:1712.03086。[11]M. Kejriwal,P. Szekely,人口贩运的调查搜索引擎-ing domain,in:International Semantic Web Conference,Springer,2017,pp.247 -262[12] M. Kejriwal,P. Szekely,Neural embeddings for populated geonames locations,in:International Semantic Web Conference,Springer,2017,pp. 139-146。
下载后可阅读完整内容,剩余1页未读,立即下载
![caj](https://img-home.csdnimg.cn/images/20210720083646.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 电力电子系统建模与控制入门
- SQL数据库基础入门:发展历程与关键概念
- DC/DC变换器动态建模与控制方法解析
- 市***专有云IaaS服务:云主机与数据库解决方案
- 紫鸟数据魔方:跨境电商选品神器,助力爆款打造
- 电力电子技术:DC-DC变换器动态模型与控制
- 视觉与实用并重:跨境电商产品开发的六重价值策略
- VB.NET三层架构下的数据库应用程序开发
- 跨境电商产品开发:关键词策略与用户痛点挖掘
- VC-MFC数据库编程技巧与实现
- 亚马逊新品开发策略:选品与市场研究
- 数据库基础知识:从数据到Visual FoxPro应用
- 计算机专业实习经验与项目总结
- Sparkle家族轻量级加密与哈希:提升IoT设备数据安全性
- SQL数据库期末考试精选题与答案解析
- H3C规模数据融合:技术探讨与应用案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)