没有合适的资源?快使用搜索试试~ 我知道了~
Common Crawl持久标识符(PID)随时间的跟踪研究
跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1749Common Crawl能否可靠地跟踪持久标识符(PID)随时间的使用情况摘要Henry S.英国爱丁堡汤普森大学ht@inf.ed.ac.uk佟健爱丁堡大学英国爱丁堡s1615354@sms.ed.ac.uk数字对象标识符方案[11],由互联网管理。我们在这里报告了2014年至2017年期间分别使用两次和四次每 月 网 络 抓 取 的 两 项 研 究 的 结 果 , 这 些 研 究 分 别 来 自Common Crawl(CC)计划,其最初目标是为所谓的持久性标识符的使用模式不断变化提供经验证据。本文重点介绍了处理CC数据所需的工具,以及我们发现的问题。 第一项研究基于2014年4月和2017年4月抓取的5 x 10 9个页面中的10 12个URI,第二项研究从2015年4月和2016年4月抓取的3 x 10 9个页面中添加了更多的URI。我们的结论与建议,需要采取具体行动,使研究的基础上CC提供可靠的纵向信息。关键词时态网络分析,持久标识符,公共抓取,统一资源标识符,纵向网络抓取分析,数字对象标识符ACM参考格式:Henry S.汤普森和佟健。2018. Common Crawl能否可靠地跟踪持久标识符(PID)随时间的使用情况?.在WWW '18 同伴:The 2018 WebConference Companion,2018年4月23日至27日,法国里昂。ACM,NewYork,NY,USA,7页。https://doi.org/10.1145/3184558.31916361介绍为满足在Web上使用的所谓“持久标识符”(PID)的需求所做的努力的历史是复杂的,有许多替代产品和关于持久性的含义以及如何确保它的许多争论。我们在这里的辩论中不采取任何立场,除了观察到对PID的需求没有显示出减弱的迹象,并且在过去的5-10年中已经或多或少地普遍承认,要在Web的上下文中取得成功,PID方案必须定义并支持从方案中的PID到“可操作”标识符的映射。在实践中,这意味着使用由方案的所有者拥有和操作的域来指定用于将PID转换成http(s):URI的纯语法过程对这样的“可操作”URI的HTTP请求通常将导致重定向到所标识的资源的当时的位置。*SURNAMEforrname本文在知识共享署名4.0国际(CC BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191636国家DOI基金会(IDF)[16]是这种方法的早期采用者,DOI现在得到了广泛的使用,特别是在科学期刊中,它们的使用实际上是由许多主要出版商强制要求的。DOI到可操作https:URI的映射很简单:例如,以URI形式编写的期刊文章的DOI,如doi:... 已映射(客户端)到https://doi.org/... 1 .一、为了响应对该URI的HTTP请求,位于doi.org的服务器(由国家研究计划公司(CNRI)[5]代表IDF运营)将响应重定向到来自文章实际发布者的适当http(s):URI我们称这三种形式为doi:或info:hdl)、‘actionable’(例如,https://doi.org/网站...及其变体或http://hdl.handle.net/…)和“定位”。请注意,严格地说,这些都不是PID本身:这handle.net/这种方法的成功克服了PIDs普遍采用的一个重大障碍:迄今为止,在Web浏览器或PDF查看器中,还没有任何重大进展来支持它们作为URI。 也就是说,如果您尝试使用doi://10.1000/182或info:hdl/20.1000/100作为链接(例如,作为HTMLA元素的href属性的值),它将不起作用。但是您可以将它们用作A元 素 的 链 接 文 本 , 并 将 可 操 作 的 表 单 ( 分 别 为https://doi.org/10.1000/182和http://hdl.handle.net/20.1000/100)放在href属性中,这样就可以正常工作这是个好消息不太好的消息是,使用从可操作表单到定位表单的重定向意味着,当有人点击上一段中的链接时,出现在浏览器地址栏中的是定位表单,因此他们可以将该表单复制并粘贴到发给同事的电子邮件或自己的阅读列表中但这破坏了原始(“持久化”)形式的基本价值主张我们在这里报告的工作目标是量化增长随着时间的推移,在这三种形式的实际使用中,不仅要看看好消息有多好,而且还要看看是否有理由担心不太好的消息:定位形式是否对于具体的证据,我们使用了Web上HTML页面的CommonCrawl样本[3],这是我们可以随时获得的唯一大规模公共证据来源这在许多方面都是具有挑战性的,尽管我们的结果很有趣,但CC数据的问题意味着它们可能无法准确反映实际情况。接下来我们将首先1doi:(目前)还不是一个注册的URI方案,但经常被当作一个来跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1750描述工作本身,然后讨论CC数据达不到我们认为可靠分析所需的方法尽管在我们的研究期间发现的各种形式(原始的、可操作的或定位的)的大多数PID都是DOI,但是在下文中,当我们意指被识别为持久标识符的形式的任何事物时,我们将小心地使用其子集是某种形式的DOI。2前期工作和其他信息来源在[21]中可以找到关于PID空间及其使用的论据的极好概述,仅略微过时 IDF关于PID的必要性及其DOI目标的观点见[1]。以色列国防军偶尔会更新他们的“关键事实”页面[12],该页面目前表示[DOIs目前有超过5,000个分配器使用,例如,出版商、科学数据中心、电影制片厂等。• 迄今为止分配了大约1.48亿个DOI名称• 每年超过50亿个DOI分辨率用于出版物的DOI的主要发布者是CrossRef [7],他们定期发布关于会员数量,注册DOI等的更新统计数据。[八]《中国日报》研究数据(与出版物相反)的DOI的主要发布者是DataCite[9],他们同样发布了发布,引用等数据特定DOI数量的统计数据。[10个国家]我们所知道的关于PID使用的唯一纵向研究是[25]。他们处理了1997年至2012年间发表arXiv.org的约180万篇学术文章,这些文章来自www.example.com、Elsevier期刊和PubMedCentral,共产生了220万个URI。其中有• 397,412个可操作形式的DOI(全部使用dx.doi.org)• 505,657个“应该是DOI”他们的结果很难与我们的结果进行比较,不仅因为他们查看的是一组不相交的年份,而且因为他们相反,他们使用了“CrossRef提供的发布者[域名]的哈希值列表” 如果提取的引用的[域名]的散列与CrossRefâs列表中的散列匹配,则引用[被认为是应该的DOI]。“这是因为他们的目标,顾名思义,是识别可能是DOI的参考文献,因为出版商是CrossRef成员,因此会为相关文章分配DOI。这与我们的目标不太一样,我们的目标是测量同一篇文章可操作形式与定位形式PID的比例。3材料3.1首次研究我们的第一项研究,在所有三种形式中使用PID,比较了2014年4月和2017年4月的使用情况,基于这几个月Web上HTML页面的Common Crawl样本[3表1给出了该样品的基本尺寸信息。此表中“URIs crawled”和“Pages retrieved”列之间的差异(特别是2014年)表明同一URI被多次检索的问题虽然爬行总是表1:第一项研究的爬行大小[24]爬行月已爬取URI检索的页数重复URI %年龄2014-041,718,646,7622,641,371,316百分之三十四点九2017-04 2,907,715,3492,942,930,482 1.2%表2:第一项研究的重复页面估计值[24]爬行月检索的页数消化Dup页面%年龄2014-042,641,371,3162,250,363,653百分之十四点八2017-042,907,715,349 2,915,114,582 0.9%以一组唯一的URI开始,并且不遵循页面内部链接,重定向到初始集合中的URI的情况非常频繁,在某些情况下会导致重复表reftab:t1中的“Duplicate URI %age”列报告了这一点,通过从1中减去URI与Page列的比率来估计在2014年至2017年期间,检测此问题的实例并且不包括重复的页面已经有了很大的改进,这可以从“URI抓取”和“页面检索”列的收敛以及重复URI百分比估计的大幅下降中看出。这种重复并不总是意味着已经检索到重复的页面--因为爬网需要几周时间才能完成,所识别的页面可能已经更改。表2中显示了基于比较Hyperloglog digest值对检索到的重复页面数的直接估计。我们会回到这件事的影响在我们的DOI表中的结果部分下面。3.2二项研究我们的第二项研究增加了2015年4月和2016年4月的抓取,但只关注使用doi:scheme的URI。表3合并了表1和表2中的列,并包括这些额外的年份。Common Crawl使每次抓取的数据以WARC格式的3种变体可用[15],[17]:原始抓取数据的WARCWAT [18]用于计算元数据,包括请求和响应头,以及用于响应的HEAD和BODY链接表,使用JSON• 来自BODY的明文的WET在这两项研究中,我们都只使用WAT格式,因为它包含了我们感兴趣的链接数据,而没有整个HTML响应的额外开销表4显示了文件数量、报告的请求/响应对的平均数量以及压缩后的WAT文件的大致大小(TB)。值得注意的是,在2014年和2017年,从WAT文件中恢复的实际请求/响应条目的数量略低于Common Crawl发布的数字:2014年减少了约400万,2017年减少了60万。···跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1751表3:所有四年的爬行次数[24]爬行月已爬取URI检索的页数重复URI %年龄消化Dup页面%年龄2014-041,718,646,7622,641,371,316百分之三十四点九2,250,363,653百分之十四点八2015-041,934,559,3472,115,818,059百分之八点六1,910,978,257百分之九点七2016-041,335,046,9231,335,046,923百分之零点零1,211,048,216百分之九点三2017-042,907,715,3492,942,930,482百分之一点二2,915,114,582百分之零点九表4:第二项研究的尺寸爬行月WAT文件计数每个文件的页数总大小(TB)[每个路径的其他可选属性]}对于这个数组中每个条目的“url”属性的值,我们累计计数目标URI方案(可能不存在)目标URI主机(可能不存在)如果主机是可操作的PID解析器列表中的一个(见下文),则整个URI(标准化)2017-044方法4.1首次研究647004548619出现在链接数组我们观察的解析器如下:doi.org,hdl.handle.netdx.medra.org dx.doi.orgn2t.net对于第一项研究,我们希望检查每个抓取的HTML页面主体中的每个链接,这意味着下载大约110,000个WAT格式的文件,总计约36TB(压缩)大小。我们通过每天晚上流传输大约1/10的数据来实现这一目标,这些数据被分配到大约100台机器上,这些机器在几个学生实验室中的一个被检测为空闲每台机器每晚统计大约100个WAT文件,需要4-6个小时。这些被上传到中央机器并合并。2014年和2017年的过程略有不同:只有在2017年,我们才在其定位形式中查找PID,如下所述4.1.12014年的爬行。有44488个WAT文件需要处理,包含总共2,534,229,771页的信息。 对于每个页面,WAT文件包含三个JSON对象,每个对象用于有关爬网、HTTP请求和HTTP响应的信息。我们提取了后者,并从中提取了以下三个组成部分:所涉及的链接URI的标准化去除明显由Common Crawl过程本身的问题引起的虚假空白替换百分比编码和HTML实体编码的字符形式链接数组数据是我们在本文中的主要关注由于合并了各个处理器的结果,因此各个每页的表格使我们能够生成以下汇总表格:爬网URI集中http:和https:URI方案的频率,以及链接URI集中(none)、http:、https:和许多其他URI方案的频率特别地,doi:和info:在Link URI集合中的频率• 链接URI集中五个解析程序的频率• 链接URI集中每个可操作URI的频率(Note只有少数可操作形式的URI出现在• Envelope/WARC-Header-Metadata/WARC-Target-URI(字符串)抓取的URI集)Envelope/Payload-Metadata/HTTP-Response-Metadata/Headers/Content-Type(字符串)Envelope/Payload-Metadata/HTTP-Response-Metadata/HTML-Metadata/Links(数组,见下文)对于我们累积的每一页计数目标URI方案(始终为http:或https:)目标URI主机(严格来说,• Content-Type报头的内容…/链接组件数组中的每一个都是至少具有以下内容的对象:{“path”:[quasi-XPath,例如“A@/href”,“IMG@/src”,“FORM@/action”],“url”:[绝对或相对URI],对于除了第一个(一般的URI方案)频率表之外的所有频率表,我们都有类型和令牌频率。4.1.22017年爬行。对于2017年4月的抓取,我们添加了两个额外的表格:可操作URI的文档频率,即每个URI出现的页面数,无论出现多少次对于作为2014链接集中可操作URI的定位形式的链接集中的每个URI,类型、令牌和文档频率通过采取所有2014年可操作的形式,为它们发出HTTP HEAD请求并注意返回的位置响应报头(迭代和累积直到实现200响应),将后者计数制成表格。成功率超过99%············2014-04444885937317·2015-043860954801142016-0422200601379跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1752我们从结果中构建了一个Bloom过滤器,然后允许我们在处理2017年的链接URI时检查每个链接URI这些计数仅限于2017年出现的2014年可操作表单的定位表单,因为我们在这两年中,最后一步是提取PID本身(即,可操作形式URI的路径部分,无论URI方案、重定向服务器主机名或查询参数如何),并合并具有相同PID的所有可操作形式URI的计数。除非另有说明,否则这些是下文结果章节中报告的计数。4.2二项研究第二项研究旨在填补2014年至2017年之间的空白,但详细程度要低得多它只计算HTML头部(在link和Meta元素中)和主体中出现的原始形式的DOI4年数据的规模如上表4所示。 这表5:第一研究的链接URI计数爬月链接URI总 校正可操作的uri链接URI比不同PIDs2014-04299x 109194x 10930,445,5320.000165,369,8312017-04620x 109613x 10937,913,5440.0000612,659,694表6:共享与第一项研究中的仅1年PID2014不是201420173,354,9069,304,788不是20172,014,925 0表7:来自不同的可动作形式PID的当DOIs处理其他研究实际上是一个试点研究,以确定是否使用1008-通过微软的Azure设施2,具有更好带宽的核心计算机允许在大约6小时内处理一个月的抓取数据,比第一次与第一项研究一样,只有“response”JSON对象是亲的切割,提取3种组分:仅2017七 三 八 三 一八九1,914,3957204Envelope/Payload-Metadata/HTTP-Response-Metadata/HTML-Metadata/Links(如研究1)Envelope/Payload-Metadata/HTTP-Response-Metadata/HTML-Metadata/Head/Link(数组)Envelope/Payload-Metadata/HTTP-Response-Metadata/HTML-Metadata/Head/Metas(数组)Metas数组的每个成员都是一个对象,其中感兴趣的成员具有以下内容:{“name”:[Meta元素的name属性]“content”:[Meta元素的content属性]}我们计算了“内容”属性是原始形式DOI的对象。对于Link数组也是如此,我们关心的是{“rel”:[LINK元素的rel属性]“href”:[LINK元素的href属性]}并计算了其中“href”属性是原始形式DOI的那些。与第一项研究相比,所有制表的都是任何原始形式DOI的每页发生计数,不同DOI本身的计数没有保留,因此净结果只有三个总数,首先是每个WAT文件,然后合并后,每月。最后一个非常小的样本,来自2014年4月的645个WAT文件(占总数的1.5%),只处理Metas数组,以计算其“内容”是“名称”的不同值。原始形式的DOI。2见6.35结果本身在这一节中,我们提出的结果,如果他们来自提供可靠的证据的数据第6节讨论了担心情况可能并非如此的原因,并给出了如何处理的建议5.1首次研究所有链接URI的计数,其可操作形式URI子集以及从这些中提取的不同PID,如2014年4月和2017年的表格所示,如表5所示。两列显示了链接URI的总数:第一列是我们找到的实际数量,第二列是根据估计的重复程度向下调整的,如上面的表1所示。可操作的URI和PID列不需要这种校正(参见第6节),但是在这里给出,因为它用于可操作的链接URI比率列中给出的比率。2014年4月和2017年4月抓取的URI集之间的重叠很低(估计为7%),对于响应(页面)本身甚至更低(估计为0.8%)[6]但是PID数字的重叠要高得多:两年的并集仅包含1470万个PID-详细信息见表6。这表明重叠PID非常受欢迎,因为它们不仅从2014年持续到2017年,而且它们的第二次出现是在不同的页面集合中。如前所述,我们查找的可操作形式PID可以根据用于标识其解 析 代 理 的 域 名 进 行 划 分 : doi.org 、 dx.doi.org 和dx.medra.org用于DOI,hdl.handle.net用于句柄,n2t.net用于ARK和其他PID(我们没有详细研究这些)。每个类别中的数量见表7。···仅20141,656,913357,997152014年至20172,914,930439,9697跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1753表8:2014年可操作表单PID图1:doi的增长:在body链接和head Meta中使用不同总2014年发现可采取行动5,369,83112,642,054检索到的定位表单5,315,1292017年发现的定位413,3971,202,610比例8% 10%表9:doi的生长:用于第二研究正文链接头部Meta表10:什么是Meta标签doi:URI用于?201735501.214593281.56n2t.net解析器的出现相对较晚,这一点在这里很明显。最后,表8中解决了定位表单泄漏问题该表给出了2014年为可操作表单URI检索的定位表单URI的数量。2014年发现了1200多万个可操作形式的URI,从中提取了500多万个不同的PID,几乎所有的PID都是可操作的。电子版.official_url 1这成功地产生了定位URI。其中大约40万(8%)(按类型计数)或120万(10%)(按令牌计数)发生在2017年抓取的正文链接中。当然,我们无法判断这些用法是否是由引言中讨论的泄漏场景引起的,或者它们是否是独立于先行的可操作形式URI而被发现和使用的,但无论哪种方式,这都是一个足够大的数字,值得关注。5.2二项研究添加2015年4月和2016年4月的数据可以让我们跟踪doi的增长:在HTML主体和头部链接中的使用(区分Meta和link元素)。在头部链接元素中,我们没有找到(!)2014年4月或2015年4月使用doi:表单的次数为2次,2016年4月和2017年4月仅为2次,因此表9中的数据以及图5.2中的图表仅报告了在body链接和headMeta元素中使用的次数有趣的A/@href,而且这种用法正在慢慢增加。当然,为什么有人会这样做并不明显:有必要查看完整的HTML页面来理解这一另一方面,HTML头部Meta元素的大量使用是相当合理的,尽管在没有看到周围几个月的数据的情况下,很难评估2017年的下降。我们对2014年4月的1.5%进行了快速检查,以查看doi:URI与哪些Meta标签一起使用。表10给出排序结果。其中绝大多数是都柏林核心[13]或EPrints工具集[14]标签。考 虑 到 doi 的 数 量 相 当 大 : URI 在 HTML 头 中 显 示 为Meta/@content,没有找到任何作为LINK/@uri的URI有点令人惊讶。5.3DOI的结论综上所述,两项研究的结果显示在头链接中几乎不使用原始形式的URI在正文链接中只有少量的1000个原始形式的URI使用原始形式的URI作为元信息的情况显著且缓慢增加(成千上万)正文链接中的可操作形式URI的数量要大得多(数百万)在2014年和2017年之间的抓取中,身体链接中的不同DOI数量增加了2.5倍对于2014年爬网中约8%的可操作形式URI相应的定位形式URI出现在2017年6纵向研究结论这里报告的工作只能作为一个起点,证明提取有关URI使用的经度信息是可能的,并鼓励其他人这样做······年n每密耳pgn每10K pg标签计数标签计数201418930.727319382.77dc.identifier6548dcterms.isReferencedBy4201514100.677271673.44eprints.id_number1174联系我们_联系我们2201614401.084106033.08引用_doi435关键词2dcterms.isVersionOf105dc.citation.spage1dc.Identifier146bepress_citation_doi1dc.relation44eprints.data1dcterms.hasPart15eprints.doi1dcterms.isPartOf12eprints.note1跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1754无论是这里的数字还是趋势都不能说是可靠的。它说明了我们希望得到关于一种纵向研究的答案的问题,而这些问题缺乏可靠的答案,这表明我们需要做些什么来改善这种情况。在下面的内容中,我们将讨论我们遇到的一些不同类型的问题,并提出可能的补救措施。6.1Common Crawl本身在单个版本中重复爬网的页面是任何使用公共爬网数据的问题。版本之间的页面重复可能是一个bug或纵向研究的一个功能,但无论如何都需要考虑它的存在在Common Crawl论坛[4]中可以找到许多关于这些问题的讨论,并且似乎发布内的重复已经大大减少。然而,就我们的研究而言,正如上文材料部分所述,2014年4月的数据显示,在页面层面可能存在相当程度的这几乎完全是由于两个来源[23](1) 共享错误页;(2) 不同URI的相同页面仅查询参数值不同。似乎可以合理地假设错误页面不太可能涉及PID的使用,对于大量使用查询参数的面向商业的应用程序也是如此。后一种期望很容易从经验上进行检查,并且对随机样本(来自2014 年 4 月 的 4 个 不 同 WAT 文 件 的 3425 个 可 操 作 表 单(doi.org和dx.doi.org的混合)URI)的快速检查证实了这一点:它们中没有一个具有查询参数。很明显,我们迫切需要仔细研究过去3到4年的CC数据,以详细确定发布版本内和发布版本之间的重叠,包括内容和URI(参见第6.2节)。 CC自己的信息版本[ 6 ]涵盖2015年以后,但据我们所知,尚未在同行评审的背景下发表或以其他方式确认。在从CCWAT文件中响应记录的Links组件获取URI时,我们遇到了大量的格式和字符编码方面的低级问题。其中一些并没有发生在原来的,在少数情况下,我们检查了手,可以找到。虽然冗长,但需要对WAT文件中引入的错误种类进行调查,以至少记录它们随时间的频率,而且还试图确定哪些可以可靠地检测到,以及在那些可检测到的错误中,哪些可以可靠地纠正。 对于那些在最近的版本中仍然存在的问题,我们希望一旦被提醒,CC可以在源代码中解决问题。正确报告找到的链接是很重要的,但实际上可靠地检测链接也是很重要的-对此进行一些经验检查也是一个好主意。最近基于URI的查询字符串和/或cookie中的信息的个性化响应的快速增长对URI的“标识符”方面以及对共享其权限和路径组件但不共享其查询的URI的响应的程度具有严重影响再一次,至少有一些比较需要包括和不包括查询组件的CC爬取目标URI的集合对于我们检查的两个CC版本,即2014年4月和2017年4月,好消息是HTTP与 HTTPS在抓取的URI和看到的链接URI之间接近(2014年约为20比1,2017年降至3.3比1,反映了加密Web等举措的成功[19]。在我们判断这是否是一个可靠的趋势之前,显然需要对所有新闻稿进行更系统的制表。作为一个整体,CCHTML样本在Web HTML中的代表性如何尚不清楚,实际上也不清楚如何量化。一个更严重的覆盖问题,特别是对于我们开始探索的持久性问题,是CC版本中除了HTML文档之外什么都没有对于作为PID的主要市场的学术出版物,PDF是出版物的优选格式扩展CC以包括PDF文件显然是一项重大任务,但至少尝试从CC版本中抓取链接到PDF文件将有助于了解在那里找到的链接的配置文件与HTML数据中的链接的配置文件有多大不同6.2版本控制和重复数据消除检测和至少制表、优选地消除精确的重复内容当然是重要的,但是对于至少一些种类的纵向研究,检测和关联“相同”内容的多个版本检测从不同(重定向后)URI检索的相似但不同的内容显然是不平凡的,因为它隐含地取决于“足够”相似性的一些概念剽窃检测软件在这方面可以做出贡献即使是一个非常严格的阈值也可能是非常有用的:在某种程度上,两个文档只有一个微小的变化,比如一个拼写纠正,比两个相同的文档要糟糕得多,因为基于哈希的方法会找到后者,而不是前者。6.3规模至少,Common Crawl数据的可变性和偶尔的不可靠事后看来,从2015年开始使用抓取也可能是明智的,因为在这一点上,删除重复的工作和文档都有了明显的然而,这反过来又开始将所涉及的工作从我们组装并用于第一项研究的那种ad-hoc多处理器的范围内移开。 即使我们在第二项研究中实现了6小时的周转时间,调试仍然是一个繁琐且可能昂贵的过程。我们有一些加速的想法,但它们不太可能让我们获得超过两倍左右的收益如果对Web使用的学术纵向研究要达到我们所需的可靠性和实用性水平,那么第二项研究所需的云资源捐赠者提供的那种慷慨总之,自2015年以来发布的Common Crawl为HTML网页内容和链接的纵向研究提供了潜在的基础,但必须谨慎对待结果。在根据这些研究得出的结论被认为是可靠的之前,需要解决文件和质量保证方面的一些差距。跟踪:第八届临时Web分析研讨会WWW 2018,2018年4月23日至27日,法1755致谢这种研究的想法来自Greg Janée在PHOIBOS 2 [2]上提出的问题他随后扩展了这一点:“只有当PID标识的资源通过PID而不是通过其他非持久性URL统一和普遍访问时,PID才是有效的”[22]。感谢Common Crawl的Sebastian Nagel对我关于重复和重复检测的问题做出了及时而有帮助的回答上 面 报 道 的 第 二 项 研 究 是 通 过 Microsoft 向 Alan TuringInstitute捐赠Azure学分而实现的这项工作得到了艾伦图灵研究所在EPSRC资助EP/N510129/1下的支持感谢Dr. KennethHeafield(爱丁堡大学信息学),他帮助使用这个。引用[1]2015年。DOI系统和互联网标识符规范。(2015年5月2017-11-02从https://www.doi.org/factsheets/DOIIdentifierSpecs.html检索[2]2016年。(17-2016年2月19日)。2018-01-23从https://github.com/identifier-services/phoibos2/wikiWorkshop on PracticalHacking On Identifiers检索。[3] 2017. 普通爬行。(2017年)。2017-11-02从http://commoncrawl检索。org/[4] 2017. Common Crawl论坛。网络论坛。(2017年)。2017-11-02从https://groups.google.com/forum/#检索!forum/common-crawl[5] 2017.国家研究计划公司。(2017年)。2017-11-02从https://www.cnri.reston.va.us/[6] 2017.爬行重叠表。(2017年)。2017-11-02来自https://commoncrawl.github.io/cc-crawl-statistics/plots/crawloverlap[7] 2017. 交叉参考 (2017年)。 2017-11-02从https://www.crossref.org/检索[8] 2017. CrossRef事实。(2017年)。2017-11-02从www.example.com检索https://www.crossref。org/dashboard/[9] 2017. DataCite任务。(2017年)。2017-11-02从www.example.com检索https://www.datacite。org/mission.html[10] 2017. DataCite stats.(2017年)。2017-11-02从https://stats.datacite.org/检索[11] 2017. DOI手册。(2017年)。https://www.doi.org/hb.html[12] 2017.关键事实。(2017年)。2017-11-02从https://www.doi.org/factsheets/DOIKeyFacts.html[13] 2017. 都柏林核心。 (2017年)。 2017-11-02从http://dublincore.org/检索[14] 2017. EPrints。 (2017年)。 2017-11-02从http://www.eprints.org/uk/检索[15] 2017. 信息和文献2017-11-02从https://www.iso.org/standard/44717.html[16] 2017.国际DOI基金会。(2017年)。2017-11-02来自https://www.doi.org/[17] 2017. 所以你(2017年)。2017-11-02检索自http://commoncrawl.org/the-data/get-started/[18] 2017.WAT格式规范(2017年)。检索2017-11-02从https://webarchive.jira.com/wiki/spaces/Iresearch/pages/13467719/Web+存档+元数据+文件+规范不清楚如果任何官方状态,这有...[19] 2018.加密Web。(2018年)。2018-01-22从https://www.eff.org/检索encrypt-the-web[20] T.伯纳斯-李河Fielding和L.梅森特2005. RFC 3986,统一资源标识符(URI):通用语法。(2005年)的报告。https://tools.ietf.org/html/rfc3986[21] Ruth E.罗伯特·杜尔放大图片作者:Bruce Barkstrom,W.放大图片作者:Christopher Lenhardt , Joseph Glassy , Luis E.Bermudez 和 PeterSlaughter。2011年。数字地球科学数据识别方案的效用:评估和建议。Earth Science Informatics4,3(9 2011),139https://doi.org/10.1007/s12145-011-0083-6[22] 格雷格·珍妮2016. PID是否有效。个人交流。(18 2016年2月[23] 汤姆·莫里斯2017年。个人交流。(2017年10月存档于https://groups.google.com/d/msg/common-crawl/DdEjqaVRwfg/q1qlACsrCAAJ网站。[24] 塞巴斯蒂安·内格尔2017年。了解常见爬网。个人交流。(2017年10月23日)。存档于https://groups.google.com/d/msg/common-crawl/DdEjqaVRwfg/Y1 zUd 0 dIAwAJ。另请参阅电子邮件中引用的这些页面:https://commoncrawl.github.io/cc-crawl-statistics/plots/crawlsize;https://github.com/commoncrawl/cc-crawl-statistics.[25] Herbert Van de Sompel、Martin Klein和Shawn M.琼斯2016年。持久URI必须使用才能持久。 第25届国际会议万维网伴侣(WWW '16伴侣)。国际万维网会议指导委员会,日内瓦共和国和州瑞士、 119-120. https://doi.org/10.1145/2872518.2889352
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功