没有合适的资源?快使用搜索试试~ 我知道了~
软件影响9(2021)100099原始软件出版物zipcodeR:在R中推进邮政编码级别的空间数据分析Gavin C. 罗兹罗格斯城市公民信息学实验室,爱德华J. Bloustein规划和公共政策学院,罗格斯,新泽西州立大学,美利坚合众国A R T I C L E I N F O保留字:邮政编码RZCTA邮政编码列表区zipcodeRA B标准美国邮政局(USPS)为邮政服务区域分配唯一标识符,称为邮政编码,通常用于在数据集中标识美国的城市和地区。尽管邮政编码得到广泛使用,但在社会科学中使用邮政编码进行地理空间分析仍存在挑战。本文介绍了zipcodeR,这是一个R包,通过提供邮政编码的离线数据库, 用于地理编码、标准化和检索有关邮政编码的数据的函数并将它们与R中的其他地理位置相关联,而不依赖于任何外部服务。代码元数据当前代码版本Rolling release commit 3f982b808c1ac2c4ed777c70c7cc0b3ec3e5bedc此代码版本所用代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-53Reproducible Capsule的永久链接https://codeocean.com/capsule/4509180/tree/v1法律代码许可证GPL v3代码版本控制系统使用git软件代码语言R编译要求,操作环境依赖性≥3。5如果可用,链接到开发人员文档/手册问题支持电子邮件gr@gavinrozzi.com软件元数据当前软件版本0.3.0此版本可执行文件的永久链接https://github.com/gavinrozzi/zipcodeR/releases/tag/0.3可再生胶囊的永久链接https://codeocean.com/capsule/4509180/tree/v1GNU GPL≥3计算平台/操作系统Linux,macOS,Windows,类Unix安装要求依赖项R 3.5或更高版本、dumr、tidycensus、udunits2、raster、rlang、magrittr如果可用,用户手册链接-如果正式出版,请在参考列表https://gavinrozzi.github.io/zipcodeR/index.html问题支持电子邮件gr@gavinrozzi.com1. 介绍zipcodeR是R统计编程语言的一个软件包[1],旨在分析在邮政编码级别聚合的数据时,使研究和地理空间分析更容易,这是社会科学研究人员遇到的最常见的地理数据形式之一。虽然在跟踪长期趋势方面不如其他地区(如人口普查区)理想,但个人用于预测健康的社会决定因素,并揭示小区域的不平等[2,3]。zipcodeR通过使用户能够快速获取、地理编码和将邮政编码级别的数据与州、县、人口普查区和社会科学研究中经常遇到的其他地理区域相关联,使处理这些数据变得更容易。zipcodeR通过集成多个开源数据集和官方政府crosswalk文件,为R数据科学生态系统做出贡献,提供超过41,000个邮政编码的数据,适合集成到大型项目本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。电子邮件地址:gr@gavinrozzi.com。https://doi.org/10.1016/j.simpa.2021.100099接收日期:2021年5月10日;接收日期:2021年6月1日;接受日期:2021年6月23日2665-9638/©2021作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsG.C. 罗兹软件影响9(2021)1000992通过数据集和包装函数。自2020年9月以来,zipcodeR已在Comprehensive R Archive Network(CRAN)上提供[4]。除了使这些数据源可用于集成之外,zipcodeR还包括一套用于以编程方式检索美国邮政编码州、市、县、时区等搜索参数,支持数据的快速分析。开始版本0.3.0的包中,新的地理功能可以计算邮政编码之间的地理距离(以英里为单位),当只有邮政编码是已知的,以及搜索所有邮政编码位于一个特定的半径周围一个给定的坐标对与一个单一的功能调用R。这些功能可以轻松地映射ZIP代码级别的数据,而无需依赖外部地理编码API,这对于处理不得发送到内部网络之外的受限数据集特别有用。2. zipcodeR软件包2.1. 方法zipcodeR软件包集成了多个开放数据源,为研究人员分析ZIP代码级别聚合的数据集提供了最大的效用。包的数据检索函数中使用的大部分数据由包的zip_code_db对象提供,这是一个R数据帧,包含24个变量的41,877个观测值。一zip_code_db中所有可用数据变量的数据字典由包的文档提供这个数据框架是通过调整Hu [6]使用的方法构建的,并将数据集从SQLite数据库转换为R用于集成到包中的原生二进制格式。使用zip_code_db数据集显示的美国大陆地区邮政编码的空间分布的可视化如图所示。1.一、类似的工作进行了转换额外的邮政编码交叉步行文件产生的美国.联邦政府机构,包括美国住房和城市发展部(HUD)和中央统计局。这些额外的数据集被整合,以帮助将邮政编码与人口普查区和相关地理区域相关联的任务[8,9]。在社会科学研究中,邮政编码通常用于比较一个州的不同地区在一个或多个变量上的差异。图2显示了包含在zip_code_db中的邮政编码元数据之间的差异的可视化,这些邮政编码元数据按照每个邮政编码的人口进行排序。表格图是可视化大型多变量数据集(如zip_code_db)属性的有效方法。通过使用tabplot R软件包[10]生成数据集的表格图。这些可视化是通过从数据集中包含的观测创建统计箱来产生的,其中条表示数值的平均值和频率的统计值。图2,每个bin包含419个观测值,约占完整数据帧的10%。对这一数字的分析表明,美国人口分布和全国房屋价值中位数之间存在明显差异。3种类型和9个地区的邮政编码。zip_code_db数据集是许多函数的基础,这些函数用于获取用户提供的邮政编码数据。最包提供的函数的一部分基于用户提供的搜索条件返回这些数据的子集。例如,函数reverse_zipcode()将返回关于ZIP的所有24列数据当由提供ZIP代码时,zip_code_db中包含的代码 用户.该软件包的许多可以查看zipcodeR提供的函数的完整参考 通过软件包该软件包提供的其他不依赖于zip_code_db的函数包括normalize_zip()函数,该函数依赖于自定义逻辑来清理混乱或非标准化的邮政编码,这是研究人员处理邮政编码级别数据时遇到的常见任务。2.2. 与现有R包的以前的R包试图解决zipcodeR所解决的一些挑战,但在现有方法中存在固有的缺点。目前缺乏一个支持的通用库,用于在R中使用美国邮政编码,该库可通过CRAN存储库获得,并涵盖探索性数据分析和研究应用程序的大多数一般用例。一个流行的、以前支持的R库与zipcodeR有一定程度的重叠,它是zipcode包,它已经从CRAN存储库中存档,不再由他的助手[14]。邮政编码包从CRAN存档,缺乏进一步的支持,限制了其范围和效用,以更广泛的 R社区,在功能上造成了差距。zipcode软件包的另一个关键限制是它只依赖于一个数据源,根据其作者的说法,该数据源最后一次更新是在2004年,后来在2012年与一个额外的源集成。因为邮政编码的边界是基于美国邮政服务的邮件传递路线–尚未更新的旧软件包,用于涉及邮政编码级别新收集数据目前支持的其他与zipcodeR重叠的包,如choroplethrZip,虽然对它们的预期应用程序有用,但太大而不能通过CRAN分发,并且是为特定用例设计的,如映射[15]。由于choroplethrZip软件包是通过GitHub独家分发的,因此必须使用remotes或devtools等软件包手动安装,这限制了这些类型的软件包对R新手zipcodeR包试图在考虑到特定用例而设计的非常大的R包(如choroplethrZip和leaner)之间实现一个合理的中间地带,但更有限的包(如zipcode)包括一个全面的数据集和用于子集数据的包装函数,但不包括一个表示多边形的大型shapefile 邮政编码边界增加了存储需求,并排除了在CRAN上发布的可能性,因为它们缺乏对包中包含的超大文件3. 影响概述zipcodeR软件包最初是为了消除某些工作流的重复任务而开发的,这些工作流使用邮政编码级别的数据,这些数据在使用R统计编程语言的社会科学研究工作流中很常见。自该软件包于2020年底首次发布以来,zipcodeR已经实现了研究和数据科学项目的快速原型设计, 已经在不同的R项目中实现,包括已发布的和仍在开发中的。例如,一家数据分析公司发布了一个内置在RShiny中的交互式仪表板,该仪表板显示了一个所得税数据集,该数据集通过分析美国国税局从个人纳税申报表汇总的行政数据,按邮政编码和州显示经济数据[16]。此外,许多学术和公共卫生研究项目已经成功地在他们的分析中实现了zipcodeR,正如对公开可用的GitHub存储库的搜索所示。其中包括学术研究人员努力创建COVID-19大流行期间收集的数据的综合指标,与美国医学协会合作进行的医生心理健康研究,以及对德克萨斯州COVID-19疫苗分配公平性的分析[17zipcodeR也被应用于教育领域,特别是数据科学和城市信息学课程和项目。在GitHub上发布了几个实施该软件包的研究项目实践,展示了其在探索COVID-19病例计数与邮政编码级别选举数据之间关系的项目中的使用纽约市[20]。另一个实现zipcodeR的项目G.C. 罗兹软件影响9(2021)1000993Fig. 1. 显示zipcodeR的美国大陆zip_code_db数据集中包含的每个邮政编码质心的地图,按指定的邮政编码区域着色由USPS该地区由USPS提供的邮政编码的第一个字符确定这张地图是使用ggmap R包[7]生成的图二. zipcodeR包提供的zip_code_db数据帧的表格图。此数据集提供用于支持包的大多数功能的数据。在这个可视化中。基于数据集中包含的每个邮政编码的总体对统计箱进行排序在他们的分析中,包括一个大学癌症中心的项目评估[21]。该软件包的另一个教育应用程序是通过Tidy Tuesday [22]看到的,这是一个每周编码挑战,旨在提供一个学习R和数据分析技能的安全环境,由数据科学社区提供支持。对于2021年5月11日的一周,Tidy Tuesday实施了zipcodeR包,作为使用邮政编码级别数据分析美国宽带可访问性的基础。这证明了该软件包4. 结论和今后的工作本文介绍了用于简化社会科学研究中邮政编码级数据分析的zipcodeR包。自最初发布以来,该软件包已经在CRAN上发布了三次主要迭代,并且随着未来迭代考虑更多用户反馈,该软件包逐渐变得更加全面。代码的贡献和来自实现zipcodeR的研究人员的反馈也对包的开发非常有帮助,欢迎社区的进一步贡献。虽然这个包在这个阶段的功能相对完整,但在未来的迭代中可能会看到G.C. 罗兹软件影响9(2021)1000994集成了可从美国联邦政府,以及改进现有的功能,以提高效率和更广泛的适用性,研究工作流程。竞合利益提交人声明,他们没有已知的竞争性财务利益或个人关系,可能会出现[8]UnitedStatesCensusBureau,RelationshipFiles,(n.d.),https://www.census.gov/geographies/reference-files/time-series/geo/relationship-files.html。[9]HUD USPS邮政编码Crosswalk文件|HUD用户,(n.d.),https://www.huduser的网站。gov/portal/crosswalk.html。[10] M. Tennekes,E. D. Jonge,P. Daas,用表格图可视化和检查大型数据集,J.Data Sci。11(2013)43http://www.jds-online.com/files/JDS-[11] R.J. Hijmans , 栅 格 : 地 理 数 据 分 析 和 建 模 , 2021 , https : //cran 。 r-project.org/web/packages/raster/index.html网站。[12] H. 韦翰 R. 弗朗索瓦 L. 亨利, K. 穆勒, 延迟: 一 语法 数据影响本文报道的工作操纵,2021年。[13] G.C. 罗齐 功能 参考资料·zipcodeR/reference/index.html。zipcodeR, 2021年,https://gavinrozzi.github.io/附录A. 补充码与本文相关的补充材料可以在网上找到在https://doi.org/10.1016/j.simpa.2021.100099。引用[1]R核心团队,R:统计计算的语言和环境,2021,https://www.R-project.org/。[2]E. Sokol , 地 理数 据 如 何帮 助 解 决健 康 的社 会 决 定因 素 。 IT Anal.(2019)https://healthitanalytics.com/features/how-geographic-data-can-help-address-social-determinants-of-health.[3]T.C. Yang,S.金,Y。Zhao,S.原E. Choi,Examining spatial inequality inCOVID-19 positivity rates across New York City ZIP codes,Heal.地方69(2021)102574.[4]G.C. Rozzi,&使用美国邮政编码的数据函数[R package zipcodeR version 0.3.0],2021,https://cloud.r-project.org/web/packages/zipcodeR/index。HTML.[5]G.C. Rozzi,邮政编码数据库- zip_code_db· zipcodeR,ZipcodeR Doc,2021,https://gavinrozzi.github.io/zipcodeR/reference/zip_code_db.html。[6]S.Hu,Uszipcode0.2.4文档,2020,https://uszipcode.readthedocs.io/index.html。[7]D. Kahle,H. Wickham,ggmap:Spatial Visualization with ggplot2,R Journal5 ( 2013 ) 144 https://journal.r-project.org/archive/2013-1/kahle-wickham 。PDF.[14] J.Breen , Zipcode : U.S. ZIP code database for geocoding , 2012 ,https://cran.r-project.org/src/contrib/Archive/zipcode/.[15]A. Lamstein,choroplethrZip:Shapefile,Metadata and Visualization FunctionsforUSZipCodeTabulatedAreas(ZCTA),2020,https://github.com/arilamstein/choroplethrZip.[16]D.露西,介 绍红墙国税局SOI税务仪表板-红墙分析, 红墙肛门。(2021)https://redwallanalytics.com/2021/02/03/introducing-the-redwall-irs-tax-dashboard/.[17]P. Ganguly,S. Mukherjee,A.S. Kumar,GitHub - abinesh-23/Physician-mental-health-analysis-AMA-:此存储库包含与美国医学协会(AMA)合作的研究项目的代码,以了解20 2 1 年 C O V I D pa n d e m 期 间 作为一线工作人员的 医 生 心 理健 康 。[18]政府学院ncIMPACT倡议,GitHub - ncIMPACT/covid- keys-impact:检查COVID-19经济复苏关键项目的复合变量,2021年,https://github.com/ncIMPACT/covid-keys-impact。[19]L.B.J. S在PA得克萨斯大学奥斯汀分校,得克萨斯州COVID-19疫苗追踪:探索公平,2021年。[20]S.格林,M。贡萨尔维斯湾马科夫斯卡-德瓦隆岛Khaimova,J.Mazon,数据607 最 终 项 目 - COVID 率 与 纽 约 市 选 举 结 果 , ( 未 注 明 日 期 ) ,https://rpubs.com/OrliKhaim/DATA607_Final_Project网站。[21]R.DarioHerrera,GitHub-UACC-renedherrera/UAZCC_COE_Program_Evaluation : Implementation of differentevaluationtoolstomeasureprogrameffectiveness,2021,https://github.com/UACC-renedherrera/UAZCC_COE_Program_Evaluation.[22]T. Mock,Tidy Tuesday:2021年针对R生态系统的每周数据项目
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 基于Springboot的医院信管系统
- 基于Springboot的冬奥会科普平台
- 基于Springboot的社区医院管理服务系统
- 基于Springboot的实习管理系统
- TI-TCAN1146.pdf
- 基于Springboot的留守儿童爱心网站
- S32K3XXRM.pdf
- Ansible Automation Platform 快速安装指南 v3.8.1
- Ansible Tower 发行注记 v3.8.1-76页
- C语言笔记-考研版(进阶)
- Design_of_Analog_CMOS_Integrated_Circuit20200602-85440-9wt61m-with-cover-page-v2 (1).pdf
- Ansible Automation Platform 安装和参考指南 v3.8.1-59页
- 浅析5G技术在工业互联网领域的应用研究
- 查重17 岑彩谊-基于otn技术的本地承载网-二稿 .docx
- 自考计算机应用基础知识点.doc
- 数据库系统安全、技术操作规程.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)