没有合适的资源?快使用搜索试试~ 我知道了~
数据和内容产业,Amine Sennouni文献信息服务目录推荐系统的建模和原型化引用此版本:阿明·森努尼。 数据和内容行业,为文献信息服务目录的推荐系统建模和原型。信息和通信科学。HESAM大学,2021年。法语。NNT:2021HESAC034。电话:03793337HAL ID:电话:03793337https://theses.hal.science/tel-03793337提交日期:2022年HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire内容的数据和产业、文献信息服务目录的推荐系统的建模和原型化。Abbé Grégoire博士数字时代的信息和通信设备实验室论文提交人:Amine SENNOUNI支持日期:2021年7月1日获得学位:HESAM大学博士编写地点:国家艺术与工业学科:人文与新专业:信息与通信科学论文指导人:查特龙·吉斯莱恩并由以下人员共同监督:M. BACHR艾哈迈德·阿卜杜拉陪审团Ghislaine CHARTRON女士,巴黎CNAM大学教授,论文主任M. Ahmed Abdelilah BACHR,拉巴特ESI大学教授,共同主管Brigitte SIMONNOT女士,洛林大学大学教授,报告员M. Imad SALEH,巴黎第八大学大学教授M. Mostafa BELLAFKIH,拉巴特INPT大学教授,主席/审查员THSE2宣誓书本人,Amine SENNOUNI,特此声明,本手稿中的工作是本人的工作,在Ghislaine CHARTRON女士(主任)和M. Ahmed Abdelilah BACHR(联合主任),根据原则研究任务中固有的诚实、正直和责任。本手稿的研究和写作是根据《国家研究职业道德宪章》进行的。本作品之前未在法国或国外以相同或相似的版本提交给审查机构。巴黎制造,2021年7月19日签名宣誓书本人,签名人Amine SENNOUNI,特此声明,本手稿中的工作是我自己的工作,在GhislaineCHARTRON夫人(论文主任)和Ahmed Abdelilah BACHR先生(合著主任)的科学指导下进行,符合研究任务中固有的诚实、正直和责任原则。本手稿的研究工作和写作是根据法国研究诚信宪章进行的。本作品之前未在法国或国外以相同或类似版本提交给任何其他审查机构。巴黎广场,日期19/07/2021签名3奉献我把这篇论文献给,作为对以下方面的尊重、感激和认可:-我亲爱的父母,赛达和艾哈迈德·拉希德,感谢他们所有的牺牲,他们永恒的爱和温柔;-我的兄弟亚辛,感谢他不断的支持和鼓励;-我的叔叔迈赫迪在我在法国的论文期间在各个层面上都无条件地-我亲爱的家人感谢他们的关爱和支持;-感谢我最好的朋友们的帮助、时间、鼓励、帮助和支持;-我的导师们,他们通过他们的指导和建议极大地帮助了我完成了这篇论文。感谢所有以这样或那样的方式为这篇论文的实现做出贡献的人。非常感谢4谢谢你在介绍我的作品之前,我特别高兴地向那些从四面八方关心我的首先,我要感谢Ghislaine CHARTRON女士,她是国家艺术与工业学院(CNAM)的教授、文献科学与技术研究所(INTD)的所长和我的博士论文的主任,感谢她的可用性、她的中肯评论、她的严谨、她的明智建议和她的指导方针。我也要感谢M. Ahmed Abdelilah BACHR,信息科学学院(ESI)教授我也要感谢Pr.布里吉特·西蒙诺特,公关伊马德·萨利和Pr.Mostafa BELLAFKIH感谢他们的可用性,感谢他们让最后,我要感谢M.感谢ESI主任Salaheddine BAHJI的支持和指导,以及El HassanLEMALLEM,ESI前主任,高级专员的顾问,他的计划使我能够进行这次研究冒险。我还要感谢5摘要推荐系统是正在改变信息搜索的机器学习模型的一部分。这一概念在专门用于研究的文献服务中仍然是新的,并且很少有工作在物理文献信息服务(SID)中为特定类别的用户(即研究人员)处理这些系统C’est 为我们的工作确定了三个次级目标: 诊断 为IMIST的推荐系统建模 实施并评估适用于IMIST的推荐引擎原型为了将我们的工作置于背景下,我们首先考虑了数据在优化文化产业的流程和服务方面的重要性,然后特别是在文献服务方面。根据我们的领域,我们随后评估了IMIST对推荐系统的需求然后,我们的贡献是建立所提出的推荐系统的原型区分了该系统包括将用户的隐式数据转换为显式数据以供使用 。 L’implémentation du système a été effectuée dans un environnement Spark dédié àl’apprentissage6矩阵因式分解的交替平方(ALS),属于基于模型的协作过滤方法。关键词:推荐系统,机器学习,隐式数据,协作过滤,文献信息服务7英文摘要推荐系统是机器学习的一个有前途的领域,它已经彻底改变了信息检索。这一概念在纪录片结构中仍然是新的,很少有作品能处理这一点。我们论文的背景是摩洛哥科学和技术信息研究所(IMIST),其目标是根据协作过滤方法,设计并推荐一个基于日志数据的系统。三个次级目标用于指导我们的工作:诊断现有情况,并确定在使用推荐系统方面对IMIST的需求; 为IMIST推荐系统建模 实施并评估推荐系统的原型。为了实现这些目标,我们首先确定IMIST对推荐系统的需求,然后根据用户的隐式数据设计并开发一个原型来提供推荐。该原型区分了匿名用户和订户用户,匿名用户根据所查看的记录从推荐中获益,订户用户根据其简档为其提供个性化推荐。应该注意的是,为了利用分数,需要将用户的隐式数据转换为分数形式的显式数据。该系统的实现是在Spark环境中使用Scala语言和ALS训练矩阵因式分解的隐式模型完成的。关键词:推荐系统,机器学习,隐式数据,协作过滤,文档服务,图书目录,OPAC,内容行业,数据评估,摩洛哥。8材料表奉献3感谢4摘要5英文摘要7首字母缩略词和缩写列表12表14列表图15列表附件列表17一般介绍18I. 研究问题:研究目标和问题19II. 方法、概念框架和研究制约因素25III. 论文的结构26第一部分:文化产业中的数据:亮点第1章:文化产业中的数据驱动型导言301. 文化产业和新问题302. 数字、数据和文化经济34第2章:不同文化部门的数据类型41导言411. 结构化和非结构化数据412. 数据和媒体433. 专业实践的更新:数据新闻454. 媒体数据:机遇与挑战475. 出版业的数据........................................................................................................................................6. 音乐行业的数据567. 电子学习领域的数据598. 关于文化产业中数据使用的综合........................................................................................................9. 文化产业中使用数据的障碍................................................................................................................结论66第二部分:数据和SID 67第1章:SID中的数据增长和相关服务的多样化689导言681. SID 68中的数据类型2. L’exemple d’Online Computer Library Center OCLC) : évolution des services de3. 建立........................................................................................................................................................4. 增加研究机会785. 扩充的文献目录806. SID活动数据的可视化关于SID86数据增长的结论第2章:SID 88导言881. 大数据:维度和基础设施882. 我们能在SID中谈论大数据吗?.......................................................................................................913. SID 94中的数据挖掘开发4. L’impact du big data sur l’évolution des compétences des professionnels结论99第三部分:推荐系统及其开发101第1章:推荐系统建模,引言102第2章:建议105的导言1051. L’approche objet ou basée sur le contenu (2. L’approche de la recommandation sociale ou de filtrage collaboratif (3. L’approche de la recommandation hybride4. 建议109的其他方法结论110第3章推荐算法111引言1111. L’apprentissage2. 基于内容的推荐算法1133. L’algorithme de filtrage collaboratif à base4. L’algorithme de filtrage collaboratif à base767470235.推荐系统中使用的数据类型...........................................................................................1196. L’exemple de Spotify et7. 用于在推荐系统中开发用户简档的模型1278. L’évaluation des systèmes109. 电子商务中的推荐系统13410. 内容行业中的推荐系统和SID 139结论149第四部分:案例研究:IMIST 150目录SR的设计和建模........................................................................第1章:介绍..............................................................................................................................................导言1511. 背景和研究语料库的............................................................................................................................2. 摩洛哥科学和技术信息研究所目前的文件系统............................................................................................................................................................. 1543. IMIST 156中的综合图书馆管理系统结论158第二章:数据及其价值评估的利害关系................................................................................................引言1601. 当前的数据使用:IMIST 160数据使用的一般调查............................................................................2. 使用数据实现目录的个性化1633. 所述需求1644. L’objectif de la5. 面向应用于信息服务的推荐系统的建模纪录片:调查结果和准则165结论168第3章:设计和建模169导言1691. IMIST语料库2. 语料库监督分类1733. 在线目录中结果的"不相关性"1754. 面向信息服务的推荐系统模型的研究纪录片(SID)1765. L’architecture fonctionnelle du6. L’extraction de fichiers7. 将隐式数据转换为显式数据(处理)1858. 186数据的加载9. 数据清理(处理)18710. 等级范围的定义(处理)18811. 以最终格式存储1911112. 建议192的设想13. 建议模板的目标19514. 对参与拟议模式的196结论197第4章:原型的实现 建议系统..........................................................................................................199导言1991. L’architecture technique2. 关于Spark 203的更多信息3. 204推荐系统原型的实施4. 经身份验证的用户205的情况..............................................................................................................5. 匿名用户213的案例..............................................................................................................................结论217第5章:评估拟议的SR原型 219导言2191. L’évaluation hors ligne : le calcul des fonctions d’erreur2. 程序执行时间的计算3. L’évaluation en4. L’évaluation explicite des utilisateurs par结论228拟议模型和原型的局限性229一般结论和展望231与论文235附件249附录1l’IMIST附录2-关于原型用户样本满意度的小型调查问卷建议25412首字母缩略词和缩写列表首字母缩略词或缩写为发展中国家AJAX异步JavaScript和XMLALS交替最小平方应用程序应用程序编程接口CDD杜威十进制分类法CNIL的国家自由委员会计算机科学和从CSV逗号分隔值DC都柏林核心ETL提取转换负载FOAF朋友的朋友GAFAM谷歌、苹果、Facebook、亚马逊和微软模仿者摩洛哥技术学院l’Information和INRA国家农业ISBN国际标准书号K-NNK-最近的邻居LOD链接的开放数据MAE平均绝对误差马克机器可读编目MSE平均平方误差NMAE标准化平均绝对误差OCLC在线计算机图书馆中心OPAC在线公共访问目录RDD弹性分布式数据集RDF资源描述框架RGPD一般数据13RMS根均方误差RTB实时竞价SID文献信息服务SIGB综合图书馆SKOS简单知识组织系统SR推荐系统的设计CT文本和数据挖掘UMAE用户平均绝对误差VIAF虚拟国际权威文件14图片列表表1:文化产业部门数据挑战的比较综合.................................................................................表2:文化产业领域最佳数据利用的制约因素.................................................................................................................................................. 66表3:文献信息服务所使用的数据类型.................................................................................................................................................. 69表4:扩大的文献目录所履行的职能82表5:基于内容的推荐的优缺点106表6:基于协作过滤的推荐的优缺点.......................108表7:计算对象(项目/文章)之间相似性的方法115表8:用户之间相似性的计算方法117表9:推荐表10:Spotify和Netflix推荐系统中的服务示例。122表11:Spotify上使用自动语言处理的术语权重.............................................................................................................................124表12:选定数字表13:选定数字图书馆的推荐系统与设想原型的比较167表14:用于识别GBMIS PMB 170 OPAC上的用户操作的统计数据................................表15:杜威十进分类法172的表16:按CSD 175类别划分的IMIST OPAC用户样本分布...............................................表17:表18:Spark和Mahout 181开源学习库的比较表19:要利用的文件的形式187表20:与收集的日志数据参数相对应的符号定义.............................................................188表21:将数据转换为显式符号后获得的文件摘录................................................................................................................................................ 189.表22:最终文件192表23:原型206表24:评估函数的值221表25:Spark上推荐脚本的运行时间测试值................................................................................................................................................ 223表26:测试建议224原型前后文献资源使用日志数据的比较...........................................15图列表图1:图2:2003-2013年欧洲图3:文化产品在欧洲公民日常活动中的时间位置36图4:文化大数据38图5:数据新闻的三技能模型47图6:数据时代新闻界的新商业模式图7:图8:图9:在芬兰门户网站Kulttuurisampo上搜索两个人之间的关系.................................................................................................................................................. 78图10:Max Ernst.................................................................................................................................................. 79图11:密歇根大学图书馆在线目录83中文档全文的链接...................................................图12:将.................................................................................................................................................. 84图13:Preved 85图14:Counter 93图15:Netflix 125平台图16:.....................................................................................................................................图17:数据收集阶段129图18:配置文件130图19:电子商务中的推荐流程136图20:ACM数字图书馆140图21:.....................................................................................................................................图22:图23:....................................................................................................................................图24:在搜索科学文章时实现的bX推荐服务....................................................................145图25:图26:IMIST 153提供的产品和服务图27:在IMIST 155图28:GBMIS PMB在线目录的搜索页面,结果按第158页组织图29:GBS PMB 17116图30:2015年IMIST OPAC的500名用户的图31:OPAC IMIST 174图32:建议推荐模型的总体视图178图33:基于ALS 182的图34:通过拟议模型的推荐流程184图35:将隐式数据转换为分数的过程186图36:CSV测试文件(文档和评估)的结构190图37:通过应用程序提出的推荐方案图38:根据统一建模语言(UML)197的用户图39:在Oracle VMVirtualBox 200图40:................................................................................................................................................ 201图41:201虚拟机上的Hadoop和Spark安装文件图42:图43:图44:设想的推荐系统如何工作:经过身份验证的用户205的情况...............................图45:图46:使用Scala 208图47:使用Scala 209图48:图49:自Spark 211图50:通过身份验证的用户启动请求212图51:向经过身份验证的用户显示推荐213图52:推荐系统如何工作:匿名用户的案例................................................................................................................................................ 214图53:匿名用户在"大数据"上的搜索结果215图54:通过Scala加载数据以计算相似性216图55:相似性计算脚本216图56:匿名用户217图57:加载数据和模型时的评估算法图58:系统222的图59:用户对原型226总体贡献的评价图60:用户对建议相关性的反馈22717附件列表附例标题页面附件1关于在向研究人员提供的文献中使用数据的调查问卷250附件2关于推荐解决方案原型用户样本满意度的问卷调查25418一般介绍我们的论文是在文档结构服务中用户体验个性化的框架内进行的。事实上,在文档信息服务(SID)中搜索文档对于SID建立了由几个细分级别组成的分类系统,这使得用户很难掌握这些系统。此外,这些集合是可扩展的,因为新的资源进入,在线公共访问目录(OPAC)允许用户使用关键字或主题搜索和查找文件的描述性相比之下,这些在线公共目录通常需要用户花费大量时间我们认为,SID的在线目录将受益于更具体的内容,根据用户与目录的交互历史提供推荐许多行业已经将推荐系统移植到他们的交易网站上,以确保他们的客户获得个性化的体验,在那里类似的产品和服务被突出显示,以这些系统已经开发了20多年,特别是在电子商务领域。我们的论文领域是为了实现这一目标,通过推荐系统对在线目录进行个性化,应倡导研究人员在选择和访问IST时提高准确性、相关性19在20世纪90年代,国际和多学科的DELOS/NSF工作组1致力于与数字图书馆的到来有关的技术问题,特别是个性化系统,该工作组的一个委员会提出了数字图书馆的复杂性和整合所收集的用户数据的迫切需要就我而言,作为我硕士论文的一部分,我开始对信息搜索中的个性化问题感兴趣。在这次会议上,调查结果是,这些决策者中的大多数需要根据他们不断变化的兴趣和情况定制其公司的环境监测系统此外,这一问题涉及多个研究学科:信息检索、机器学习推荐系统可以在多大程度上为文档结构的用户定制和改进对文档和信息资源的搜索和访问?I.研究问题:研究信息技术和通信网络的最新发展使信息具有了新的特点,同时认识到了信息的科学、技术和实用价值。此外,数字化和共享技术的进步促进了其生产、利用和流通。在摩洛哥,研究人员面临着一个不利于科学研究发展的环境,首先是分配给科学研究的预算很低,而且往往是在经济上不平衡的情况下。1拉弗塞,p。老鼠,S。基于书目记录的推荐系统文献和图书馆,64(2),2018年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功