翻译后摘要:算法评估扩展到测试?我们是这么认为的。连战1,2,<$,罗宾Verachtert1,2,<$,金福尔克3,<$和巴特Goethals1,2,41Froomle N.V.,比利时2比利时安特卫普大学3加拿大4澳大利亚墨尔本莫纳什大学摘要软件工程师几乎通过单元测试、回归测试和集成测试来测试他们所有的代码。相比之下,数据科学家和机器学习工程师通常仅根据训练或评估损失以及准确性、精确度或召回率等任务性能指标来评估模型。当“代码”变成“算法”时,软件最佳实践往往被忽视。在我们的研究中,我们发现大多数公开可用的算法实现确实没有经过排名性能指标的测试例如召回率和归一化折扣累积增益。将软件测试最佳实践应用于算法似乎令人生畏(而且没有必要)。然而,像scikit-learn和SpaCy这样的软件包已经证明了测试算法(至少是某些方面)是完全可能我们认为算法应该被测试。如果没有测试,您可能最终会得到死代码路径、无法更新的梯度或未能检测到的逻辑错误 那么问题就变成了:我们应该如何测试算法?在研讨会上,我们希望展开讨论。我们从软件测试范例的概述开始:从黑盒测试到白盒测试,从单元测试到回归测试等等。然后,我们提出了一些测试模式的例子,我们已经应用到我们的推荐算法实现。在讨论的最后,我们希望已经回答了以下一些(2)推荐算法的哪些方面最能从测试中受益?(3)我们如何将这些软件测试范例转化为推荐算法?(4)我们可以设计什么样的测试(5)这些测试中的哪一个应该成为研究人员标准实验流程的一部分?我们计划在未来的出版物中总结这次讨论的结论,并附带一个测试工具包。Perspectives on the Evaluation of Recommender Systems Workshop(PERSPECTIVES 2022),2022年9月22日,与第16届ACM推荐系统会议在美国华盛顿州西雅图[2]这些作者的贡献是均等的。lien. froomle.com(L.电子邮件地址:froomle.com(R. Verachtert); Kim.falk. gmail.com(K.Falk);bart.goethals@ uantwerpen.be(B. Goethals)0000 -0003-0152-2460(L. 0000-0003-0345-7770(R. Verachtert);0000-0002-3573-9257(K. Falk);0000-0001-9327-9554(B. Goethals)© 2022本文版权归作者所有。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用CEUR研讨会论文集(CEUR-WS.org)1C EU Rhttp://ceur-ws.org讲习班ISSN1613-0073诉讼