神经网络在数学推理挑战中表现不佳

146 浏览量更新于2023-12-25 收藏 350KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程5（2019）817新闻亮点数学推理挑战人工智能肖恩高级技术作家深度神经网络形式的人工智能（AI）在各种高调的设置中表现出色，从图像识别和游戏到自然语言翻译和语音合成[1然而，它在数学推理方面的表现，被认为是人类智力的核心能力，似乎有点不那么令人印象深刻-至少在目前。2019 年 4 月， Alphabet 公司旗下专注于人工智能的企业DeepMind Technologies的一个伦敦团队Google的母公司发表了一项研究，探索最先进的通用神经网络执行数学推理的能力[5]。为了提供一个易于理解的评估，DeepMind它在40分中得了14分，相当于不及格，导致媒体头条新闻，如这种评估可能有点不公平，因为结果并不令人惊讶，OpenAI首席科学家Ilya Sutskever说，OpenAI是一家总部位于旧金山的专注于人工智能的公司，微软已同意投资10亿美元。‘‘The goal was mainly toinvestigate the capabilities of current, commonly used neuralnetworks,” said Sutskever, who co-authored previous workthatwas cited by the DeepMind team ‘‘The results demonstrated thatwhen it comes to mathematical reasoning, these neural net- workmodels这样的推理对人工系统来说是具有挑战性的，因为它涉及的不仅仅是计算数字：它需要一套认知能力，包括学习基本公理以及推断、计划和以正确顺序做事的能力，当然，首先要理解问题。‘‘Any very usefulAI system will need to be able to deal with math, reasoning, andcalculation, and flexibly apply these kinds of skills in real-worldsettings,”DeepMind数据集基于英国国家学校数学课程，包括代数、算术、微积分、比较、多项式和概率等模块。对于每个模块，该团队生成了200万个问题（输入）和答案（输出），神经网络模型在此基础上进行了训练，随后测试了10万个问题虽然最近的一些研究已经探索了人工智能在西雅图华盛顿大学艾伦人工智能研究所[10]，DeepMind的数据集更多地关注数学推理，而不是问题的语言理解。为此，它涵盖了更多的数学领域，在如何提出问题本身的变化较少。‘‘If we can develop moresophisticated models that are good at solving the problems in thisdata set, then these models would likely be using general skills thatwould be good at solving other hard prob- lems in AI as well,” saidthe first author of the DeepMind paper经过测试，性能最好的模型是Transformer，由Ashish Vaswani及其同事在Google Brain（一个机器学习小组）和Google Research（位于美国加利福尼亚州山景城）于2017年推出。该模型的表现与其他模型一样好或更好，这些模型是长短期记忆（LSTM）模型的变体“最令人惊讶的是，一个开箱即用的语言模型--transformer--可以在许多类型的数学问题上做得很好，”萨克斯顿说。例如，在涉及四舍五入和比较大小的问题上，它取得了近乎完美的分数。人工智能最难回答的问题包括那些需要更多理论和程序知识的问题，例如因子分解，这对人类来说也很难。这就说得通了“仅仅从输入/输出示例中推断出组成规则本身似乎非常困难，”爱丁堡大学贝叶斯中心主任Michael Rovatsos说，他也隶属于伦敦的Alan Turing研究所，这两个研究所都是人工智能和数据科学的领先研究所。Transformer模型正确回答了模块“加或减几个数字”和“乘或除几个数字”中90%或更多的问题。但是，在涉及使用括号将所有四个操作混合在一起的问题上，正确率下降到50%。在他们的论文中，作者推测，出现较差的结果是因为虽然基本操作可以以相对线性，直接的方式执行，但“没有捷径来评估带有括号的算术表达式，其中需要计算中间值”，具有数学基础知识的人会知道如何做。研究人员认为这是模型没有学会任何代数/算法操作值的证据，而是“学习相对较浅的技巧”来获得答案。测试还产生了一些意想不到的结果（图1）。在一个问题上，经过训练的Transformer模型正确回答了https://doi.org/10.1016/j.eng.2019.08.0092095-8099/©2019 THE CONDITOR.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表工程杂志主页：www.elsevier.com/locate/eng818S. 奥尼尔/工程 5 （2019）817≤···×Fig. 1.在DeepMind的数据集上训练和测试的神经网络有时会以意想不到和令人惊讶的方式失败。模型确实正确地解决了这个众所周知的问题（1 + 1 = 2），以及相关的1 +1 +···+1问题，其中1出现n次，直到n= 6。然而，对于n= 7，模型回答6，对于n> 7，它们回答其他错误的值。图片来源：Pexels（公共领域）。‘‘Calculate 68.同样的问题，但没有per-iod，导致答案69。其他试题1 +1 ++ 1，其中1出现n次。对于n6，LSTM和trans-former模型都回答正确。对于n= 7，模型回答6. 对于n> 7，他们用其他不正确的值来回答研究的一个重要贡献是模块化，因此很容易扩展，数据集。“我们希望这个数据集将成为一个强大的可分析基准，用于开发具有更多功能的模型，”作者写道。他们指出，未来有用的工作将是扩展数据集，以包括更复杂的语言和视觉问题，如几何。就神经网络本身而言，Saxton表示，DeepMind团队的下一步是开发能够学习在代数/符号推理任务中表现出色的模型。但也许最重要的是要确定模型是如何得出错误答案的（图2）。‘‘We’ve got a long way to go before we have reliable tools thatcan tell us why a对于一些研究人员来说，神经网络的这个神秘的“黑匣子”元素-无法理解它们是如何做出决定的-代表了技术向人工通用智能（AGI）发展的关键问题。Rovatsos说：“让我担心的是，我们关注的是量化表现，而不是可理解性。 ”‘‘Should AI really start to develop human- levelintelligence and be widely adopted for everyday use, wewouldwant to scrutinise and correct these systems to ensure theirbehavior 它图2.深度神经网络在处理涉及人工智能的问题时所建立的连接通常是一个图片来源：DeepMind，经许可。在我看来，我们引用[1] 李TB。计算机是如何惊人地擅长识别图像的。Ars Technica; 2018年12月18日[引用于 2019 年 7 月 24 日 ] 。可从以下网址获得： https ：arstechnica.com/science/2018/12/how-computers-got-shockingly-good-at-recognizing-images/。[2] 斯托克-沃克角DeepMind AI在视频游戏《星际争霸II》中击败人类专业人士。伦敦：新科学家 ; 2019 年 1 月 24 日 [ 引用 2019 年 7 月 24 日 ] 。可从以下网站获得：https://www.newscientist.com/article/2191910-deepmind-ai-thrashes-human-professionals-at-video-game-starcraft-ii/。[3] 乔希山口一个必读的NLP教程神经机器自动化-技术供电谷歌翻译[互联网]。中等;2019 年 1 月 31 日 [ 引用日期： 2019 年 7 月 24 日 ] 。可从以下网站获得：https://medium.com/analytics-vidhya/a-must-read-nlp-tutorial-on-neural-machine-translation-the-technique-powering-google-tutorial-c5 c8 d97 d 7587。[4] Wang X，Takaki S，Yamagishi J.基于神经源滤波器的统计参数语音合成波形模型。在：2019年IEEE声学，语音和信号处理国际会议论文集; 2019年5月12日至17日;英国布莱顿。Piscataway：IEEE; 2019.p. 5916- 20[5] Saxton D，Grefenstette E，Hill F，Kohli P.分析神经模型的数学推理能力。2019.arXiv：1904.01557。[6] 田河DeepMind AI高中数学考试不及格[互联网]。中等; 2019年4月5日[引用日期：2019年7月24日]。可从：https://medium.com/syncedreview/deepmind-ai-flunks-high-school-math-test-2 e32635 c 0 e2 d获得。[7] 内利斯·S微软将向OpenAI投资10亿美元伦敦：路透社; 2019年7月22日[引用于2019 年 7 月 24 日 ] 。可查阅： https://www.reuters.com/article/us-microsoft-openai/microsoft-to-invest-1-billion-in-openai-idUSKCN1UH1H9。[8] 凯泽湖神经GPU学习算法。2015年。arXiv：1511.08228。[9] 苏茨克韦尔·扎伦巴学习执行。 2014. arXiv：1410.4615。[10] Euclid [Internet].西雅图：艾伦人工智能研究所;[引用2019年7月24日]。可从以下网址获得：http://allenai.org/euclid/[11] [10] Vaswani A，Shazeer N，Parmar N，Uszkoreit J，Jones L，Gomez AN，etal. 注意力就是你所需要的。在：第31届神经信息处理系统会议论文集; 2017年12月4日至9日;长滩，加利福尼亚州，美国。p. 5998- 6008

下载后可阅读完整内容，剩余1页未读，立即下载