大规模语言模型的多语言推理能力

人工智能

需积分: 1 83 浏览量更新于2024-06-25 收藏 942KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文探讨了大型语言模型在多语种环境中的推理能力。通过创建多语种小学数学（MGSM）基准，手动将250个来自GSM8K数据集的小学数学问题翻译成多种类型各异的语言，研究发现，通过链式思考提示解决MGSM问题的能力随着模型规模的增加而显现，且语言模型在未充分代表的语言如孟加拉语和斯瓦希里语中也表现出显著的多语言推理能力。此外，还展示了语言模型的多语言推理能力可以扩展到其他任务，如常识推理和词在上下文中的语义判断。MGSM基准已在GitHub上公开发布。" 本文的核心观点和知识点如下： 1. 大型语言模型的推理能力：研究表明，随着模型规模的增长，语言模型在解决复杂问题时的推理能力会逐渐增强。这种推理能力不仅限于原始训练语言，而是可以跨语言应用。 2. 多语种小学数学（MGSM）基准：这是由250个GSM8K数据集中的数学问题手动翻译而成的，目的是测试和评估语言模型在不同语言环境下的推理性能。这个基准涵盖了多种类型的语言，旨在反映语言的多样性。 3. 链式思考提示：这是一种强化模型推理的方法，通过引导模型逐步解析问题，展示其解决问题的思考过程，从而提高模型的解答能力。在MGSM任务中，这种方法证明是有效的。 4. 对未充分代表语言的支持：研究发现，即使在使用如孟加拉语和斯瓦希里语等相对较少使用的语言时，大型语言模型也能展现出强大的推理能力，这表明模型的泛化性能良好。 5. 多语言推理的扩展性：语言模型的多语言推理能力不仅限于数学问题解决，还可以应用于其他领域，例如常识推理，其中模型需要理解并运用日常生活中的常识来做出判断，以及词在上下文中的语义判断，要求模型能够理解单词在特定语境中的含义。 6. 公开资源：MGSM基准是公开的，研究人员和开发者可以在GitHub上获取，这为学术界和工业界提供了进一步探索和改进多语言推理模型的工具和平台。这篇论文揭示了大型语言模型在多语种推理上的潜力，并提供了一个评估和提升这些模型性能的新工具。这对于推动人工智能的发展，尤其是增强跨语言理解和推理能力具有重要意义。

资源详情

资源推荐

DIRECT NATIVE-COT EN-COT TRANSLATE-EN

NATIVE-EXEMPLARS X X X X

ENGLISH-EXEMPLARS X N/A X N/A

MULTILINGUAL-EXEMPLARS X X X N/A

Table 2: Possible combinations between few-shot exemplar selection and solution strategies.

Model output

Model input (native exemplar prompting)

: রজােরর 5 টিনস বল আেছ স আরও 2 কান টিনস বল

িকেনেছ িত কােন 3 কের টিনস বল আেছ তার কােছ এখন

কতিল টিনস বল আেছ?

ধােপ ধােপ উর: রজােরর থেম 5 বল িছল 2 কােনর িতেত

3ট টিনস বল মােন 6 টিনস বল 5 + 6 = 11 উর হল 11

: জেনেটর হাঁসিল িতিদন 16 কের িডম পােড় িতিন িতিদন

াতরােশ িতন কের িডম খান এবং বুেদর জন িতিদন চার িডম

িদেয় মািফন তির কেরন অবিশ হাঁেসর িডমিল িতিন িতিদন

কৃ ষকেদর বাজাের িত িডম $2 দের িবয় কেরন িতিন কৃ ষকেদর

বাজাের িতিদন কত ডলার উপাজ ন কেরন?

ধােপ ধােপ উর:

িতিদন 16 িডম পােড় িতিদন িতন িডম খান এবং চার িডম

িদেয় মািফন তির কেরন তাই িতিদন 16 - 3 - 4 = 9 িডম

অবিশ থােক িত িডেমর মূল $2 হেল িতিদন 9 * 2 = 18

ডলার উপাজ ন কেরন উর হল 18

িতিদন 16 িডম পােড় িতিদন িতিন িতন িডম খান এবং চার

িডম িদেয় মািফন তির কেরন তাই িতিদন িতিন 16 - 3 - 4 = 9

িডম িবয় কেরন িত িডেমর দাম $2 তাই িতিদন িতিন 9 * 2

= $18 উপাজ ন কেরন উর $18

Задача: у Майкла было 58 мячей для гольфа. …

Сколько мячей для гольфа осталось у него к концу

среды?

Пошаговое решение: вначале у Майкла было 58

мячей для гольфа, 23 он потерял, и у него осталось

58 - 23 = 35. … Ответ — 33.

问题：奥利维亚有 23 美元。 ... 她还剩多少钱？

逐步解答： 5 个单价 3 美元的百吉饼应该花费 5 * 3 = 15

美元。... 答案是 8。

: জেনেটর হাঁসিল িতিদন 16 কের িডম পােড় িতিন িতিদন

াতরােশ িতন কের িডম খান এবং বুেদর জন িতিদন চার িডম

িদেয় মািফন তির কেরন অবিশ হাঁেসর িডমিল িতিন িতিদন

কৃ ষকেদর বাজাের িত িডম $2 দের িবয় কেরন িতিন কৃ ষকেদর

বাজাের িতিদন কত ডলার উপাজ ন কেরন?

ধােপ ধােপ উর:

Model input (multilingual exemplar prompting)

Bengali question

Russian question

Bengali question

Bengali chain

of thought

Bengali chain

of thought

Russian chain

of thought

Chinese question

Chinese chain

of thought

Bengali question

Bengali chain

of thought

Figure 3: The chain-of-thought prompts and example model outputs in the MGSM experiments. The

solutions are written in the same language as the questions of interest (NATIVE-COT).

Beyond the prompting methods, there are different ways to provide few-shot examples in context for

multilingual prompting:

• All native question exemplars (NATIVE-EXEMPLARS).

We use a few in-language questions

together with their solutions as the few-shot prompt exemplars. This is the most natural setting

when we have a few examples in each investigated language.

• All English question exemplars (ENGLISH-EXEMPLARS).

When we are unable to access any

existing questions or solution examples in some languages, an intuitive way is to use English

questions and solutions as exemplars to perform zero-shot cross-lingual transfer. Note that it is

unrealistic to combine this exemplar selection setting with NATIVE-COT, since we assume no

access to the native language for prompting.

• Generic multilingual question exemplars (MULTILINGUAL-EXEMPLARS).

Similar to

ENGLISH-EXEMPLARS, we assume access to questions and solutions in a few languages, and test

if multilingual exemplars better elicit the multilingual reasoning ability of models.

For TRANSLATE-EN, as all exemplar questions and solutions are in English, we only experiment

with the translated native question exemplars and English CoT. We summarize the combinations

of prompting and exemplar methods in Table 2, and present an illustration in Figure 3. Detailed

prompting input for each investigated combination can be found in Appendix A.2.

4 EXPERIMENTS ON MGSM

In this section, we evaluate the multilingual reasoning abilities of two representative state-of-the-art

pretrained large language models—GPT-3 (Brown et al., 2020) and PaLM (Chowdhery et al., 2022)

—on our MGSM benchmark in various prompting settings using exemplars in the source language

剩余19页未读，继续阅读

IT徐师兄

粉丝: 1980
资源: 2689

大规模语言模型的多语言推理能力

Multimodal Chain-of-Thought Reasoning in Language Models.pdf

bert_config.json在哪下载

给我推荐20个比较流行的NLU 深度学习模型

bert ckpt下载

推荐30个以上比较好的命名实体识别模型

如何用AutoTokenizer和AutoModel加载本地paraphrase-multilingual-MiniLM-L12-v2"模型

推荐30个bert压缩模型

raise EnvironmentError(msg) OSError: Model name './prev_trained_model/bert-base-chinese/' was not found in model name list (bert-base-uncased, bert-large-uncased, bert-base-cased, bert-large-cased, bert-base-multilingual-uncased, bert-base-multilingual-c

推荐30个以上比较好的自然语言处理模型以及github源码？

帮我写一个英语口语展示的稿子

YAGO数据库参考文献

Resource omw-1.4 not found. Please use the NLTK Downloader to obtain the resource:

KCL WS.pdf

大模型 英文怎么翻译

目前效果较好的生成网络有哪些

推荐30个以上比较好的中文bert系列的模型github源码

常用文本检测数据集及大小，还有它们的下载地址

基于ssm框架的网约车管路系统外文翻译

NLP基础知识点：COMET（及Python代码实现）

最新资源

大模型英文怎么翻译