「信号噪声中的语言模型：识别更多论文」

133 浏览量更新于2023-12-01 收藏 4.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文噪声中的信号：用识别器感知的语言模型朱波哥伦比亚大学mbc2165@columbia.eduBhargav Srinivasa Desikan洛桑联邦理工学院bhargav. epfl.ch伊森·奥纳德勒南加州enadler@carnegiescience.edu鲁杰里奥湖SardoSapienza罗马大学losardor@gmail.com伊莉斯·达拉-福特斯坦福大学KIPAC物理系edarragh@stanford.edu道格拉斯·吉尔博加州大学伯克利分校哈斯商学院电子邮件：berkeley.edu摘要自然语言处理模型基于分布假设来学习单词表示，该分布假设断言单词上下文（例如，共现）与含义相关我们提出，由随机字符序列或乱码组成的n元语法，为研究现存语言内外的词义提供了一个新的语境。特别是，随机生成的字符n元语法缺乏意义，但包含基于它们包含的字符分布的原始信息。通过使用Character-BERT研究大型乱码、现存语言和伪词语料库的嵌入，我们在模型的高维嵌入空间中确定了一个轴，该轴此外，我们表明，这一轴涉及到现存的语言结构，包括词的词性，形态和概念的具体性。因此，与主要局限于现存语言的研究相比，我们的工作揭示了意义和原始信息的内在联系。1介绍字符序列包含哪些基本信息现代自然语言处理是由分布假设（Firth，1957）驱动的，该假设认为语言表达的上下文定义了它的含义（Emerson，2020）。因为现有的单词--它们代表了可能的字符序列空间中非常小的一部分--一起出现在上下文中，在这个级别上的分布范例在其研究任意字符级别的N元语法（单词形式）的意义和由其编码的信息的能力方面是有限的。此外，在分布范式内操作的最先进的计算语言模型，例如BERT（Devlin et al. ，2019），主要是对现存的单词进行训练。然而，对语言学习的大量见解来自于对现存单词之外的语言的研究，例如儿童在区分现存单词与非语言听觉信号（包括情感表达、听觉手势和其他形式的非语言言语）时所表现出的语法错误和推理模式（Yang，2006;Carey，2000）。因此，我们建议字符n-gram（即，字母字符序列）可以提供对单词的含义以及它们如何由这些模型表示的新的洞察，而不仅仅是由基于单词和子单词的分布语义所捕获的。我们通过研究随机生成的字符n-gram（称为乱码）的嵌入来探索这一点，这些字符n -gram包含原始的通信信息，但没有意义，使用Charac- terBERT模型（ElBoukkouri et al. ，2020）。这种随机生成的字符n-gram是非语言学发声的文本类似物-语音语音外声音和噪声。我们的分析有助于对BERTology（Rogers etal. ，2020）通过识别一个维度，我们称之为信息轴，它将现存和乱码arXiv：2203.07911v1 [cs.CL] 2022年3月+v：mala2277获取更多论文n-grams。这一发现得到了马尔可夫模型的支持，该模型根据字符n-gram的统计特性产生了字符引人注目的是，这种信息维度与现存语言的属性相关;例如，在我们的PinterterBERT嵌入空间投影中，词性沿着信息轴分开，单词的具体性沿着大致正交的维度变化虽然我们识别的信息轴非常有效地分离了现存的和随机生成的n元语法，但我们证明了这些n元语法类详细地相互混合，并且伪词-即，语音连贯字符n元语法没有现存的词汇意义，在我们的BLEsterBERT嵌入之间本文的组织结构如下。我们首先讨论了自然语言处理，信息论和语言学的相关概念。然后，我们分析了现存的和随机生成的字符序列，以及两者之间的关系如何通知现存语言的结构，包括形态，词性，和词的具体性的InterterBERT表示最后，我们在预测马尔可夫语言模型中建立了我们的信息轴。2超越现存语言的n计算语言学中的模型通常根据分布假设基于它们的共现模式在高维嵌入空间中表示词（Landauer和Dumais，1997; Mikolov等人，1998）。，2013）。捕获现有单词的语义内容的嵌入用于许多自然语言应用，包括文档或句子分类（Kowsari et al. ，2019），信息检索和搜索（米特拉等。，2018），语言建模和翻译（Devlin et al. ，2019），语言生成（Brown etal. ，2020），以及更多（Jurafsky和Martin，2021）。在这些情况下，对词嵌入执行的向量操作用于更高级别的任务，如搜索或分类。词嵌入在很大程度上涉及到他们自己与现存的语言，也就是说，常用的话，携带一致的意义，2010）或编码器 - 解码器架构（ Sutskeveretal. ， 2014 ）来表示字符级序列。同时，Transformer模型的普遍使用导致了对其内部表示、权重和注意力机制的研究（Rogers etal. ， 2020; Clark 等人， 2019 ）。大多数Transformer模型都是使用现存的单词和子单词进行训练的，主要集中在它们的语义和语法上;然而，一些最近的模型在字符级别上操作，例如 BERTER BERT （ El Boukkouriet al. ，2020）和CharBERT（Ma et al. ，2020）。引人注目的是，角色级别的模型在角色级别的任务中表现出色（例如，拼写校正; Xie et al.2016年; Chollampatt和Ng2018年），并在语言建模任务中与单词级模型进行比较（Kim etal. ，2016）。因此，语法级模型是研究超出现存语言范围的编码在n元语法中的信息和意义的理想工具。鉴于目前最先进的技术是由基于transformer的模型驱动的，在我们的研究中，我们使用了 transformerBERT 模型。 Char-acterBERT是唯一适合我们的研究，因为它使用了一个CharterCNN模块（Peters et al. ，2018年）为任何输入标记产生单个嵌入，作为BERT的变体构建，BERT依赖于子词标记化（ElBoukkouri et al. ，2020）。3语言之外的原始信息和在展示我们的结果之前，我们讨论了现存单词之外的空间的一般特征;我们重申，基于单词和子单词的模型错过了这个空间。由于ChesterBERT使用的是英文字符，我们将分析限制在英文字符n-gram上，并且我们研究了ChesterBERT嵌入的性质，包括现存语言之外的基于英文的通过研究在训练数据中不出现在一致（或任何）上下文中的n-gram中编码的意义的Representations，我们的框架超越了传统的通过这种方式，我们试图通过同时研究包含不同类型信息的n元语法来理解编码在n1因此不能表示字符n-gram以外的这个空间少数包含字符n元语法的模型，自然包括n元语法，而不是现存的单词，通常使用RNN（Mikolov et al. 、1在类比中，发展心理学中的整体感知理论提供了一个框架来理解人类同时理解多个对象的“主旨”的能力（Sweeny et al. ，2015）。+v：mala2277获取更多论文我们使用随机生成的字符序列来创建包含原始信息但没有意义的n我们将Marr的原始视觉信息概念用于在我们的例子中，原始语篇信息是低层次的交际信息，它存在于有意义和无意义的语篇中。作为文本，我们随机生成的n-gram不受人类语音的约束，并且可能在语音学上是不可能的;这些乱码n-gram可以被视为文本噪声的示例。在下面的小节中，我们提供了三个语言的例子-失真的语音，语音和伪词-这激发了我们对随机生成的字符n-gram的字符级嵌入的研究。然后，我们描述了词形态编码的补充信息。3.1失真语音在流行的用法中，例如，短语“reading lamp”在乱码时可能是“eeling am”。与未混淆的语音相比，混淆的语音包含较少的或零的意义，但是语音媒体的信号仍然作为信息存在，根据Shannon（1951），其可能根本不包含任何意义乱码语音满足Shannon（2001）提供的经典的通信五部分定义;信息源（说话者）可以通过接收者（耳朵）通过语音媒体的通道向目的地（收听者）传输（用言语表达）信息原始的消息3.2副语言副语言发声是一种特殊的可识别的声音，它超越了言语的一般特征（Noth，1990），并提供了另一个超越词汇化语义的交流例子。副语言发声包括特征词，如呻吟;和隔离，如这种非语言学的发声和具有确定意义的词汇化感叹词之间的边界是3.3假词伪词是语音学上可能的没有现存词汇意义的字符n词相似性判断揭示了人类对假词和语音学上不可能的非词的区分是分级的（Needle etal. ，2020）。作为一种独特的信息类，假词已被用于语言神经元激活研究（Price et al. ，1996 ），婴儿词汇语义处理（ Friedrich 和Friederici ， 2005 ），通过无意义的诗歌（ Ede ， 1975 ）和文学分析（ Lecercle ，2012）。伪词也可以在独立的参与者中引起类似的解释和关联（Davis et al. ，2019 a）。为了生成性地考虑伪词，注意到字母书写系统不仅覆盖其语言中的每个词，而且覆盖每个可能的词是有帮助的（Deutsch，2011）;伪词因此可以被认为是可能的但未实例化的（相对事实的）现存词-例如，“网络空间”是互联网出现之前的一个伪词。我们将随机生成的伪词嵌入到我们的模型中，以研究它们的信息内容以及与现存词和随机生成的n元语法的关系3.4形态形态学研究的是从较小的单位创造单词和单词形式的自然语言系统（Trost，1992）。嵌入空间和分布假设提供了深入了解字符组合，形态和语义之间的关系。值得注意的是，形态不规则性使嵌入空间中的全局字符级发现的统计复杂化，例如通过补词-其中单词形式以独特的方式改变，例如go的过去式是went，或补词-其中字符在某些语音条件下插入，例如fox复数化为fox e s（Trost，1992）;在传统的音素到字素映射下伪词的多个“正确”拼写也是如此（Needleet al. ，2020）。形态现象之间的区别也很难定义;例如，派生和复合之间的界限是“模糊的4用于信息分析的高级语言模型如上所述，最先进的语言模型作为一种工具来研究意义，因为它出现了通过分布假设范式。前-+v：mala2277获取更多论文图1：UMAP投影的嵌入的bitterBERT为现存的单词（蓝色），伪单词（洋红色），和随机生成的字符n-gram（黑色）. 黑色实线显示了我们在这项工作中定义的信息轴。随机和伪词字符n元的最底部的聚类由以“s”结尾的字符n对变形金刚和基于BERT的模型进行分析的研究工作已经探索了我们感兴趣的主题，例如语义（Ethayarajh，2019），语法（Goldberg，2019），形态学（Hofmannet al. ，2020年，2021年），和语言的结构（Jawahar et al. ，2019）。然而，所有这些工作都局限于现存单词的焦点，主要是由于这些模型的单词和子单词的性质我们研究的结构，主要是未开发的字符n-gram空间，其中包括现存的语言，伪词和乱码字符n-gram，看到通过表示创建的Char-acterBERT，如下所示。为了探索如何在基于字符的分布式语义的上下文中构造字符n-gram空间，我们嵌入了40，000个现存的英语单词、40，000个随机生成的字符n-gram和20，000个伪词。评级（Brysbaert et al. ，2014）。随机生成的字符n-gram被强制具有与我们分析的现存单词语料库相匹配的字符串长度分布。为了生成伪词，我们使用一个流行的伪词生成器。2TheQuarterBERT （ El Boukkouri et al. ，2020）通用模型已经使用字符序列在近40 GB的Reddit数据上进行了训练。我们利用这个模型来创建在训练数据中可能没有看到的字符n元语法的表示这使我们能够使用得到的512维嵌入通过可视化进行探索，通过距离和投影进行拓扑建模，以及分类错误分析。4.1识别信息轴为了指导我们对结果嵌入的高维拓扑的探索，我们使用UMAP降维技术我们选择了40，000个最常用的英语单词，已对具体性/抽象性进行了注释2http://soybomb.com/tricks/words/+v：mala2277获取更多论文（McInnes et al. ，2018）。UMAP通过搜索数据的低维投影来创建低维嵌入，该低维投影具有与原始表示最可能等价的模糊拓扑结构，从而保留局部和全局结构。在附录A中，我们证明了我们的关键结果对这种降维方法的选择不敏感我们使用UMAP嵌入来提取信息轴，该信息轴捕获现存的和随机生成的n元语法中的最大方差。为了给n-gram分配一个因此，我们的信息轴在现存语言和乱码之间建立了联系，从而连接了意义和原始信息。图1显示了现存的、伪序的和随机生成的字符n-gram如何在这个空间中排列它们自己。4.2信息轴上n-gram的统计性质我们进行了几个统计测试，以区分类别的字符n元语法沿信息轴。首先，表1列出了沿信息轴的最小最大归一化位置的中值和标准偏差请注意，每个n-gram类内的分散度远小于类之间的距离，这表明我们的结果对乱码和伪序样本的接下来，我们使用 Kolmogorov-Smirnov（KS;Massey Jr1951）双样本检验来评估我们的n元语法类的信息轴分布之间的差异。所有的KS测试都非常显着地表明了字符n元语法类型和沿着in的词性之间的差异形成轴（p0。001）。此外，KS（现存，随机）、（伪序，随机）和（现存，伪序）统计得分分别为0.94、0.83和0.70，表明现存和随机n元语法在信息轴上差异最大（与图14.3超平面分类器字符n-gram的可视化表明，超平面分类器适合于分离现存的单词和乱码。我们使用支持向量机（Cortes和Vapnik，1995）对我们40，000个常用的现存单词中的一半和我们计算机生成的乱码进行分类图2：作为沿图1所示信息轴的最小最大归一化位置的函数，现存单词（蓝色）、伪单词（ma-genta）和随机生成的字符 n-gram （黑色）的BLETERBERT嵌入的概率密度。字符n-gram类型信息轴位置现存0. 75± 0。12名词0。74± 0。12动词0。72± 0。09形容词0。76± 0。110. 87± 0。09伪命令0。50± 0。15随机0. 17± 0。11表1：对于现存词（包括词性）、伪词和随机生成的n元语法，沿图1所示的信息轴的最小最大归一化位置的中值和标准偏差.看不见的现存的，乱码和伪字字符n-grams。我们使用这种方法来探索高维嵌入空间中的信息轴该分类器对不可见的现存语言和乱码字符n-gram的准确率达到98.9%，这表明我们可以通过错误分析来了解特别是，我们发现现存的单词归类为乱码之间的相似之处74岁4%（270/363）是复合词或派生词，类似于许多现存的语言术语，位于信息轴的中点附近。19%（69/363）为外来词如“炭火”或方言词如“doohickey”。乱码分类错误-乱码被归类为现存语言-在很小程度上是由于我们的随机化方法无意中创建了标记为乱码的现存语言，+v：mala2277获取更多论文−−- − −第九章5%（36/377）的错误。被归类为现存语言的乱码大多包含语音学上不可能的元素，尽管有些是假词。当伪词被强行划分为现存或乱码字符n元语法时，更多的伪词被划分为现存语言而不是乱码（12894个为现存，7106个为乱码）。拉贝林肯定了这些直觉，像“flought”这样的伪词考虑到MysterBERT此外，我们的嵌入空间只使用了208，000个不同词汇化词条中的40，000个最常见的英语单词（Brysbaert et al. ，2016年），如果包括在内，可能会影响空间结构。5现存词语的信息轴结构我们用这一节来讨论从低维UMAP空间得到的信息轴上我们在这个轴上构建我们的分析，因为它组织了现存单词与随机生成的字符n元语法的相对结构，同时也区分了现存单词空间内的内部结构。5.1现存与伪词与含糊地在全局结构的尺度上，信息轴突出显示了现存的单词是从随机生成的字符n-gram中分离出来的（图1）。我们注意到所有字符n-gram类的中点在我们的信息轴上是0.5伪词填充在信息轴中点附近的区域，并且与现存的英语和乱码字符n元语法重叠（图2）。这三类n元语法之间没有明显的界限，这与复合词和派生词的形态学描述以及语言的“模糊”描述都是这种全局结构--以及现存语言的内部结构（图3）--超越了分布假设，包括了不出现在一致（或任何）上下文中的n元语法，如伪词和乱码。伪词介于现存和乱码字符n元文法之间，但伪词与其他类型的n元文法之间没有明显的界限现存语言、伪词和乱码离子具有不同的内部结构（图1）。乱码区的结构比现存的语言区要少，尽管有一些内部变化，特别是一组以字符“s”结尾的字符n我们在附录B中定性地解释了我们的分析所揭示的乱码和伪词嵌入的类别，其中包括对这些发现与语言学理论的潜在相关性的补充讨论。5.2词性和形态在我们的UMAP预测中，现存单词的详细结构按词性划分（图3）。特别是KS统计之间的所有部分的语音对显着表明，它们的分布沿信息轴不同Fur-1，KS统计值分别为（名词、动词）0.12，（名词、形容词）0.11，（名词、副词）0.64，（动词、形容词）0.22，（动词、副词）0.72，（形容词、副词）0.64.这表明，副词与其他词性沿着信息轴（与图3一致）分离得最干净，这可能表明词缀等词素在嵌入空间中具有重要作用详细的调查超出了本文的范围，可能需要通过替代的语法分析，如假形态学和词汇邻域密度（Needle et al. ，2020）。信息轴中点附近的许多现存词是或可能是复合词;派生词和复合词之间的界限被认为是模糊的，因为许多从词发展而来的派生后缀经常用于复合（Trost，1992）。派生词和复合词都占据了现存语言区域的其他空间，但相互冲突的定义妨碍了直接的统计分析。形态特征，如形容词后缀ness、ism和able，或副词后缀ly与清晰的嵌入映射相关，但形态类别的边界并不明显。以“s”结尾的乱码请注意，词缀等形态学语法适用于词汇化的单词，但不适用于语法化的单词。以“s”结尾的伪词+v：mala2277获取更多论文±图3：左面板：按词性划分为名词（红色）、动词（青色）、形容词（蓝色）和副词（绿色）的现有单词的MPETERBERT嵌入的UMAP投影。右图：按词性划分的现存单词的概率密度，作为沿图1所示信息轴的最小最大归一化位置的函数。然而，对于以“s”结尾的乱码，这种看似复数的假词往往更接近现存的语言，反映了词的形式相似性随着语义相似性的增加而增加的概念（Dautriche et al. ，2017年）。考虑到形态学的模糊性和英语拼写的不透明性（Needle etal. ，2020），以“s”结尾的伪词5.3具体/抽象不同词性在我们的低维UMAP投影的现存语言空间内的内部定位表明，表征还捕获了具体性（例如名词）和抽象性（例如广告动词）的概念，我们通过投影来自（Brysbaert et al. ，2014）研究。我们计算了现有UMAP坐标的中心，没有加权，并通过最小最大归一化具体性加权，并使用这些点来定义具体性轴，这表明具体性在与我们的信息轴大致正交的方向上变化（见图4）。信息轴和具体性轴之间的自举重采样角分布为86。6 1. 2度。因此，信息轴和词的具体性抓住了字符-BERT表征的许多潜在特征的两个关键的、很大程度上不同的这一发现与最近的研究特别相关，这些研究表明，不仅单词的具体性是一个心理上丰富的维度，它塑造了语义处理（Brys，Baert等人，2016; Guilbeault et al. ，2020），而且单词具体性在丰富单词嵌入模型的预测能力方面令人惊讶地有效，例如用于自动隐喻检测的目的（Srinivasa Desikan et al. ，2020）。我们对这一发现进行了详细的调查，包括其与视觉信息的关系（Brys-baert et al. ，2016）通过具体和抽象的文字进行，以未来的工作。5.4马尔可夫链模型我们还使用部分匹配预测（PPM）可变阶马尔可夫模型（VOMM）创建了一个语言模型，以估计这些字符n元语法中的每一个的概率（Begleiter et al. ，2004）。该模型计算每个字符n-gram的logpdf，其中较常出现的字符n-gram具有较低的分数，而较不常出现的字符n-gram获得较高的分数.该模型在现存单词上进行训练，然后用于对所有现存单词、伪单词和乱码字符n-gram进行评分。我们使用这个分数来捕获字符序列空间中字符n-gram的可能性（图5）。这些马尔可夫模型值与我们的信息轴测量相关。特别地，信息轴与马尔可夫链信息含量之间的Spear-man相关系数为：0.4对于随机生成的n元语法，为0.007（高度显著），对于现存单词，为0.007（不显著）因此，对于随机字符n-gram，我们的信息轴测量与来自马尔可夫的字符n-gram的统计特性相关+v：mala2277获取更多论文图4：左图：现存单词（蓝色）、伪单词（洋红色）和随机生成的字符n-gram（黑色）的UMAP投影.黑色实线显示了我们在这项工作中定义的信息轴，红线显示了捕获单词具体性变化的轴，通过将现存单词的未加权平均UMAP位置与最小最大归一化具体性（红点）加权的位置右图：仅现存单词的UMAP，由最小最大归一化具体性着色，较浅的颜色表示更具体的单词。模型（参见图5的左侧面板）。然而，我们的信息轴更清楚地测量了现存的和乱码的n元语法，表明它包含了n元语法类的纯统计属性之外的信息（参见图5的右侧面板）。这表明，EscherBERT模型学习了字符级统计信息之外的信息，即使是从未明确出现在训练数据中的n元语法6讨论和结论我们利用BERTERBERT模型，在现存语言之外嵌入了一个大型的字符级n-gram语料库，以研究它们所包含的原始本文件的主要结论是：1. 现存的单词和随机生成的字符n-gram沿着我们的UMAP投影Character-BERT嵌入空间中的特定轴分离（图12. 伪词沿着这个轴位于现存的和随机生成的n元语法之间，但是在这些n元语法类别之间没有明显的边界（图13. 现存语言的嵌入结构，包括基于词性的结构和基于词法的结构，与信息轴相关（图3）;4. 在我们的UMAP投影中，单词的具体性沿着与信息轴大致正交的维度变化（图4）;5. 现存的和随机生成的n-gram之间的分离被InterpreterBERT捕获，与纯粹基于n-gram的统计特性的分离相关，并且比纯粹基于n-gram 的统计特性的分离更一致（图5）。这些发现表明，基于字符的Transformer模型在很大程度上能够探索现存单词和随机生成的字符串之间的关系特别地，字符级模型捕获词、伪词和随机生成的n元语法空间中的复杂结构。这些发现与以下工作相一致，即字符级和语素感知表征具有丰富的意义，即使与单词或子单词模型相比也是如此（Al-Rfou et al. ，2019; El Boukkouri et al. ， 2020; Ma 等人，2020; Hof-mann et al. ，2020，2021）。我们的研究仅限于英语中现存的单词和使用英语字母表随机生成的字符n-grams。考虑到特定语言和字母表对表征空间的独特影响，我们有动机看看我们确定的关系是否适用于其他语言和字母表。最后，我们重申，我们的分析仅限于InterterBERT模型的最后一个嵌入层;未来的工作可能会集中在早期层的权重上，包括注意力+v：mala2277获取更多论文图5：左图：图1中所示的沿信息轴的最小化归一化位置与来自我们的马尔可夫链模型的最小化归一化信息内容，针对现存单词（蓝色）和随机生成的字符n-gram（黑色）。右图：从我们的UMAP投影（填充直方图）和马尔可夫链模型（未填充直方图）测量的最小最大归一化信息内容的概率密度。其他 BERTology 研究探索的机制（ Clark etal. ，2019; Jawahar et al. ，2019）。通过仅分析最终嵌入层，我们研究了此类字符级模型的我们的研究对伪词的广泛使用也有重要的实际意义作为心理语言学研究的实验工具。伪词经常被用作刺激来观察解释新单词的心理和神经认知过程（Price et al. ，1996; Stark andMcClelland ， 2000; Keuleers and Brysbaert ，2010; Lupyan andCasasanto ， 2015; Davis etal. ，2019 b）。然而，相比之下，我们的方法表明，并非所有的伪词都是平等的。由于字符序列的各种特征，包括形态结构，一些伪词根据字符感知语言模型编码不成比例的更多信息，因此被表示为与现存词显著更相似，而其他伪词被这些模型识别为随机字符序列。考虑到所使用的算法生成伪词是高度约束的，旨在产生形态连贯的词（Keuleers和Brysbaert，2010）;一些伪词被Charac评估为随机的，terBERT不仅揭示了可能具有心理相关性的伪词的一致性中的不对称性，而且还揭示了Character-BERT和相关模型识别作为现存词的签名的形态单位的假设和因此，我们的研究提供了一种定量的方法来评估假词的可解释性，而不依赖于可变的人类判断，同时也揭示了人类和当代语言模型如何评估假词的可解释性之间的关键差异。为了允许进一步的探索和可复制性，我们在GitHub3上发布了我们所有的数据和代码。我们的研究结果揭示了未来工作的新途径，使用字符感知嵌入现存的，pseu- doword和乱码n-grams，包括分析无意义的诗歌，如刘易斯卡罗尔我们研究的嵌入也可以补充语言学研究（特别是如果采用动态分析），以及对新类别形成的研究（ Lupyan 和 Casasanto ， 2015;Guilbeault et al. ，2021年）。此外，语言和噪音之间的区别的语言习得研究可能会受益于字符层面的嵌入超出了现存语言的领域（杨，2006年;凯里，2000年）。通过研究扩大的嵌入空间以包括随机生成的n元语法，我们通过无意义信息的上下文发现了新的意义结构;进一步的研究可能会将我们基于乱码的方法扩展到不同的媒体，3https://github.com/comp-syn/garble+v：mala2277获取更多论文模式，以促进更普遍的理解人类的意义。引用Rami Al-Rfou 、 Dokook Choe 、 Noah Constant 、Mandy Guo和Llion Jones。2019.具有更深自我关注的高级语言建模。在AAAI人工智能会议的序言中，第33卷，第3159Ron Begleiter ， Ran El-Yaniv ， and Golan Yona.2004.用变阶马尔可夫模型进行预测。Journal ofArtificial Intelligence Research，22：385- 421.Tom Brown 、 Benjamin Mann 、 Nick Ryder 、Melanie Subbiah 、 Jared D Kaplan 、 PrafullaDhariwal、Arvind Neelakantan、Pranav Shyam、GirishSastry 、 AmandaAskell 、 SandhiniAgarwal 、 ArielHerbert-Voss 、 GretchenKrueger、Tom Henighan、Rewon Child、AdityaRamesh、Daniel Ziegler、Jeffrey Wu、ClemensWinter、Chris Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、JackClark、ChristopherBerner、SamMcCandlish 、 Alec Radford 、 Ilya Sutskever 和Dario Amodei。2020.语言模型是少数成功的学习者。神经信息处理系统进展，第33卷，1877-1901页。柯伦事务所Marc Brysbaert ， MichaëlStevens ， PaweenieMandera，and Emmanuel Keuleers.2016.我们知道多少单词？词汇量的实际估计取决于单词定义、语言输入程度心理学前沿，7：1116。马克·布里斯伯特，艾米·贝丝·沃瑞纳，维克多·库伯曼. 2014. 4万个英语常用词元的具体性评价。行为研究方法，46（3）：904苏珊·凯莉2000.概念的起源。认知与发展杂志，1（1）：37Shamil Chollampatt和Hwee Ng。2018.用于语法错误校正的多层卷积编码器-解码器神经在AAAI人工智能会议论文集，第32卷。Kevin Clark ，Urvashi Khandelwal ，Omer Levy ，and Christopher D Manning. 2019. 伯特在看什么？对伯特注意力的分析。在2019年ACL研讨会会议记录，第276-286页。科琳娜·科尔特斯和弗拉基米尔·瓦普尼克1995.支持向量网络。Machine learning，20（3）：273Isabelle Dautriche ， Kyle Mahowald ， EdwardGibson，and Steven T Piantadosi. 2017.词形相似度随语义相似度的增加而增加的分析100种语言认知科学，41（8）：21492169.B. L.戴维斯和P.F.麦克内拉格1995.牙牙学语的发音基础。Journal of Speech Hearing Research ，38（6）：1199查尔斯·戴维斯，汉娜·莫罗，加里·卢平. 2019年a。长得像什么？无意义的词语引出有意义的图画。认知科学，43。查尔斯·P·戴维斯，汉娜·M·莫罗，加里·卢平。2019年b.长得像什么？无意义的词语引出有意义的图画。Cognitive Sci-ence，43（10）：e12791.大卫·多伊奇。2011. 无限的开始：解释改变世界的国家。企鹅英国。大卫·多伊奇和琪亚拉·玛莱托2015.信息建构理论。英国皇家学会学报A：数学，物理和工程科学，471（2174）：20140540。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2019年。Bert：深度双向转换器的语言理解预训练在NAACL-HLT（1）中。丽莎·苏珊·艾德1975. 爱德华·李尔和刘易斯·卡罗尔的无厘头文学。俄亥俄州立大学。Hicham El Boukkouri ， Olivier Ferret ， ThomasLavergne，Hiroshi Noji，Pierre Zweigenbaum，and Jun'ichi Tsujii. 2020. alterbert：将elmo和bert用于字符的单词级开放词汇表表示。第28届国际计算语言学会议论文集，第6903盖·爱默生2020.分布语义学的目标是什么？计算语言学协会第58届年会论文集，第7436Kawin Ethayarajh。2019.语境化的词表征是如何语境化的比较bert、elmo和gpt-2嵌入的几何特征。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第55约翰·R·弗斯1957.语言学理论概要，1930-1955。语言分析。Manuela Friedrich和Angela D.弗里德里奇2005.一岁儿童的语音定位知识和词汇语义加工：图片语境中单词和无意义单词的大脑反应Journal ofCognitive Neuroscience，17（11）：1785约夫·金伯格2019.评估伯特的句法能力。arXiv预印本arXiv：1901.05287。+v：mala2277获取更多论文Douglas Guilbeault ， Andrea Baronchelli ， andDamon Centola. 2021.实验证据的规模引起的类别收敛跨越人口。Nature Communications，12（1）：1Douglas Guilbeault，Ethan O Nadler，Mark Chu，Don- ald Ruggiero Lo Sardo ， Aabir AbubakerKar，and Bhargav Srinivasa Desikan. 2020.抽象语义域中的颜色关联。认知，201：104306。V Hofmann，J Pierrehumbert，and H Schütze. 2020.Dagobert：用预训练的语言模型生成派生形态学。自然语言处理经验方法会议论文集（和先驱）（EMNLP）。ACL Anthology.瓦伦丁·霍夫曼，珍妮特·皮埃尔亨伯特，和辛里奇·舒茨。2021.超奇异并不高超：派生形态学改进了伯特对复杂词的解释。第59届计算语言学协会年会和第11届自然语言处理国际联合会议（第1卷：长文），第3594Ganesh Jawahar、Benoadt Sagot和Djamé Seddah。2019. 关于语言的结构，伯特学到了什么？ACL2019-第57届计算语言学。丹尼尔·朱拉夫斯基和詹姆斯·马丁。2021.语音和语言处理第三版。EmmanuelKeuleers 和 MarcBrysbaert 。 2010.Wuggy ：一个多语言伪词生成器。 Be-Observatory or research methods，42（3）：627Yoon Kim，Yacine Jernite，David Sontag和Alexan-der M Rush。2016年。神经感知语言模型第三十届AAAI人工智能会议。Kamran Kowsari，Kiana Jafari Meimandi，MojtabaHei-darysafa ， Sanjana Mendu ， Laura Barnes ，and Donald Brown.2019.文本分类算法：综述.Information，10（4）：150.Thomas K Landauer和Susan T Dumais。1997.柏拉图问题的解决方案：知识的获取、归纳和表征的潜在语义分析理论。Psychological Review，104（2）：211.让·雅克·勒塞勒2012. 无意义的哲学：维多利亚时代无意义文学的直觉。路- ledge。加里·鲁皮扬和丹尼尔·卡萨桑托2015.无意义的词促进有意义的分类. 语言与认知，7（2）：167Wentao Ma，Yiming Cui，Chenglei Si，Ting Liu，Shijin Wang，and Guoping Hu.2020. Charbert：字符感知预训练语言模型。法律程序第28届国际计算语言学会议，第39-50页。大卫·马尔和艾伦·希尔德雷思1980.边缘检测理论。伦敦皇家学会会刊. B. Biological Sciences，207（1167）：187-217.小弗兰克·梅西一九五一年拟合优度的kolmogorov-smirnovJournaloftheAmericanStatisti-calAssociation，46（253）：68Lela

下载后可阅读完整内容，剩余1页未读，立即下载