没有合适的资源?快使用搜索试试~ 我知道了~
理论计算机科学电子笔记53(2002)网址:http://www.elsevier.nl/locate/entcs/volume53.html17页语言学习的编码理论述评你知道吗?计算机科学研究所,波兰科学院Ordona 21,01-237Warszawa,Polandldebowsk@ipipan.waw.pl摘要从定量语言学、统计自然语言处理、信息论、语言学、神经科学和统计物理学的独立研究成果中归纳出基于幂律熵次线性的人类语言交流的定量-符号理论的要素。1介绍作为一名前物理学家和研究自然语言处理(NLP)的作者,他想知道为什么统计NLP这一应用科学与其理论伙伴定量语言学之间的交流如此之少难道就不能做出有益的贡献吗这促使他研究齐普夫[1]作者偶然发现了一些文章[16,17]。 文章报道,有意义字符串中连续符号的N元组的香农熵H(N)的估计非常棘手,可以通过公式拟合(1)H(N)=0+ N +1N;其中=1用于自然语言文本,=1用于音乐转录。为2 4英语和德语文本H(N)可以安全地估计到N300的字符0,1=23:1位和10:4比特。当量(1)表明,自然语言文本或言语[13]和音乐转录本最好用任何固定的确定性模型或任何固定的概率模型来描述。 原因是,对于N!%1,oneobserves %0 6=0,i=0,i=;1,用于确定内存处理1[1]已经表明,齐普夫定律至少满足字符串的独立抛出的字母和空格。[19]关于法律指数从1到3的等级变化的报告1 04,这是无法用字符串来解释的。[20]预处理是一个复杂的模型。c2002年由Elsevier Science B出版诉在CC BY-NC-ND许可下开放访问。2和i6=0,i=0;1,= 0的无穷随机的,而任何其他次线性分量是指数下降w.r.t.N或更快[11]。采用了“模型”和“过程”之间的区别模型是一组公式,完全指定一个过程有限随机过程是一类特殊的随机过程,它可以由具有有限或短程记忆的模型在有限个明显分布的观测变量或隐变量中生成一些例子是马尔可夫模型,隐马尔可夫模型(HHHRM),物理学中的短程哈密顿系统可能的上下文无关文法(PCFG)也可能是该类的元素(见附录A).对于无穷多过程,从数据中可以推断出的最佳模型中随机变量依赖关系的结构几乎是稳定的。最好的模型的大小最多以几何学的方式增长数据集大小[4]。有限随机过程是经典频率统计的唯一可能[2]在频率统计学中,首先,人们猜测一个绝对真实但有限的模型来生成无限数据,然后从数据中估计出有限个参数。然而,频率统计学的策略有三个潜在的失败点:(i) 人们需要“无限”的数据:合理的训练数据集大小以指数级与模型捕捉到的相关性的长度有关(ii) 人们需要知道(iii) 可能没有当数据集扩展时,可以无限地编辑结构的重要元素情形(iii)是6=0,01的情形。<<对于自然语言,人们可能无法安全地使用频率统计学的仪器,也没有语言学家能够在原则上说什么是一种语言的完整模型从[16,17]中的几个数据点推断任何关于语言建模的正确策略的强有力结论都不如演绎那么合理推理然而,0的情况可以解释许多独立的-削弱了人类语言是什么的直觉,而= 0的情况则不能。当量(1)与拟合参数可以被称为基本定律2频率主义统计有替代方法,如贝叶斯方法[26]。[2]引入了长记忆时间序列的另一种长记忆时间序列的定义是,序列中相隔d个1的两个位置之间的自相关函数衰减为1=d或更慢。 [30]然而,声称相关函数的语言对应物是两个由yD表示的字符串之间的相互信息的平方根,其近似为1= D1:5。3自然语言这篇文章计划总结手稿[14],在作者第一次接触EQ之后迅速撰写(一). 在准备这篇文章时,作者还找到了一些资料[11,4,35,24],这些资料有助于完善他最初的想法。2复杂性测度分析理论什么一般的形式主义和战略,他们的收购可以用来描述过程6= 0和各种01<<? 这是一个技术问题,不能用现有的知识来严格回答。无论如何,人们普遍认为所有经验数据的最佳描述总是最短的描述(最小描述长度原则)。在[14]之后,假设任何数据的任何可接受的描述由两部分组成:(i)码本,是某个解码过程C的定义。(ii)编码数据,是过程C的某个参数A。C(A)是原始的未编码数据。在第4节讨论的简化符号方法中,C是一些码字定义的集合,A是码字的字符串现在没有这样的假设 设N为未编码数据的长度,设D(N; C)为使用过程C的描述的长度。(2)D(N; C)=(N; C)+(C);其中(N;C)是A的长度,(C)是C的长度。假设A的长度不依赖于除N和C之外的任何东西。令C(N)代表C,它以最短的描述应用于A用于数据的最佳解码过程可以取决于它们的大小。设N和C可以近似为连续的,并且(N;C),(C)是其参数的可微函数D(N; C)的极小性对于C= C( N),可以表示为@D( N; C)(三)@CN=const;C=C(N)= 0:该符号意味着对于由某些参数参数化的C,D(N; C)的所有导数w.r.t.对于C=C(N),这些参数等于0。假设对于任何常数C,A与原始数据大小成比例地增长(四)@D( N;C)(N; C)=:@NC=constN人们应该期待EQ。(4)对于足够大的N,如果任何固定的解码过程几乎局部地作用于足够大的编码数据。D( N):= D( N; C( N))是最小描述长度(MDL),(N):=(C(N))是最佳码本的长度,(N)=(N; C(N))是编码数据的最佳长度合并等式(2),(3),(4)4(5)(N) =D(N)ND0(N);(6) D(N)=(N)+(N):当量(5)是在对产生数据的过程的性质没有更多假设的情况下得出的 它可能仍然有效,也在极端情况下,该过程不能被描述纯粹的经典条件概率或确定性(重写)规则。对于离散N,等式 (5)对于足够大的N,可以近似地适用。为了寻找最佳码的平均长度,香农有意识地省略了码本本身的长度,香农熵的公式反映了这一省略。 对于无穷多个随机过程,可以用N元组香农熵H(N)来识别的是(N)而不是D(N)。让我们暂时假设香农熵估计器被设计为对无穷随机过程很好地工作,也估计其他数据的某种(N)。 3解方程(5)对于给定的D(N),(N),或(N)是容易的,因为这些是有趣的线性方程。比如说,(七)N2(N)=(N)+Z(N)DN(N)+(N):2 1 2 1NN1如果(N)=H( N),则等式(1)和0,最佳码本无限增长。收集的数据量(八)1(N)=(N)+[NN]:2 12 1对于纯粹的确定性系统和有限数据,(N)中的常数项可能是不可学习的,请记住仅从有限数量的正例中进行CFG归纳的问题。 项/N的存在,/N在现实世界的问题可能意味着估计的可能性(1)常项(N)。最近几年,类似于(N)的变量一直被独立定义[4,24]引入预测信息Ipred作为平稳随机过程中任何时间点的整个过去和整个未来之间的互信息:::;S1;S2;S3;:,(九)Ipred= limN!1 I( S1;:;SN;SN+1;:;S2N):3[14]包含了一个错误,即确定H(N)=D(N)。此外,存在将(N)估计为真正最优编码数据的长度的未解决的问题Esti-m at ing(N)aSh annetropyH(N)ofthesampleisdangerous. F或Rθ=0,(N)是分开使用的N元组的平均代码长度,明显大于H(N)是浸入全部编码的无限集合中的N元组数据的平均代码长度。这也是为什么第4节中介绍的递归定义确实有用。 最后,可能没有朴素的有限系综,因为通常的大数定律对于某些对象很难在实验上看到(单词而不是秩的绝对概率问题)。5[11]对熵级数H(N)的性质给出了许多形式证明。它还证明了Ipred = E,其中过量熵E定义为(十)E = limN!1E(N); E(N)= H(N)N limN0!1[H(N0)H(N01)];E(N)和(N)都满足plectics(复杂性研究)中讨论的所谓复杂性度量的理想条件[22]。 它们仍然是容易形式化的确定性或无限性系统(均质物质),同时可能无限增长。 对于那些极难描述的(生活、语言、社会),系统的大小。3人类的语言是用来干什么的(N)是最适合描述N元组数据的理论的大小(N)仅测量剩余的随机性。对于假释,(N)的无约束增长是合理的。言语的接收者可以从输入信号中无限地推断出新的可概括知识部分。否则,就很难解释为什么人类在长时间内不断地相互交流。有些读者可能会有一个很好的反对意见:为什么人类不能直接向彼此发送信息,而不是作为另一个信号的复杂冗余模式也许,人类使用语言有两个不同的目的:(i) 为了他们自己的智力发展(通过找到输入的最佳码本进行全球通信,即超过任何现有的正式系统)。(ii) 为了互相指挥,它们表现得像计算机一样(通过顺序地和确定性地解释输入的本地通信,即 保持在当前的正式系统内)。从成人的短期视角看,主要的目的(ii)在实际对话中占主导地位,而目的(i)主要出现在当前的有思想的陈述中。 对于一个从几乎是“塔布拉拉萨”开始并从听成人的言语中学习的孩子来说,如果要正确地实现口译目的(ii),目的(i)必须是首要的。人类语言的独特之处在于,它形成了一种为(i)和(ii)两种目的而优化的手段如果在交流中投入的机械努力的比率不可忽略,但实际上是恒定的,那么言语将被优化。目的(i),i= 0,i = 0; 1,和w.r.t.目的(ii)对于i= 0,i =; 1. 因为为了物种的生存,儿童和成人的利益必须在同一个言语中得到解决,商= 1稳定在一个非零的有限值上。一个物种的孩子拥有的622商数越大,儿童期越长=1是否仍然适用于N30个字符?成年人一生中有这么多新鲜的东西要说吗?随意的谈话不是这样一个学习任务。做过之后,人们很大程度上可以忘记它们。= 1的小N可能只是一种大脑装置的痕迹,用于加速儿童听成人随意讲话的一般语言学习。 为了不存在于成年人中,该设备应广泛使用大脑的一些硬件资源。该装置的一个可能的物理机制可能是神经可塑性和髓鞘形成的波通过新皮层传播[18,28]?对于大N,大于103(简单问答块或因果陈述的长度),可能会减少到更小的值,这取决于文本和成年人仍然可以学习的“项目”的数量如果作者的假设得到验证,那么随着Zipf定律指数的变化[ 20 ],它可能提供可测量的证据,表明人类的一般语言处理在功能上不同于更抽象的4利用可逆压缩计算码本对6=0的数据使用一个非常好的压缩算法,也许可以找到数据描述的最佳结构,预测未来并生成过程。目前,可逆压缩的最佳算法仅在两种情况下严格已知[10]:(i) 对有限个原子符号进行编码,限制为原子符号的上下文无关重写,并假设码本不占用任何位置(霍夫曼码)。(ii) 在有限字符串中编码,16= 0(香农熵调整)。情况(ii)被导出为情况(i)的限制,其中:(a)允许在码本中定义原子符号的字母表上的所有字符串的任何数量的码字,(b)假设定义的码字的所有相对频率与一些常数(概率)渐近成比例。然而,随着计算复杂性的巨大增加如果人们知道原子符号是随机独立生成的(0阶马尔可夫模型),那么人们得到的利润就微乎其微然后,一个人只<每个原子符号1比特,而得到的代码本可读性更低即使是这种节省也不会很快接近,因为额外条目的平均数量只会在w.r.t. 数据集大小[4]。概率独立性假设与任何其他统计装置相结合,实际上并没有改善简单的符号处理,给定数据中的符号计数,并且没有关于其线性顺序(语法)的其他信息。这两种范式都不能将N个符号压缩为/N,0 <<1。参数可以迭代7通过重写任何有限数量的先前选择的原子符号的n元组来完成编码我们应该把这些n元组定义为新的原子符号。对于无穷过程,n足够大的n元组可以被视为概率独立的。因此,我们可以得出结论,如果H(N)/N,则最佳条目数必须是渐近无穷的。这为情商提供了又一证据(八)、然而,出现了找到最佳编码实体的问题使用更多关于数据中符号的线性顺序的信息只会改进编码。 另一方面,通过数据中出现的n元组来测试编码的所有可能性不能实时完成。自上而下的频率统计是无用的,自下而上的定量符号处理纯粹由数据驱动将被采用。后一种方法更简单地管理语法信息,并且在每一步中,它仅生成有限数量的具有部分当前调整的新码本假设代表原子符号组合的每个码字可以仅根据原子符号的码字来定义,或者也可以根据更复杂组合的码字来定义,这些码字一起产生相同的组合。第一种定义称为简单定义,第二种定义称为递归定义。对于16= 0和完全可逆压缩,使用简单或递归定义之间的选择不会显著改变无限数据的总描述长度为= 0和1= 0,等式(1)、(8)意味着最佳码本的大小永远不能忽视w.r.t.到编码数据的大小 递归定义同时显著地缩短了码本和编码数据。一些诱导码字可以仅在用于定义其他码字的码本即使对于0和16= 0,递归定义的使用显著地扩大了码本并改进了其预测质量,尽管它没有显著地改变无限数据的总描述长度没有长时间的全局优化搜索最短的描述是可行的。 如果不使用遗传算法或模拟退火,则可行的压缩过程简化为通过给定数据的所有符号描述的图的局部搜索。图的节点是符号描述本身,即。 它们表示码本和编码数据的完全固定状态。图中的每个描述S用其霍夫曼(或香农-法诺)编码的长度l(S)注释l(S)是针对固定码本计算的,对编码数据和码本中的码字出现进行原子符号的集合是有限的,因此原子符号定义的长度可以忽略不计。通过对描述S应用来自预定义的有限变换集X的某种符号变换,产生了S0存在且仅存在于描述S0的语法中的链接。假设从S到S0的每一次压缩都是可逆的,则从S 0开始的压缩是可逆的到8S. 所需的路径基不需要是单个链路,因为在集合X中可以没有单个变换。搜索在具有空码本和等于原始数据的编码数据的节点中开始然后,将搜索移动从节点S移动到节点S0 具有最小值ll(S0),l-路s沿着相邻链路s,除非ll(S)>l(S0).所提出的原理的实现是de Marcken算法[12]。 在该算法中,集合X由两种符号变换组成:(a)定义两个码字的级联,其中找出该对的0,1或2个元素,(b)找出一个码字。定义一个对象意味着引入一个新的码字,用码字替换所有出现的对象(在数据和码本中),并将码字的定义作为对象登记到码本中。对码字的定义则相反。De Marcken算法产生一个码本,它由递归的和大多数有意义的音节、词素、单词和固定短语的定义由于更远的(和一些内部的)相关性不是纯粹的连接,那么它停止扩大码本,对于英语文本压缩率约为2比特/字符[12]的例子是:这是一个统一的城市。竖线上的括号表示被定义为码字的连接 文本中没有空格、大写字母和标点符号。Une langue est un système ointment tout se tient[13].所有的语言实体只有在其频率大致超过其部分频率的乘积时才能出现。频率不仅必须从编码数据中读取,而且还必须从最佳码本中读取,这允许从原始言语中获取语言,但仅当递增地对其重要相关性进行分类在人类大脑中可能几乎没有任何语言处理实体,直到它们的频率被真正观察到并在内部转换。唯一的例外是那些毫无意义的“原子符号”和基本的其 他 的一切都是由于对可行的定义和可用的名称长度(指针)之间的交易进行“宏观经济控制”而产生的。即使对于高度上下文相关的原始频率分布,也可以推断出相同的离散实体系统 这种特性使成年人能够自由地交流,同时又不会使儿童无法仔细倾听他们的自下而上的策略。 形式语法似乎是统计学的一个抽象分支,甚至从所描述的实体的频率中抽象出来。然而,这种抽象并不完全。字符串的所有频率分布的连续空间被切割成最优文法的离散盆。 对于原始频率分布的连续变化,在最优推断的形式系统中可能发生突变。9在所讨论的可逆性压迫畸形与神经科学中的最新假设之间存在相似之处[31]彻底论证了新皮层和海马(大脑的一部分)之间的功能区别,可以恢复新皮层(较大的)主要存储代码本,而海马(较小的)存储最近的编码数据。deMarcken算法的码本递归形式也类似于[28]中提出的神经语言分层模型。5量化符号处理的挑战5.1什么是正确的符号转换?机器语言结构获取的实质性进展不是改进学习方案的定量方面的问题,而是考虑描述的更复杂的可逆符号变换 de Marcken算法所做的是将其输入重写为近最短上下文无关文法(CFG)。 该CFG被限制为一对一重写规则,其中左手侧上的每个码字必须优先于右手侧上的所有码字,从而达到部分顺序关系。为了完全符合CFG格式,应将编码数据视为对初始符号的重写人们可能认为,一般而言,码本中的所有条目可能是将任何码字串重写为任何码字串的规则。然后这些规则也需要是一对一的,因为每个规则都必须对整体压缩做出贡献,如果以二进制符号计算,它们的左手边必须比右手边短。 这意味着码本将具有受限形式的上下文敏感文法(CSG)。 保持CSG的初始符号的唯一导出(压缩可逆性)的条件是有问题的。除此之外,CSG码本太弱,无法将字符串的独立行为概括为范式定义(对于具有语音交替和和声的语素,具有省略的单词,实例化为单词的短语)。在范式定义中,实体被编码为并行处理而不是线性顺序的几个参数的易于计算的函数比简单证明的参数组合更规则的函数域也应该偏向当处理一个特定的范式定义归纳时,比如词的定义归纳,人们可以禁用定义的递归性[23,37]。言语密码本的无限增长倾向于思考范式定义的无限层次结构及其通过压缩的连贯推理。44复杂的聚合现象在视觉中比比皆是 2D图像被编码为3D对象的函数、它们的坐标和旋转。视觉比语言处理更大的困难也可以通过不存在上下文无关的压缩来解释10只使用可逆变换的必要性被可逆压缩和量子计算所共享,在[5]中引入这个类比可能会刺激这两个领域的算法交换,即使人类大脑并没有执行真正的微观量子计算。5.2什么是正确的搜索方法?De Marcken算法在这里被介绍为完全局部搜索。[12]中的原始方法并不正确,它大量地定义和定义码字这种方案减少了符号处理的量,但是为了优化对数据的预先选择的变换的使用使用了诸如期望最大化和Viterbi搜索的频率论概率优化方法对于具有幂律熵次线性的数据,频率论概率优化方法可能比简单但实际上是局部搜索更差在语言中,大数定律很难满足,所以人们不仅可以学习频率,还可以随时学习新遇到的依赖结构 概率优化方法假设数据中的频率满足大数定律,并且它们优化w.r.t. 从“静态”概率的小波动 当概率优化一系列行动时,我们假设在这个过程中,没有计划结构学习。人们非常肯定,数据比模型更错误 为了实现意想不到的结构学习,在每次对数据进行转换后,应该重新查阅数据中变化的频率,然后才选择并执行下一个最佳操作。然而,这是局部搜索(比较[25])。目前,在从言语学习的最低水平,局部搜索比概率优化技术找到更好的解决方案[7,29]。由于在开始时非常低,并且在以后的生活中明显增长,人类执行非局部搜索的能力可能是在数据处理过程中学习的。 [8]指出,生物学中被认为是全局优化和学习的许多情况,后来似乎是遗传算法(物种进化,免疫反应)的影响。 [8]提出了同样的机制也无意识的大脑处理的实时。5.3如何忘记过去?当i6= 0,i =; 1时,级数学习不再是静态的递归压缩,也不再是频率论的概率推理.一个时间透视出现了,许多数学不适定的问题出现了。 16= 0意味着使用6 = 0的系统码本传输受到一部分“随机噪声”的干扰。随机噪声不能被压缩亚线性-离散多维输入数据的de Marcken类型的Sion算法11在早期和最佳编码形式中,它没有给出预测信息,同时浪费了存储器资源[4]。从言语中学习的最佳策略是不可逆地压缩它,忘记任何仍然随机的东西,但只有当它确实是随机的。有一些关于图灵机定义随机性的绝对测试的工作[ 36 ],但人类的人类测试必须更简单,易于计算,而且只是稍微差一点[34]。确定性解释只能作为唯一的方法应用于完全习得的、纯粹无限的过程。从本质上讲,他们没有学习,过去可以被遗忘,没有风险。 儿童可能更渴望忘记其当前言语表征的这些部分,这些部分可以确定性地解释,而更经常地记住那些给其确定性解释带来麻烦的部分。 当孩子在学习时,他对这两个阶级的区分就开始了。对于未来的研究,有两点值得注意:(1)纯粹的最小解释长度形式主义不能澄清确定性不可解释性的概念。这种形式主义只是一个结构的最短系统的层次规则和例外的一个存在添加任何新的例外情况。(ii)如果所有码字的计数与它们在描述中的线性顺序无关地被记忆,则可以在减少或不减少它们的记忆计数的情况下忘记一些码字的顺序不减少计数稳定了其顺序被遗忘的码字的条目另一方面,它也会使新的条目增加更加困难。5.4未来如何分类,生成全流程?短期预测能力对于改善非离散声学感知的离散语言分类是必要的[27]。对于有限过程,在足够大的数据的最短描述中,编码实体的相对频率渐近等于它们在最优模型中的(短期预测)概率。对于一个进程,6=0,1= 0连接压缩和短期预测是一种新的,未回答的问题。 由于最佳码本由于系统递归定义而占据宏观空间,因此整个最短描述中的码字频率可能仅与编码数据中的频率显著不同。如何利用这两种不同的频率分布来估计一般的预测概率分布,目前还不清楚生成完整的非无限过程是一项与仅针对离散分类进行短期预测不同的任务[33]。 同样对于具有长程记忆的简单过程,短期预测远比估计全局参数(概率)容易[2]。在短期预测中,可以假设用于生成数据的模型是1222!!1J1/固定。 为了生成一个完整的非无限过程,需要模拟随着数据生成而不断扩展模型。6语言习得是最佳的吗?[14]试图解释为什么=1对自然语言成立,如果对所有0 1<时,最优码书无限增长 第一个假设是,学习的孩子只记住最佳的密码本。自然的最优性准则是(N)= max,这产生了最优的依赖于N,1为N。最大的码本可以从足够大量的几乎完全的噪声中提取出来问题在于,随着增长,仍然需要存储越来越多的先前编码的数据,因为码本的新提取的部分可能将先前编码的数据中的一些对象与新对象相关联。因此,第二个假设是,对于1= 0,语言学习者将记住码本和编码数据。对于自然语言,=1可以对应于约束的解(十一)n0的D(N) (N)(一))= max:这样的约束可以恢复语言学习者最大化其总体压缩因子N=D(N)的倾向和最大化学习者的有效码本获取率的有效言语倾向0(N)。另一种解释0:5可能使用的估计精度低。通过类比偏自相关函数[6],让我们引入偏互信息I(A;CjB):=I(S1;:;SA;SA+B+1;:;SA+B+CjSA+1;:;SA+B)(12)= H(A + B)+ H(B + C)H(A + B + C) H(B):条件I(N; N N)=H(N)= max产生0:574。言语可以很好地优化,以最大限度地延迟和独立的当前言语行为的的值的另一种解释可以在形式语言理论中找到该理论的有力方法之一是将L语言的形式性质映射到其生成语言的解析性质函数G(z)=Pn0的 g(n)zn,其中g(n)是序列的数目长度为n,属于L。例如G(z)是z的代数函数,如果lan-语言L是由无歧义的上下文无关文法生成的[9]。如果语言L由出现在某个字符串S1中的所有N元组组成,并且所有对于给定的nN,nlog2g(N)=H(N),N元组经常出现. pIn-有趣的是,[21]提出了一个问题,即log2 g(N)N的语言是否可以由上下文无关语法生成137语言学和热力学等式(5),(11)是相当有趣的,如果一个人看到他们在更广泛的科学背景。对于一个物理学家来说,EQ。(5)指出最佳码本长度(N)是最小描述长度D(N)w.r.t.的勒让德变换系统尺寸N。 类似的勒让德变换出现在无生命自然的热力学中。不同的是,在自然界的变换中出现熵和能量,在语言中出现熵和复杂性度量。 物理(机械)能似乎从宏观语言行为中完全抵消了!“自然”是熵与能量函数的交互作用,而“文化”是熵与复杂性测度的交互作用吗如果熵维数的量(N)、D(N)被解释为体积,N被解释为系统中的粒子数,则等式(1)为:式(11)表示给定n个初始值N=N1和最终值N=N2,粒子数和体积以这样的方式增长,即系统所做的有用功最大。理论统计物理学家已经意识到最大香农熵方法[3]在推断长程哈密顿系统宏观行为时遇到的尖锐问题对于短程哈密顿系统,该方法能很好地预测宏观行为 为了处理长程哈密顿系统,几年前提出了非广延热力学形式主义[35]。非广延热力学修改了最大熵方法所应用的熵的定义。因此,该方法产生的幂律分布相同的约束,产生高斯分布时,应用到香农熵。 虽然高斯分布在无生命的自然界中比比皆是,但幂律分布在生命,语言和经济等复杂系统中比比皆是。非广延热力学的某些推广是否不仅能再现幂律定律,而且能解释复杂系统的所有大尺度行为,这是物理学中的一个新热点语言学和热力学之间的合理联系的问题在[15]中作了进一步的讨论8结论为了解释言语中幂律熵次线性的实验测量,推导出语言交际的数量-符号理论的要素 该理论预测,言语既不能用有限的形式模型也不能用有限的概率模型来完全描述,因此,对言语码本的有限学习既是可能的,也是必要的。人类语言交流的完整和数学严谨的理论的道路仍然漫长。即使是现在,14这一理论与非广延热力学之间的类比和区别。 这种类比和差异可能会进一步促进物理学和应用学共同体与语言学和计算机科学共同体之间的双向交流。神经科学的灵感也可以是灵感。用手找到完整的假释一种可能更快地将人类语言理解为一个系统,并实际利用这些知识的方法似乎是用巨大的自组织计算的数学术语来理解自然智能。 这种新的范式可能结合,但仍然不同于确定性计算和频率论概率推理。根据[28],语言处理的背景,而不是其他认知任务,如视觉,为理解自然智能提供了最大数量和最可靠的可解释数据。一固定PCFG可能无法生成假释[11] 给出了由隐马尔可夫模型(HiddenMarkovModels,简称HMF)生成的过程作为有限过程的例子,并指出非有限过程也可以由上下文无关文法( Context-Free Grammar , 简 称 CFGs ) 生 成 。 如果指的是概率 CFG(PCFG),则此注释可能是错误的。 PCFG由一组有限的上下文无关规则组成,其推导概率仅取决于 当前 的 expandednode。设A1D (N )>H(N)>B1D(N)>0和A2N>D(N )>B2N>0,其中D(N)是用于N-末端产生的导出树中的导出规则的数目典型PCFG的H(N)可以具有大的线性分量并且可能仅具有非常小的次线性分量。 类比推理也适用于概率正则文法,它是PCFG的一个子集。目前几乎没有证据表明,Hertz和其他PCFG属于不同类别的熵次线性发电机。前面的论证产生了一个观点,熵次线性的过程是一般性的,它是一个中间件。一般来说,A1D(N)>H(N)>B1D(N)>0,其中D(N)是指生成器为了生成N个连续的假释符号而必须做出的独立和任意决定的数量。码本的新元素的量不等于1。Quotient1=测量无监督学习而不是顺序确定性解释的冗余量。在非监督学习的消息中,1= 0,并且预期的任意决策的数量D(N)将仅为/N。([32]报告说,科学文本具有1。在出版之前,你必须先做出适当的决定,这使得撰写更长、更有思想性的文本变得如此困难。当然,没有HMM或PCFG可以产生D(N)15带/N项,但不带或依赖于文本的/N项。即使是人类也会使用生成和测试来撰写较长的叙述,好像他们的语言生成器无法实时处理它引用[1] 诉贝利维奇语言信息与统计理论皇家科学院,《科学课程公报》,第419页,1956年。[2] J. 贝兰长内存进程的统计信息。查普曼山,1994年。[3] A. L. Berger,S.A. 德拉皮耶特拉河谷J. 黛拉·皮特拉自然语言处理的最大熵方法。计算语言学,22:39,1996。[4] W. 比亚莱克岛Nemenman,N.提斯比可预测性、复杂性和学习。http://xxx.lanl.gov/abs/physics/0007070v2,2000年。[5] S. L.布劳恩斯坦量子计算教程。http://www.sees.bangor.ac.uk/tagschmuel/comp/comp.html,1995年。[6] P. J. Brockwell和R.A. 戴维斯时间序列:理论与方法Springer-Verlag,1987.[7] E.好极了基 于 转 换 的 错误驱动学习和自然语言处理:词性标注的计算语言学,21:543,1995。[8] W. H.卡尔文大脑密码在头脑的马赛克中思考一个想法。MIT Press,1996.[9] N. Chomsky和M.P. Schützenberger 上下文无关语言的代数理论在p.Bradford和D.Hirschberg,编辑,计算机编程和形式系统。1963年北荷兰[10] T. M. 掩护JA. 托马斯信息理论的基础。约翰威利父子公司,一九九一年[11] J. P. Crutch field,D.P. 费尔德曼规律看不见,随机观察:熵收敛的 Santa FeInstitute Working Paper 01-02-012,2001.[12] C. G. 德马肯。无监督语言习得。麻省理工学院博士论文,1996年。[13] F. 德·索绪尔普通语言学课程。佩约,1916年。[14] - 是的我的天啊。用于为有意义的符号序列寻找序列描述的量子构造。 ICS PASReports,Nr 924,Instytut Podstaw Informatyki PAN,2001. 55 作者16[15] - 是 的我的 天 啊 。ENTRopiCSubextensivityInLanguage和学习。非广延统计力学和热力学。圣达菲研究所,2001年。[16] W. Ebeling,T.波舍尔文学英语中的熵和长程相关性《欧洲物理学快报》,26:241,1994年。[17] W. 艾柏林非线性动力系统和符号序列的LRO预测和熵Physica D,109:42,1997。[18] J. L. 埃尔曼语言的起源:一种阴谋论。芽孢杆菌中MacWhinney,编辑,语言的出现。Lawrence Earlbaum Associates,2000年。[19] R. 费 雷 尔 河 诉 索 雷词频的两 种机 制 和 复杂词汇的 起 源。Santa Fe InstituteWorking Paper 00-12-068,2000.[20] R. 费雷尔河诉索雷人类语言的小世界 Santa Fe Institute Working Paper 01-03-016,2001.[21] P. Flajolet。上下文无关语言的分析模型与歧义。理论计算机科学,49:283,1987。[22] M. 盖尔曼什么是复杂性?复杂性,1995年。[23] J·戈德史密斯。自然语言形态学的无监督学习。芝加哥大学[24] P. 格拉斯伯格自我生成复杂性的定量理论国际理论物理杂志,25:907,1986。[25] E. T. 杰恩斯熵与搜索理论In C.R. 史密斯和小。W. T. Grandy,编辑,逆问题中的最大熵和贝叶斯方法。D. Reidel,1985年。[26] E. T.杰恩斯概率论-科学。http://bayes.wustl.edu/etj/node2.html网站。[27] F. 杰利内克语音识别的统计方法。MIT Press,1997.[28] S. M. Lamb. 大脑的路径。语言的神经认知基础。约翰·本杰明1998年[29] S. 劳伦斯角L. Giles,S.十方使用递归神经网络进行自然语言语法推理。IEEETransactions on Knowledge and Data Engineering,1998。[30] W. 李互信息函数与相关函数。 Journal ofStatistical Physics,60:823,1990.[31] J. L. McClelland,B. L.麦克诺顿河C.奥莱利为什么海马体和新皮层中有互补的学习系统:从学习和记忆的连接主义模型的成功和失败中获得的见解。Psychological Review,102:419,1995.17[32] N.W.佩 特 洛 娃 Code-MerkmaledesschriftlichenTextes. 在Sprachstatistik。柏林,1973年。[33] K. Rateitschak,W.Ebeling,J.弗罗因德文本的非线性动力学模型《欧洲物理学快报》,35:401,1996年。[34] P. M. Todd,G.吉格伦泽,ABC研究集团。简单的启发式让我们聪明。牛津大学出版社,1999年。[35] C. 察利斯熵非扩展性:一种可能的复杂性度量 Santa Fe Institute WorkingPaper 00-02-043,2000.[36] P. Vitányi和M.李最小描述长度归纳法,贝叶斯主义和柯尔莫哥洛夫复杂性。IEEE Transactions on Information Theory,46:446,2000.[37] D. Yarowsky和R.Wicentowski 最小监督形态学分析的多模态对齐。ACL-2000会议记录,香港。2000.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功