逻辑回归到条件随机场：利用上下文信息的模型升级

版权申诉

42 浏览量更新于2024-08-04 收藏 320KB PDF 举报

"《从点到线：逻辑回归到条件随机场》是一篇深入讲解从基础的逻辑回归模型发展到考虑上下文信息的机器学习技术的文章。作者通过介绍逻辑回归的基本概念和形式，如特征函数和能量函数，引导读者理解这些模型在传统分类任务中的局限性，即它们是“点状”的，仅依赖于当前的特征而不考虑时间顺序或上下文信息。文章提到，例如在词性标注任务中，简单的逻辑回归模型可能会因为忽视上下文而无法准确识别词性，比如单词“谷歌”在“我今天参观了谷歌”中是名词，在“你谷歌一下”中则是动词。为了克服这个问题，作者提出了利用上下文信息的方法，通过添加词的n-gram（如2-gram）来扩展特征，将词性和其周围的词语组合在一起，形成一个多维度的特征空间。这使得模型能够根据上下文的不同来做出更精确的词性预测。文章进一步讨论了如何将逻辑回归转化为特征函数或能量函数的形式，这些形式可以直观地用有向图或无向图表示，便于理解和分析模型的工作原理。然而，当处理更复杂的句子时，模型面临的挑战在于可能需要考虑远离目标词的关键词对词性的影响，这可能涉及到较长的距离依赖关系。在这个转变过程中，文章还提到了最大熵模型，它是一种常用的统计学习方法，能够处理不确定性，并且在一定程度上解决了逻辑回归的局限性。最后，文章暗示，从逻辑回归到条件随机场（如隐马尔可夫模型或CRF）是向处理序列数据和上下文依赖性的关键一步，这为文本分析和自然语言处理领域的模型设计提供了重要的指导。总结来说，本文旨在帮助读者理解如何从简单的逻辑回归模型出发，逐渐引入上下文信息，通过特征工程和模型升级，实现从“点状”到“线性”模型的转变，以提高在诸如词性标注这类需要考虑上下文的任务中的性能。"

从点到线：逻辑回归到条件随机场

原创

⼣⼩瑶

2017-07-23⼣⼩瑶的卖萌屋

开篇⾼能预警！本⽂前置知识：

1、理解特征函数/能量函数、配分函数的概念及其⽆向图表⽰，⻅《逻辑回归到受限玻尔兹曼机》和《解开玻尔兹曼

机的封印》；

2、理解特征函数形式的逻辑回归模型，⻅《逻辑回归到最⼤熵模型》。

从逻辑回归出发，我们已经经过了朴素⻉叶斯、浅层神经⽹络、最⼤熵等分类模型。显然，分类模型是不考虑时间

的，仅仅计算当前的⼀堆特征对应的类别。因此，分类模型是“点状”的模型。

想⼀下，如果我们有⼀个词性标注（POS）的任务，在这个任务中，类别有动词、名词、形容词、副词、介词、连

词等有限个类别。样本呢，当然就是⾃然语⾔序列啦，例如“⼣⼩瑶喜欢狗狗”这个序列就对应着“名词动词名词”这

三个对应类别。

这时我们如果⽤“点状”模型，也就是分类模型来做这个任务，会产⽣什么现象呢？

假如我们选取的特征就是当前位置词，那么我们将分类器训练完成后，分类器遇到“⼣⼩瑶”就会输出“名词”这个类

别，也就是说它是不考虑上下⽂的，预测每个词的词性的时候才不会考虑整个句⼦的情况呢。在这⾥简单例⼦中看

似没有什么影响，然⽽实际上⾮常多的词在不同的句⼦中会表现出不同的词性。⽐如“⾕歌”⼀词，在“我今天参观了

⾕歌”中就是名词，在“你⾕歌⼀下”中就是动词。可以看出，词性不仅取决于它⾃⼰，还取决于它的上下⽂（它两边

的词）！

那么，有没有可能让逻辑回归、朴素⻉叶斯这类点状模型利⽤好上下⽂信息呢？最容易想到的做法就是将上下⽂信

息编码成特征啦！

⽐如加⼊当前词的2-gram上下⽂作为特征，这时在“你⾕歌⼀下”中去预测“⾕歌”的词性的时候，特征就是三维的：

1、“⾕歌”2、“你⾕歌”3、“⾕歌⼀下”。⽽在“我今天参观了⾕歌”中，特征是1、“⾕歌”2、“了⾕歌”3、“⾕歌

<EOS>”这样就能根据不同的特征值在不同的句⼦中更精确的分类“⾕歌”的词性啦〜

在《逻辑回归到最⼤熵模型》中，⼩⼣详细讲了如何将逻辑回归的传统形式转换成特征函数/能量函数描述的形式，

⽽如《解开玻尔兹曼机的封印》所⽰，这种形式很容易画成有向图或⽆向图的形式：

下载后可阅读完整内容，剩余3页未读，立即下载

普通网友

粉丝: 1283

逻辑回归到条件随机场：利用上下文信息的模型升级

从逻辑回归到最大熵模型.pdf

机器学习反欺诈实践：Python-scikit-learn-随机森林.pdf

基于LabVIEW与MATLAB的回归分析数据处理系统.pdf

具有二维状态转移结构的随机逻辑及其在神经网络中的应用.pdf

[Building.Machine.Learning.Systems.with.Pytho.pdf

机器学习算法知识手册.pdf.rar

基于机器学习的金融消费场景预测探索.pdf

机器学习算法详解：从线性回归到神经网络

【回归模型精选】：多元回归与逻辑回归的【选择与应用】

从理论到应用：MATLAB线性回归分析的完全攻略

最新资源