注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

罗维的博客

{ 关注机器学习、计算广告、自然语言处理、大规模数据处理等 }

 
 
 
 
 

日志

 
 

柯林斯(Collins)的头驱动统计模型  

2010-03-25 00:02:27|  分类: 机器学习 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
    柯林斯(Collins)是Marcus的高徒,现在在MIT任教。Collins在2003发表于《Computational Linguistics》上的论文《Head-Driven Statistical Models for Natural Language Parsing》中提出了三个头驱动统计模型,其实就是其1999年的博士论文的精简版。该模型在当时是性能最好的句法分析模型。

    柯林斯的头驱动统计模型,本质上属于基于历史模型,论文中该模型用于句法分析。句法分析的输入是词性标注过的句子,输出则是具有句法结构标注的句子,其结构可用句法树来表示。句法树有很多种,根据算法不同有不同的选择。句法树的构建过程就是一个决策序列,决策序列与句法树是一一对应的。句法分析的文法模型,总体来说有概率上下文无关模型(PCFG)、词汇概率上下文无关模型(Lexicalized PCFG,以下简称L-PCFG)、基于规则模型,应用得最广泛的是概率上下文无关模型。PCFG模型简单有效,但其独立性假设忽略了很多可以利用的信 息,性能上不及L-PCFG模型,而柯林斯正是在L-PCFG模型基础上改进,利用了更多信息,提出了用于句法分析的头驱动统计模型,因此准确率达到了当 时最高峰,但实现就比PCFG复杂了许多。

    其第一个模型中,修改了L-PCFG的独立性假设,将规则概率的计算公式简化为一个个小的句法标注符概率的乘积,这个步骤不仅复杂度得到降低,而且大大缓解了数据稀疏问题。其后,又在模型中加入了距离信息,使得该模型的性能一举超越其他模型。

    柯林斯在这时并没有满足,而是继续在第一个模型基础上,加入了补语分类信息,形成了第二个模型。在很多时候,补语的结构容易被错误标注,这都是由于补语结构没有另外的标注符号,导致统计模型中不能区分,从而导致误标注。柯林斯对语料库进行了改造,加入了新的标注符号,区分补语结构,并在规则概率计算公式中加入对补语结构概率的计算。该模型能够区分补语结构,从而降低了误标注率,性能进一步提升。

    柯林斯还是没有满足,在此基础上,加入了对从句结构的区分信息,形成第三个模型。在从句结构中,省略主语或宾语是很常见的,因为是该从句所 修饰的词,所以不需要重复出现。也因此,在从句中的句法结构与一般句子句法结构有所不同,加入这个区分信息后,模型的性能达到了最高峰。

    此外,柯林斯的模型中还加入了对名词短语、对称短语结构、标点符号和无主语句子的区分信息。柯林斯为了提高模型的性能,手段繁复至极,力求轧干每一个可以提高性能的地方。在2005年发表于CL上的另一篇论文中,柯林斯又攀上了新高峰。

  评论这张
 
阅读(802)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017