概率上下文无关文法(PCFG)详解
创作时间:
作者:
@小白创作中心
概率上下文无关文法(PCFG)详解
引用
CSDN
1.
https://blog.csdn.net/qq_64091900/article/details/144089225
概率上下文无关文法(PCFG)是自然语言处理中用于句法分析的重要工具。本文将详细介绍PCFG的基本概念、基本问题及其求解方法,帮助读者更好地理解这一理论框架及其在实际应用中的价值。
0. 关于语句法解析
1️⃣模型描述:
- 条件:给定一个句子s及其语法G,以P(t|(s,G))概率生成分析树t,并且∑tP(t|(s,G))=1
- 目的:找出最大化P(t|(s,G))的t,即最有可能的句法树
2️⃣与语言模型:
- 句子概率:语言模型中句子以P(s)概率生成,若考虑句法结构则有P(s)=∑tP(s,t)
- 最优分析:句法分词旨在最大化P(t|s)→P(s)是关于t的常数P(t|s)=P(t,s)P(s)P(s)是关于t的常数 变为直接最大化P(t,s)
1. 一些基本概念与假设
1️⃣句子结构:
结构 | 含义 | 示例 |
|---|---|---|
非终止符 | 抽象语法成分,不直接出现在句子中 | S/NP/VP |
终结符 | 实际出现的单词或符号 | cat, eats, fish... |
规则 | 非终止符如何进一步被分为符序列/短语 | NP→Det+N/VP→V+NP |
层次结构 | 规则逐步展开形成的树状结构 | 句法树 |
2️⃣上下文无关文法(CFG):
Item | 含义 | 例子 |
|---|---|---|
CFG | 细分非终止符的语法规则集 | NP→Det+N/VP→V+NP |
PCFG | 为每条规则赋予一个概率 | P(NP→Det+N)=0.9/P(VP→V+NP)=0.1 |
3️⃣句法树:用树状结构表示句子内部语法层次
结构 | 内容 |
|---|---|
根结点 | 整个句子 |
中间结点 | 包括非终结结点(如NP/VP等语法成分)+终结结点(如N/V等具体单词词性) |
叶结点 | 实际的单词,与终结结点1-1对应 |
4️⃣模型假设
假设 | 含义 | 示例 |
|---|---|---|
位置不变 | 子树概率与在句子中位置无关 | 名词短语NP在句首/尾时,其结构概率相同 |
上下文无关 | 子树概率不依赖不属于该子树词 | 动词短语VP生成概率不依赖于句中主语NP |
祖先无关 | 子树概率与其父/祖先节点无关 | 嵌套从句CP生成概率与更高层句法树无关 |
2. 概率上下文无关文法基本问题
2.1. 问题1: 句子概率P(w1:m|G)计算
1️⃣Chomsky范式语法
- 两种规则:
- 规则:N^i(一个非终结符)→N^jN^k(一个非终结符),规则概率P(N^i→N^jN^k|G)
- 规则:N^i(一个非终结符)→w^j(一个终结符),规则概率P(N^i→w^j|G)
- 参数空间:对于空间{N^1,N^2,...,N^n,w^1,w^2,...,w^V}
- 规则数量:二元规则共n^3个,一元规则共nV个
- 规则概率:需满足∑r,sP(N^j→N^rN^s)+∑kP(N^j→w^k)=1
2️⃣句子概率P(w1:m)=∑t:yield(t)=w1mP(t)
项 | 含义 |
|---|---|
P(w1:m) | 生成句子(词序列)w1:m=w1,w2,...,wm的概率 |
t:yield(t)=w1m | 句法树的叶节点序列是{w1,w2,...,wm} |
∑P(t) | 所有叶节点序列是{w1,w2,...,wm}的句法树生成的概率总和 |
P(t) | 某一句法树生成的概率,为生成句法树所有规则概率的乘积 |
3️⃣示例:考虑句子astronomers saw stars with ears
- 句法树:
- t1:with ears修饰stars
- t2:with ears修饰saw
规则概率:
生成概率
概率 | 计算 |
|---|---|
P(t1) | 1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18 |
P(t2) | 1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18 |
P(w) | P(t1)+P(t2) |
2.2. 问题2: 最佳句法分析
1️⃣问题描述
- 目的:找到使句子概率最大的句法树,即最优句法树
- 形式化:
- 定义δi(p,q):即以非终结符Ni且覆盖字句wp:q情况下,最佳解析树的概率
- 求解方法:动态规划
2️⃣类Viterbi风格的动态规划求解
- 二元规则:δi(p,q)←Np:qi子树由Np:rj/Nr+1:qk构成maxj,k,r(P(Ni→NjNk)×δj(p,r)×δk(r+1,q))
- 一元规则:δi(p,p)←由叶节点Np:pi直接生成wjP(Ni→wp)
2.3. 问题2: 文法训练
1️⃣Inside-Outside算法
- 内部概率&外部概率
P | 公式 | 含义 |
|---|---|---|
内 | βj(p,q)=P(wp:q | (Np:qj,G)) |
外 | αj(p,q)=P((w1:(p−1),Np:qj,w(q+1):m) | G) |
- 算法公式:P(规则N→α在wp:q)=αi(p,q)×P(N→α)×∏β(子结构)×1P(w1:m)
2️⃣EM算法:优化规则的概率P(N→α)
- E步:使用Inside-Outside算法,算出规则在未标注语料中出现次数的期望
- M步:更新每条规则中的概率为P(N→α)=规则N→α的期望值所有以N为左部规则的期望值总和
热门推荐
2024年生态保护:维护生态平衡与安全
围观七星连珠,天文奇观背后的奥秘与浪漫
ACG定义全解析:了解动漫、漫画与游戏的综合文化
当恐袭与反恐走向无人化
戴金属牙套可以参加高考吗?官方建议提前做好准备并开好证明
姓张最有诗意网名 好记46个
国家药监局:停产!这种常用泻药会让肠子“变黑”,不良反应严重!快别吃了~
抹茶就是绿茶?其实区别大了
座椅功能揭秘:何谓魔术座椅?
小腿肿了怎么快速消肿
西班牙王室:从传统走向现代
骑摩托车与电动车相撞,车主伤残索赔10万元被驳回
同一辆车、同一段高速路线,为何来回的收费不一样?
魔兽世界自动选取目标宏教程:从入门到精通
人参枸杞酒配方及功效详解
如何利用旋转定位台提升3D打印精度
上海:启动25个城中村改造项目,旧改项目如何提升居民生活质量?
为什么打字效率更高的Dvorak键盘最终失败了
公司内斗的应对策略有哪些?这些策略的有效性如何?
【花卉科普】每天认识一种花-蝴蝶洋牡丹
想在附近租房怎么找?在附近寻找租房的方法有哪些?
这三种母亲类型,可能会毁掉孩子的未来!
拆解分布式系统:深入了解分布式架构的核心概念
“打鸡血”是什么意思?起源于我国的哪件事?
当年风靡全国的打鸡血疗法,后来因意料不到的原因消失了
卡波姆眼用凝胶的功效与作用
全国十大紫菜产区:从平潭到东山,哪款紫菜最合你口味?
全国十大紫菜产区:从平潭到东山,哪款紫菜最合你口味?
如何正确配置aria2服务器以优化下载性能?
隐匿的消化道“刺客”——小肠出血