概率上下文无关文法(PCFG)详解
创作时间:
作者:
@小白创作中心
概率上下文无关文法(PCFG)详解
引用
CSDN
1.
https://blog.csdn.net/qq_64091900/article/details/144089225
概率上下文无关文法(PCFG)是自然语言处理中用于句法分析的重要工具。本文将详细介绍PCFG的基本概念、基本问题及其求解方法,帮助读者更好地理解这一理论框架及其在实际应用中的价值。
0. 关于语句法解析
1️⃣模型描述:
- 条件:给定一个句子s及其语法G,以P(t|(s,G))概率生成分析树t,并且∑tP(t|(s,G))=1
- 目的:找出最大化P(t|(s,G))的t,即最有可能的句法树
2️⃣与语言模型:
- 句子概率:语言模型中句子以P(s)概率生成,若考虑句法结构则有P(s)=∑tP(s,t)
- 最优分析:句法分词旨在最大化P(t|s)→P(s)是关于t的常数P(t|s)=P(t,s)P(s)P(s)是关于t的常数 变为直接最大化P(t,s)
1. 一些基本概念与假设
1️⃣句子结构:
结构 | 含义 | 示例 |
---|---|---|
非终止符 | 抽象语法成分,不直接出现在句子中 | S/NP/VP |
终结符 | 实际出现的单词或符号 | cat, eats, fish... |
规则 | 非终止符如何进一步被分为符序列/短语 | NP→Det+N/VP→V+NP |
层次结构 | 规则逐步展开形成的树状结构 | 句法树 |
2️⃣上下文无关文法(CFG):
Item | 含义 | 例子 |
---|---|---|
CFG | 细分非终止符的语法规则集 | NP→Det+N/VP→V+NP |
PCFG | 为每条规则赋予一个概率 | P(NP→Det+N)=0.9/P(VP→V+NP)=0.1 |
3️⃣句法树:用树状结构表示句子内部语法层次
结构 | 内容 |
---|---|
根结点 | 整个句子 |
中间结点 | 包括非终结结点(如NP/VP等语法成分)+终结结点(如N/V等具体单词词性) |
叶结点 | 实际的单词,与终结结点1-1对应 |
4️⃣模型假设
假设 | 含义 | 示例 |
---|---|---|
位置不变 | 子树概率与在句子中位置无关 | 名词短语NP在句首/尾时,其结构概率相同 |
上下文无关 | 子树概率不依赖不属于该子树词 | 动词短语VP生成概率不依赖于句中主语NP |
祖先无关 | 子树概率与其父/祖先节点无关 | 嵌套从句CP生成概率与更高层句法树无关 |
2. 概率上下文无关文法基本问题
2.1. 问题1: 句子概率P(w1:m|G)计算
1️⃣Chomsky范式语法
- 两种规则:
- 规则:N^i(一个非终结符)→N^jN^k(一个非终结符),规则概率P(N^i→N^jN^k|G)
- 规则:N^i(一个非终结符)→w^j(一个终结符),规则概率P(N^i→w^j|G)
- 参数空间:对于空间{N^1,N^2,...,N^n,w^1,w^2,...,w^V}
- 规则数量:二元规则共n^3个,一元规则共nV个
- 规则概率:需满足∑r,sP(N^j→N^rN^s)+∑kP(N^j→w^k)=1
2️⃣句子概率P(w1:m)=∑t:yield(t)=w1mP(t)
项 | 含义 |
---|---|
P(w1:m) | 生成句子(词序列)w1:m=w1,w2,...,wm的概率 |
t:yield(t)=w1m | 句法树的叶节点序列是{w1,w2,...,wm} |
∑P(t) | 所有叶节点序列是{w1,w2,...,wm}的句法树生成的概率总和 |
P(t) | 某一句法树生成的概率,为生成句法树所有规则概率的乘积 |
3️⃣示例:考虑句子astronomers saw stars with ears
- 句法树:
- t1:with ears修饰stars
- t2:with ears修饰saw
规则概率:
生成概率
概率 | 计算 |
---|---|
P(t1) | 1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18 |
P(t2) | 1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18 |
P(w) | P(t1)+P(t2) |
2.2. 问题2: 最佳句法分析
1️⃣问题描述
- 目的:找到使句子概率最大的句法树,即最优句法树
- 形式化:
- 定义δi(p,q):即以非终结符Ni且覆盖字句wp:q情况下,最佳解析树的概率
- 求解方法:动态规划
2️⃣类Viterbi风格的动态规划求解
- 二元规则:δi(p,q)←Np:qi子树由Np:rj/Nr+1:qk构成maxj,k,r(P(Ni→NjNk)×δj(p,r)×δk(r+1,q))
- 一元规则:δi(p,p)←由叶节点Np:pi直接生成wjP(Ni→wp)
2.3. 问题2: 文法训练
1️⃣Inside-Outside算法
- 内部概率&外部概率
P | 公式 | 含义 |
---|---|---|
内 | βj(p,q)=P(wp:q | (Np:qj,G)) |
外 | αj(p,q)=P((w1:(p−1),Np:qj,w(q+1):m) | G) |
- 算法公式:P(规则N→α在wp:q)=αi(p,q)×P(N→α)×∏β(子结构)×1P(w1:m)
2️⃣EM算法:优化规则的概率P(N→α)
- E步:使用Inside-Outside算法,算出规则在未标注语料中出现次数的期望
- M步:更新每条规则中的概率为P(N→α)=规则N→α的期望值所有以N为左部规则的期望值总和
热门推荐
摩洛哥地理图
客户投诉:类型、价值与企业应对策略
客户投诉管理策略有哪些
王者荣耀:凯的"切后爆杀流"玩法攻略
楼顶怎么隔热最有效?楼顶隔热最好方案
新型隔热材料在建筑工程中的应用与性能评价
厦门眼科中心ICL手术费用全解析:从晶体到术后护理
张柏芝舞台剧表演技巧揭秘:从影视到舞台的华丽转身
周海媚逝世一周年:再忆“最美周芷若”
金像奖影后张柏芝:从《忘不了》看她的演技实力
周海媚的“京港记忆”:从港剧女神到北京生活
零件制造中使用的钻头类型
苏州凤凰湖的香蒲棒景观设计
香蒲棒:传统中药材的现代价值
香蒲:湿地守护神的秘密武器
冬季养生神器:香蒲棒的神奇功效
我的朋友背叛了我——我应该修复我们的友谊还是减少损失?
孕期可以选择哪些水果汁饮用?哪些水果汁需谨慎食用?
孕期饮料选择攻略:哪些能喝?哪些要避开?孕期如何自制饮料
高架上的三角梅,已进入最佳观赏期啦
四川腊肠:从广东“舶来品”到巴蜀餐桌上的麻辣传奇
腊肠DIY大赛:谁能做出最地道的家乡味?
四川腊肠PK广式腊肠:谁才是腊肠界的王者?
张柏芝抹胸裙造型惊艳,44岁依旧美如少女
张柏芝:从《喜剧之王》到《奇幻变形记》的演艺之路
张柏芝新作能否超越《蜀山传》?复出后首谈演艺圈经历
张柏芝米兰时装周惊艳亮相,育儿理念获赞:培养独立性比成绩更重要
如何有效分享热点话题,增进与朋友的互动与联系
拥房单身狗,户口自由不是梦!
自驾游怎么分摊费用才算合理?一篇让你心中有数的攻略