概率上下文无关文法(PCFG)详解
创作时间:
作者:
@小白创作中心
概率上下文无关文法(PCFG)详解
引用
CSDN
1.
https://blog.csdn.net/qq_64091900/article/details/144089225
概率上下文无关文法(PCFG)是自然语言处理中用于句法分析的重要工具。本文将详细介绍PCFG的基本概念、基本问题及其求解方法,帮助读者更好地理解这一理论框架及其在实际应用中的价值。
0. 关于语句法解析
1️⃣模型描述:
- 条件:给定一个句子s及其语法G,以P(t|(s,G))概率生成分析树t,并且∑tP(t|(s,G))=1
- 目的:找出最大化P(t|(s,G))的t,即最有可能的句法树
2️⃣与语言模型:
- 句子概率:语言模型中句子以P(s)概率生成,若考虑句法结构则有P(s)=∑tP(s,t)
- 最优分析:句法分词旨在最大化P(t|s)→P(s)是关于t的常数P(t|s)=P(t,s)P(s)P(s)是关于t的常数 变为直接最大化P(t,s)
1. 一些基本概念与假设
1️⃣句子结构:
结构 | 含义 | 示例 |
|---|---|---|
非终止符 | 抽象语法成分,不直接出现在句子中 | S/NP/VP |
终结符 | 实际出现的单词或符号 | cat, eats, fish... |
规则 | 非终止符如何进一步被分为符序列/短语 | NP→Det+N/VP→V+NP |
层次结构 | 规则逐步展开形成的树状结构 | 句法树 |
2️⃣上下文无关文法(CFG):
Item | 含义 | 例子 |
|---|---|---|
CFG | 细分非终止符的语法规则集 | NP→Det+N/VP→V+NP |
PCFG | 为每条规则赋予一个概率 | P(NP→Det+N)=0.9/P(VP→V+NP)=0.1 |
3️⃣句法树:用树状结构表示句子内部语法层次
结构 | 内容 |
|---|---|
根结点 | 整个句子 |
中间结点 | 包括非终结结点(如NP/VP等语法成分)+终结结点(如N/V等具体单词词性) |
叶结点 | 实际的单词,与终结结点1-1对应 |
4️⃣模型假设
假设 | 含义 | 示例 |
|---|---|---|
位置不变 | 子树概率与在句子中位置无关 | 名词短语NP在句首/尾时,其结构概率相同 |
上下文无关 | 子树概率不依赖不属于该子树词 | 动词短语VP生成概率不依赖于句中主语NP |
祖先无关 | 子树概率与其父/祖先节点无关 | 嵌套从句CP生成概率与更高层句法树无关 |
2. 概率上下文无关文法基本问题
2.1. 问题1: 句子概率P(w1:m|G)计算
1️⃣Chomsky范式语法
- 两种规则:
- 规则:N^i(一个非终结符)→N^jN^k(一个非终结符),规则概率P(N^i→N^jN^k|G)
- 规则:N^i(一个非终结符)→w^j(一个终结符),规则概率P(N^i→w^j|G)
- 参数空间:对于空间{N^1,N^2,...,N^n,w^1,w^2,...,w^V}
- 规则数量:二元规则共n^3个,一元规则共nV个
- 规则概率:需满足∑r,sP(N^j→N^rN^s)+∑kP(N^j→w^k)=1
2️⃣句子概率P(w1:m)=∑t:yield(t)=w1mP(t)
项 | 含义 |
|---|---|
P(w1:m) | 生成句子(词序列)w1:m=w1,w2,...,wm的概率 |
t:yield(t)=w1m | 句法树的叶节点序列是{w1,w2,...,wm} |
∑P(t) | 所有叶节点序列是{w1,w2,...,wm}的句法树生成的概率总和 |
P(t) | 某一句法树生成的概率,为生成句法树所有规则概率的乘积 |
3️⃣示例:考虑句子astronomers saw stars with ears
- 句法树:
- t1:with ears修饰stars
- t2:with ears修饰saw
规则概率:
生成概率
概率 | 计算 |
|---|---|
P(t1) | 1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18 |
P(t2) | 1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18 |
P(w) | P(t1)+P(t2) |
2.2. 问题2: 最佳句法分析
1️⃣问题描述
- 目的:找到使句子概率最大的句法树,即最优句法树
- 形式化:
- 定义δi(p,q):即以非终结符Ni且覆盖字句wp:q情况下,最佳解析树的概率
- 求解方法:动态规划
2️⃣类Viterbi风格的动态规划求解
- 二元规则:δi(p,q)←Np:qi子树由Np:rj/Nr+1:qk构成maxj,k,r(P(Ni→NjNk)×δj(p,r)×δk(r+1,q))
- 一元规则:δi(p,p)←由叶节点Np:pi直接生成wjP(Ni→wp)
2.3. 问题2: 文法训练
1️⃣Inside-Outside算法
- 内部概率&外部概率
P | 公式 | 含义 |
|---|---|---|
内 | βj(p,q)=P(wp:q | (Np:qj,G)) |
外 | αj(p,q)=P((w1:(p−1),Np:qj,w(q+1):m) | G) |
- 算法公式:P(规则N→α在wp:q)=αi(p,q)×P(N→α)×∏β(子结构)×1P(w1:m)
2️⃣EM算法:优化规则的概率P(N→α)
- E步:使用Inside-Outside算法,算出规则在未标注语料中出现次数的期望
- M步:更新每条规则中的概率为P(N→α)=规则N→α的期望值所有以N为左部规则的期望值总和
热门推荐
造化不能藏其秘,故天雨粟:灵怪不能遁其形,故鬼夜哭。
人力资源从业者求职指南:五大策略助你成功找到心仪工作
神奇九转:简单又好用的择时指标
中企出海|中国制造企业如何布局东南亚?
中国女子金球奖得主张琳艳:热爱成动力 坚持为底色
股市靠什么因素波动?这些因素如何影响股市?
神话体系中的五大量劫
以旧换新、“新国标” 电动自行车安全再升级
张仲景方子失效?考古发现揭示古方疗效差异之谜
东莞黄江:城市更新注入新动力
紫外线 (UV) 辐射:类型、危害与防护指南
《封神第二部:战火西岐》票房破5亿!看邓婵玉如何“燃爆”大银幕
指甲顏色外觀怎樣才算健康? 指甲也能揭示身體毛病
最新工人工资改革方案:提高工资水平,保障劳动者权益
苦难式教育为什么会引发出扫兴式父母?
参考一下!中国 VS 日本生活成本对比
晚上睡觉时咬牙齿的现象是什么病的前兆?如何识别这一症状并及时处理?
拿什么拯救老年人的皮肤问题?七招预防指南
王府井何以持续成为“顶流”?
贴车衣是交智商税吗?你到底是不是韭菜?车衣到底该不该贴?
什么是柔式按摩?从手法到功效的全面解析
有图解:如何搬东西不伤腰?复健医教你调整「2动作」预防腰痠背痛
今天明天都是小年!南北方小年为何相差一天?
寒假渐近尾声,给孩子的6个收心建议,请各位家长查收!
正念练习 | 10分钟练习,缓解失眠的困扰
略谈中国古典智慧与现代生活的关系
发现最美铁路:西成高铁穿越山岭,让诗和远方近在咫尺
欧洲杯数据与纪录一览:C罗历史射手王,亚马尔16岁最年轻球员
面塑在美食文化中的独特地位
基于二叉树、蒙特卡洛模拟、BS方程的期权定价模型