齐普夫定律:一个跨越语言与社会的统计规律
齐普夫定律:一个跨越语言与社会的统计规律
齐普夫定律(Zipf's law)是用数理统计公式表述的经验法则,由哈佛大学语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表。它揭示了在物理和社会科学中,各类型的数据研究所呈现出的图形,近似于齐普夫分布(Zipf distribution)状态。
定义与历史背景
齐普夫定律最初是根据计量语言学来制定的,一般表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。则最频繁出现的单词的频率大约是第二个最频繁单词的两倍,是第三个最频繁单词的三倍,依此类推。
这个定律被作为任何与幂定律概率分布有关的事物的参考。例如,在布朗英文语料库中,单词"the"是最常出现的单词,占所有单词的近7%。根据齐普夫定律,排在第二位的 "of" 在单词中所占的比例略高于3.5%(共出现36,411次),其次为单词"and"(出现28,852次),仅前135个词汇就占了Brown语料库的一半。
该定律以美国语言学家齐普夫命名,他致力于推广和阐释该定律,尽管他并没有声称自己是创始人。法国速记员让-巴蒂斯特·埃斯特鲁可能在齐普夫之前就注意到了这种规律。1913年,德国物理学家费利克斯·奥尔巴赫也注意到了这一点。
数学表达
齐普夫定律可以用以下数学公式表示:
- 概率质量函数(PMF):[ \frac{1/k^s}{H_{N,s}} ]
- 累计分布函数(CDF):[ \frac{H_{k,s}}{H_{N,s}} ]
- 期望值:[ \frac{H_{N,s-1}}{H_{N,s}} ]
- 方差:[ \frac{H_{N,s-2}}{H_{N,s}}-\frac{H^2_{N,s-1}}{H^2_{N,s}} ]
- 矩母函数(MGF):[ \frac{1}{H_{N,s}}\sum\limits_{n=1}^N \frac{e^{nt}}{n^s} ]
- 特征函数:[ \frac{1}{H_{N,s}}\sum\limits_{n=1}^N \frac{e^{int}}{n^s} ]
- 熵:[ \frac{s}{H_{N,s}}\sum\limits_{k=1}^N\frac{\ln(k)}{k^s} + \ln(H_{N,s}) ]
其中,(H_{N,s})是第N个谐波数。
应用范围
齐普夫定律不仅适用于语言学领域,还可以在很多非语言学排名中被观察到,例如:
- 单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
- 网页访问频率
- 城镇人口与城镇等级的关系
- 收入前3%的人的收入
- 地震震级
- 固体破碎时的碎片大小
统计学解释
尽管齐普夫定律适用于所有语言,即使是像世界语这样的非自然语言,但其原理仍然没有得到很好的理解。然而,对随机产生的文本进行统计分析可以在某些方面解释这一现象。Wentian Li表示,在一份文档中,每个字符都是从所有字母(加上一个空格字符)的均匀分布中随机选取的,不同长度的“单词”遵循齐普夫定律的宏观趋势,即可能性越大的单词越短,出现概率越大。
维托尔德·贝列维奇在《语言分布的统计规律》中给出了一个数学推导。他取了一大类表现良好的统计分布(不仅仅是正态分布),并用把他们排列名次。然后他把每个表达式展开成一个泰勒级数。在每一种情况下,贝列维奇都得到了显著的成果,即级数的一阶截断导出了齐普夫定律。此外,对泰勒级数的二阶截断导出了曼德布洛特定律。
最小努力原则是另一种来解释齐普夫定律的途径:齐普夫本人提出,使用特定语言的说话者和接收者都不想仅仅为了理解而付出超额努力,从而导致努力的程度大致平等分配的过程产生了我们所观察到的齐普夫分布。
类似地,偏好依附(直观的看到“富人越来越富”或“成功孕育成功”)产生了Yule-Simon 分布,这已被证明比齐普夫定律更适合语言中的词频与排名、人口与城市排名研究。
相关定律
- Zipf-Mandelbrot定律:由本华·曼德博提出,其频率为:
- 本福德定律:是齐普夫定律的一种特殊的有界情形,这两个定律之间的联系就在于它们都起源于统计物理和临界现象的尺度不变函数关系(尺度不变特征)。
应用
在信息论中,概率的符号(事件,信号)[ p ]包含[ \log_2(1/p) ]比特的信息。因此,自然数的齐普夫定律:[ \Pr(x) \approx 1/x ]等价于数字[ x ]包含[ \log_2(x) ]信息点。从概率符号中添加信息[ p ]转化为已经存储在自然数中的信息[ x ],我们需要[ x' ]这样比如,或者相等于[ x' \approx x/p ]。例如,在标准二进制系统中[ x' = 2x + s ],对于其是最优的[ \Pr(s=0) = \Pr(s=1) = 1/2 ]可能分布。使用[ x' \approx x/p ]一般概率分布的规则是非对称数字系统系列熵编码方法的基础,数据压缩系列的状态分布也受齐普夫定律支配。
齐普夫定律也被用于从可比较的语料库中提取文本的平行片段。