中文的熵:从信息论角度解析汉语特点
创作时间:
作者:
@小白创作中心
中文的熵:从信息论角度解析汉语特点
引用
豆瓣
1.
https://m.douban.com/group/topic/308562846/
信息熵是衡量信息不确定性的指标,在语言学领域,信息熵可以反映一种语言的平均信息量。中文信息熵的计算较为复杂,受到多种因素的影响,包括所使用的文本库、统计方法以及是否考虑语言的高阶特征等。本文将介绍一些关于中文信息熵的研究数据,并分析中文信息熵较高的原因。
中文的信息熵难以确定一个精确的值,因为其计算会受到多种因素的影响,例如所使用的文本库、统计方法以及是否考虑语言的高阶特征等。
一些研究和估算给出了不同的结果。例如,在我国文字研究所1989年出版的《现代汉语定量分析》中,汉字的熵被估算为9.6比特。2002年,哈佛大学的 Frederi 等人通过实验得出相似结论。
孙帆和孙茂松基于《人民日报》的11,978,549字语料库,通过建模与平衡测试样本集之间的交叉熵,得到基于字符而直接计算出的一阶熵、二阶熵与三阶熵分别是:9.62、7.15、6.65bit。
需要注意的是,这些数值只是在特定条件下的估算,实际的中文信息熵可能会因具体情况而有所不同。并且,随着研究的深入和更多数据的使用,对中文信息熵的估计也可能会发生变化。
中文信息熵相对较高的原因主要在于汉语的一些特点,例如汉字系统的字素(符号)数目庞大,且存在一符多义的情况;汉语语法相对简单,减少了因语法时态等产生的额外文字;多音字的存在使同样的字词有多个意思,需通过上下文来消除不确定性;中国由字组词的扩展方式也减少了新文字的出现等。这些特点使得在同样的文字长度下,中文能够传达更丰富的信息量。
热门推荐
燃油车逆袭真相:政策退坡+技术瓶颈下的市场大反转
解锁AI挑拉拉裤,宝宝舒适成长
头孢配酒,说走就走?千真万确,有科学依据!
电热水器免维护是噱头还是黑科技?镁棒革新+智能阻垢背后的真相
从 Steam 页面链接的游戏演示包含恶意软件,引发 Valve 更多安全担忧
小苏打对植物的益处,应用场景详解
土克水详解:五行相克关系中的制约与平衡
插画抓型练习不只是画线稿造型
春羽病虫害防治指南
Wiki的信息准确性问题
注意力缺陷比我们想象的更常见于儿童。
科学饮食预防高尿酸
如何在关系中设定健康的边界
医护级卫生巾并非“医用级卫生巾”!专家:其新版行业标准也在起草中
基金投资中的收益与风险:如何制定科学的投资策略?
小孩子多吃蔬菜有什么好处?
如何利用日线与60分钟级别结合进行交易
日本74岁大爷掉进下水道35天,至少要3个月获救,政府呼吁居民少用水
一片云南“树叶”何以“茗”动天下?
有趣的LOGO——简约与趣味的完美平衡
煎鸡排看似简单,实则蕴含了许多技巧和细节
老黄牛在文化象征中的意义是什么?
健身锌镁片有必要吃吗
场景化体验化成为城市旅游竞争趋势
什么是锚杆支护?锚杆支护的原理、用途和作用
趋势分析是什么?市场趋势分析的经典方法,从数据中识别机会
光伏发电的基本原理
光伏行业概况、发展背景及发展现状
小叶性肺炎的临床表现
支气管肺炎的定义