资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

探索NLP中的N-grams：理解，应用与优化

创作时间:

2025-01-21 18:28:13

作者:

@小白创作中心

探索NLP中的N-grams：理解，应用与优化

N-grams是自然语言处理（NLP）中的一个重要概念，广泛应用于文本分析任务中。本文将详细介绍N-grams的定义、示例及其在NLP中的应用，并提供Python代码示例。

N-grams简介

N-gram是文本文档中连续n个项目的集合，可以包括单词、数字、符号和标点符号。N-gram模型在许多与单词序列相关的文本分析应用中非常有用，例如情感分析、文本分类和文本生成。N-gram建模是将文本从非结构化格式转换为结构化格式的常用技术之一，其替代方法包括词嵌入技术，如word2vec。

N-grams示例

通过计算每个唯一n元语法在文档中出现的次数，可以创建包含n元语法的语言模型，这被称为bag-of-n-grams模型。

例如，对于句子"The cow jumps over the moon"：

当N=2（称为二元模型）时，n-gram为：
the cow
cow jumps
jumps over
over the
the moon
所以在这种情况下有5个n-gram。从the->cow转移到cow->jumps再到jumps->over等，本质上是向前移动一个单词以生成下一个二元组。
当N=3时，n-gram为：
the cow jumps
cow jumps over
jumps over the
over the moon
所以在这种情况下有4个n-gram。

当N=1时，这被称为一元语法，即句子中的各个单词。当N=2时，称为二元组；当N=3时，称为三元组。当N>3时，通常被称为多元组。

N-grams的应用

N-grams广泛应用于各种NLP任务：

语言模型开发：N-grams用于开发一元模型、二元模型和三元模型。大型科技公司如谷歌和微软开发了网络规模的N-gram模型，可用于拼写纠正、断词和文本摘要等任务。
特征工程：N-grams可以作为有监督机器学习模型（如SVM、最大熵模型、朴素贝叶斯等）的特征。虽然使用二元组和三元组不一定能显著提升模型性能，但它们可以为特征空间提供更丰富的信息。

Python代码示例

以下是在Python中生成N-grams的两种方法：

方法1：自定义函数

import re

def generate_ngrams(text, n):
    # 将句子拆分为单词
    tokens = re.split("\\s+", text)
    ngrams = []
    # 收集n-grams
    for i in range(len(tokens) - n + 1):
        temp = [tokens[j] for j in range(i, i + n)]
        ngrams.append(" ".join(temp))
    return ngrams

方法2：使用NLTK库

from nltk import ngrams

sentence = '_start_ this is ngram _generation_'
my_ngrams = ngrams(sentence.split(), 3)

本文原文来自阿里云开发者社区

热门推荐

春晚武汉分会场里的非遗摊位：代表性传承人展示荆楚瑰宝

补牙选择什么材料好?3种常见补牙材料，价格和优缺点介绍

2025国内补牙价格表公开：材料/医院/龋坏程度等多因素影响一般200元起

手肿消肿有6个小妙招吗

每天吃一片叶酸，3个月后身体健康状况怎么样了？

高血压患者是否需要每天补充叶酸？专家解读

菲律宾普宁火山温泉度假村：火山温泉与越野车之旅的完美结合

北京到苏州自驾游攻略：14小时31分钟的文化之旅

乳酸钠：甘油替代品的新宠儿

玻尿酸 vs 甘油：护肤品界保湿成分大比拼

甘油替代水乳，真的能让妆容更服帖吗？

甘油葡糖苷：护肤界的保湿新星

兰州必打卡：吐鲁沟+白塔山

楠溪江畔的千年守望：苍坡与芙蓉古村的文化传承

冬日游楠溪江：三大必打卡景点推荐！

汪中求推荐：如何在亲子互动中发现孩子的兴趣？

儿童教育游戏：让孩子在快乐中学习，在游戏中成长

中字头个股逆势上涨的秘密：政策支持与市场预期双轮驱动

精神卫生关爱小屋：照亮精神分裂症患者的回归之路

认知行为疗法：精神分裂症治疗的新选择

蛇年新春，给好友的独特祝福语

秋冬泡温泉，如何保障个人安全？

泡温泉真的能缓解寒症和关节炎吗？这份科学指南请收好

边玉芳教授支招：高质量亲子活动助孩子成长