Hugging Face模型查找与使用指南
创作时间:
作者:
@小白创作中心
Hugging Face模型查找与使用指南
引用
CSDN
1.
https://m.blog.csdn.net/weixin_43815222/article/details/144219443
本文详细介绍了如何在Hugging Face平台上查找和使用模型,特别是针对自然语言处理(NLP)任务的模型。内容包括模型的查找方法、使用方法、命名规则以及模型的具体结构和保存方式。
一、如何找到统一使用方法
对于文字处理,可以使用AutoTokenizer,具体操作如下:
- 在模型页面找到需要的模型并点击
- 点击最右边的"Use in Transformers"
二、如何找到本模型使用方法
滑到页面底部查看使用说明,通常会提供PyTorch的使用方法,以及其他框架的说明。
其中字符串名字可以为路径。
三、两种使用方法结果对比
使用RobertaTokenizer和AutoTokenizer的结果是一样的:
# 使用 RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained(pretrained_model_path)
inputs = tokenizer("对比原始的分词和最新的分词器", return_tensors="pt")
print(inputs['input_ids'])
# 使用 AutoTokenizer
auto_tokenizer = AutoTokenizer.from_pretrained(pretrained_model_path)
auto_inputs = auto_tokenizer('对比原始的分词和最新的分词器', return_tensors='pt')
print(auto_inputs['input_ids'])
四、模型详解
以NER模型为例:
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-cluener2020-chinese")
model = AutoModelForTokenClassification.from_pretrained("uer/roberta-base-finetuned-cluener2020-chinese")
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)
ner_pipeline("马云是阿里巴巴的创始人,他住在中国杭州。")
这两行代码的作用是:
- 加载与模型匹配的分词器(tokenizer)
- 加载预训练的模型
五、模型文件格式
- tf_model.h5:TensorFlow框架的模型文件,保存了模型结构和权重
- flax_model.msgpack:Flax框架的模型文件,保存了模型参数
六、模型保存为.pt格式
可以使用PyTorch保存模型:
import torch
# 保存整个模型
torch.save(model, "./model.pt")
# 保存模型权重
torch.save(model.state_dict(), "model.pt")
七、模型结构
以RobertaForTokenClassification为例:
RobertaForTokenClassification(
(roberta): RobertaModel(
(embeddings): RobertaEmbeddings(
...
)
(encoder): RobertaEncoder(
...
)
(pooler): RobertaPooler(
...
)
)
(classifier): Linear(in_features=768, out_features=11, bias=True)
)
这个模型包括词嵌入层、编码器层和分类头,用于命名实体识别任务。
热门推荐
慢性泪腺炎的症状和表现
麻醉科医生在工作中的定义是什么?
空亡查询表 空亡在四柱中以哪一种柱为准
媒体聚焦 | 《人民法院报》:整合基层资源 完善多元解纷
人均预期寿命已经达到78.6岁,60岁退休活到80岁的概率有多大?
破解「男人至死是少年」的秘密
如何给团队起名字 搞笑
偏关的地理位置十分重要,为什么知名度那么低?
PCWP在医学里是什么意思
领导逼你主动离职,怎么办?
室友常言‘你配吗’,我该如何机智回击
数值分析——牛顿插值多项式
Rush药物副作用全解析:从短期不适到长期危害
卧室龙龟摆件的摆放
如何摆脱过度的执念
婚前双方出资买房,房屋产权登记在一方名下怎样分割
电子看板打造工厂数字化管理让生产一目了然
古人是怎样给汉字注音的?汉语拼音是怎样诞生的?
高血压患者慎用参苓白术丸:五类人群不宜服用
厂网河一体化推进,还面临资金短缺、协调机制亟待完善等挑战
《原神》各伤害类型机制介绍 了解元素反应与伤害加成的奥秘
提振消费:从短期大宗到长期大众,消费金融如何助力?
一级高血压能喝中药调理吗
射灯光束角怎么选,打造居家舒适光影
解读君问归期未有期,诗意背后的离别与无奈
左下腹跳是怎么回事
房企转型“轻资产化”趋势明显,绿地集团布局新能源汽车出口赛道,目标三年销售百亿元
铝锅有哪些危害
体检顺序如何安排能最快完成的工作
春日养生秘籍:姜枣茶助阳气生发,暖胃又补血