Hugging Face Transformers：自定义词表驱动的自然语言处理

作者：公子世无双2023.10.07 16:31浏览量：9

简介：让huggingface/transformers的AutoTokenizer从本地读词表——探索自然语言处理与深度学习的交汇点

让huggingface/transformers的AutoTokenizer从本地读词表——探索自然语言处理与深度学习的交汇点
在自然语言处理（NLP）领域，预训练模型如huggingface的transformers库中的AutoTokenizer已经成为研究热点。这个库为我们提供了一个强大的工具，能够自动化地处理和转换文本数据，使其适应深度学习模型。其中，AutoTokenizer的本地词表（vocabulary）是关键的一部分，因为它定义了模型可以理解的基本单元——词汇。
本文将重点探讨如何让huggingface/transformers的AutoTokenizer从本地读词表，包括下载和加载自定义词表，以及如何使用这个自定义词表进行模型的训练和预测。
首先，让我们来理解一下何为词表。词表是一个包含所有可能的词汇及其对应索引的字典。在处理文本数据时，我们通常会根据特定的任务或领域创建自定义的词表。这个过程就是所谓的“词汇表征”，它可以将人类语言中的词汇转化为模型可以理解的形式。
使用huggingface/transformers库的AutoTokenizer，我们可以非常方便地创建和加载自定义词表。以下是一个简单的例子：

from transformers import AutoTokenizer
# 加载预训练的tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
# 自定义词汇表
vocab_file = "path_to_your_custom_vocab_file.json"
tokenizer.init_kwargs["do_lower_case"] = False  # 可选，转为大写以便之后保存为fastfile后可加载wordpiece与word association两文件
tokenizer.save_pretrained(vocab_file)  # 保存为 vocab.pt 与 encode_bias.npy

在这个例子中，我们首先从预训练模型”bert-base-uncased”加载了tokenizer。然后，我们定义了一个词汇表的路径（vocab_file），并使用tokenizer.save_pretrained方法将我们的词汇表保存到该路径。注意，”do_lower_case”参数是可选的，这里设置为False以防止模型将所有的文本转为小写。
加载自定义词表并使用它进行模型的训练和预测也非常简单。以下是一个例子：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
# 加载自定义tokenizer
tokenizer = AutoTokenizer.from_pretrained(vocab_file)
# 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", from_pt=True)
# 使用自定义tokenizer和模型进行文本处理和预测
text = "Hello, world!"
encoded_text = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
outputs = model(**encoded_text)
predictions = outputs.logits > 0  # 根据模型类型调整阈值以获取预测结果

在这个例子中，我们首先从自定义词表文件（vocab_file）加载了tokenizer，然后加载了一个预训练的模型。然后，我们使用tokenizer对文本进行编码，并将编码后的文本传入模型进行预测。
总的来说，让huggingface/transformers的AutoTokenizer从本地读词表是一个非常强大的功能，它允许我们根据特定的任务或领域定制预训练模型的输入和输出。这将大大提高模型在特定任务上的性能，并为NLP研究和开发提供更广阔的可能性。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Hugging Face Transformers：自定义词表驱动的自然语言处理

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者