Hugging Face Transformers：理解和应用

作者：热心市民鹿先生2023.09.26 13:35浏览量：17

简介：让huggingface/transformers的AutoConfig从本地读

让huggingface/transformers的AutoConfig从本地读
在现代自然语言处理（NLP）和深度学习领域，huggingface/transformers是一个非常重要的工具库。它为我们提供了许多预训练的模型和相关的模型配置信息，这些配置信息通常存放在Hugging Face的在线仓库中。然而，有时候，我们可能希望让AutoConfig从本地读取模型配置，而非从远程仓库中获取。
在此，我们需要明确一个概念：huggingface/transformers的AutoConfig不是一个单独的模块或文件，而是通过使用配置文件来引导模型和 tokenizer 的创建。当我们在训练或评估模型时，并不需要显式地创建一个AutoConfig，因为transformers库会自动地根据给定的模型名称去查找相应的配置文件。
要让AutoConfig从本地读，首先需要将本地模型配置文件复制到你的工作目录下，或者指定一个准确的本地路径来存储这个配置文件。当你加载模型时，可以设置local_files_only=True参数来只读取本地文件。例如：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased", local_files_only=True)
model = AutoModel.from_pretrained("bert-base-uncased", local_files_only=True)

在上述代码中，我们通过设置local_files_only=True参数，使tokenizer和model从本地读取预训练配置文件。
然而，有时候模型配置文件可能很大，直接复制到本地可能会消耗大量的存储空间。在这种情况下，我们可以使用CacheDir来指定一个缓存目录，transformers库会在该目录下缓存已经下载的配置文件。这样，即使在没有本地配置文件的情况下，也可以从缓存中读取。例如：

from transformers import AutoTokenizer, AutoModel, CacheDir
import os
# 设置缓存目录
cache_dir = "./transformer_cache"
os.makedirs(cache_dir, exist_ok=True)
# 使用CacheDir来指定缓存目录
with CacheDir(cache_dir):
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

在上述代码中，我们首先创建了一个缓存目录./transformer_cache，然后使用CacheDir上下文管理器来指定这个缓存目录。在CacheDir上下文中，我们加载模型和tokenizer，它们会尝试从缓存中读取配置文件。如果缓存中没有相应的配置文件，它们会自动下载并在缓存中保存。这样，即使在没有本地配置文件的情况下，也可以避免每次都去下载配置文件，提高了加载模型的效率。
总的来说，要让huggingface/transformers的AutoConfig从本地读，可以通过设置local_files_only=True或者使用CacheDir来指定缓存目录来实现。这样可以在不消耗过多存储空间的情况下，提高加载模型的效率。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

Hugging Face Transformers：理解和应用

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者