Hugging Face Transformers:深度学习利器,NLP研究新宠
2023.09.26 05:40浏览量:3简介:Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍
Huggingface Transformers 是一个为了处理自然语言处理(NLP)任务而构建的开源库,它提供了在 PyTorch 和 TensorFlow 两个框架下的深度学习模型。这些模型包括预训练的 Transformer 模型,可以用于各种 NLP 任务,如文本分类、情感分析、摘要生成等。本文将重点介绍 Huggingface Transformers 的镜像使用、本地使用,以及 tokenizer 参数。
一、Huggingface Transformers 镜像使用
镜像使用是一种快速获取和运行 Huggingface Transformers 的方式。镜像使用不需要进行繁琐的安装和配置,只需要有一个支持 Docker 的环境即可。
首先,你需要从 Docker Hub 获取 Huggingface Transformers 的镜像。你可以使用以下命令来拉取镜像:
docker pull huggingface/transformers
然后,你可以使用以下命令来启动一个容器,并在其中运行 Huggingface Transformers:
docker run -it huggingface/transformers jupyter notebook --no-password --allow-root --py=3 --notebook-dir=/transformers_notebooks --ip=0.0.0.0 --port=8889
这个命令将启动一个 Jupyter notebook,你就可以在这个 notebook 中使用 Huggingface Transformers 了。
二、Huggingface Transformers 本地使用
如果你想要在本地环境中使用 Huggingface Transformers,你需要首先安装它。你可以使用以下命令来安装 Huggingface Transformers:
pip install transformers
安装完成后,你就可以在 Python 程序中导入并使用 Huggingface Transformers 了。例如,你可以使用以下代码来加载一个预训练的 BERT 模型:
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
三、Tokenizer 参数介绍
Tokenizer 是 Huggingface Transformers 中的重要组件,它负责将文本转化为模型可以理解的格式。当加载一个预训练模型时,通常需要先加载对应的 tokenizer。这里我们重点介绍几个常用的 tokenizer 参数。
from_pretrained
:这个参数用于从 Huggingface Transformers 预训练模型库中加载预训练的 tokenizer。例如,BertTokenizer.from_pretrained('bert-base-uncased')
就是加载一个基础的英文 BERT 模型。input_ids
:这个参数用于向模型传递输入。在大多数情况下,你会将文本通过 tokenizer 转化为一串数字,然后将这些数字作为输入传递给模型。例如,tokenizer.encode('Hello world')
就会将 ‘Hello world’ 转化为一个数字序列。padding
、truncation
和max_length
:这些参数用于控制输入的长度。padding
会将输入长度扩展到指定长度,truncation
会将输入长度截断到指定长度,max_length
则会限制输入的最大长度。add_special_tokens
:这个参数用于向输入中添加特殊的 token。这些特殊的 token 通常用于表示一段文本的开始和结束,或者表示一个序列中的分隔符。

发表评论
登录后可评论,请前往 登录 或 注册