Hugging Face Transformers:深度学习利器,自然语言处理新篇章
2023.10.09 02:49浏览量:4简介:Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍
Huggingface Transformers 是一个为了处理自然语言处理(NLP)任务而开发的开源库,它提供了在 PyTorch 和 TensorFlow 两个框架下的深度学习模型。其包含许多预训练的模型,可以用于各种 NLP 任务,如文本分类、情感分析、语言生成等。下面,我们将重点介绍 Huggingface Transformers 的镜像使用、本地使用,以及 tokenizer 参数。
一、Huggingface Transformers 镜像使用
镜像使用是一种在 Docker 中部署和运行软件的方式。Huggingface 提供了一些预制的 Docker 镜像,包含了所有你需要运行 Transformers 的环境,你只需要下载并运行这些镜像即可。
例如,要在本地运行一个 Huggingface Transformers 的 Docker 镜像,可以使用以下命令:
docker run --gpus all -it -e NVIDIA_VISIBLE_DEVICES=all transformers/huggingface:latest python3
这个命令会下载最新版本的 Huggingface Transformers Docker 镜像,并在本地的 NVIDIA GPU 上运行它。
二、Huggingface Transformers 本地使用
如果你更喜欢在本地直接安装 Huggingface Transformers,可以使用 pip 或 conda 进行安装。以下是 pip 和 conda 的安装命令:
使用 pip 安装:
pip install transformers
使用 conda 安装:
conda install -c conda-forge transformers
安装完成后,你就可以在 Python 中直接导入并使用 Transformers 了。例如:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese') # 加载预训练的的分词器和模型
model = AutoModel.from_pretrained('bert-base-chinese') # 加载预训练的模型
三、Tokenizer 参数介绍
在 Huggingface Transformers 中,tokenizer 是用来将文本转化为模型能理解的形式(即 token),以及将 token 转化回文本的工具。它有很多可调用的参数,以下是一些主要的参数:
from_pretrained(pretrained_model_name_or_path)
:此方法可以加载预训练的分词器和模型。pretrained_model_name_or_path
可以是一个分词器的名字或路径,指向一个特定的预训练模型。如果只提供了一个名字,那么会默认加载同名分词器和模型。如果提供了一个路径,那么会加载该路径下的分词器和模型。input_ids
:一个整数数组,表示输入文本的 token ID。这个参数只在将文本输入模型时使用。attention_mask
:一个二进制数组,与input_ids
同长,表示哪些 token 是有效的,哪些是无效的。无效的 token 会被模型忽视。这个参数通常用于处理掩码语言任务。token_type_ids
:一个整数数组,与input_ids
同长,表示每个 token 的类型。这个参数通常用于处理多任务学习任务。cls
:一个特殊的 token,通常位于序列的开头,表示序列的开始。这个 token 可以用于各种任务,如文本分类、语言模型等。sep
:另一个特殊的 token,通常位于序列的结尾,表示序列的结束。这个 token 也可以用于各种任务。

发表评论
登录后可评论,请前往 登录 或 注册