Hugging Face Transformers：深度学习利器，自然语言处理新篇章

作者：Nicky2023.10.09 10:49浏览量：6

简介：Huggingface Transformers：镜像使用、本地使用与tokenizer参数介绍

Huggingface Transformers：镜像使用、本地使用与tokenizer参数介绍
Huggingface Transformers 是一个为了处理自然语言处理（NLP）任务而开发的开源库，它提供了在 PyTorch 和 TensorFlow 两个框架下的深度学习模型。其包含许多预训练的模型，可以用于各种 NLP 任务，如文本分类、情感分析、语言生成等。下面，我们将重点介绍 Huggingface Transformers 的镜像使用、本地使用，以及 tokenizer 参数。
一、Huggingface Transformers 镜像使用
镜像使用是一种在 Docker 中部署和运行软件的方式。Huggingface 提供了一些预制的 Docker 镜像，包含了所有你需要运行 Transformers 的环境，你只需要下载并运行这些镜像即可。
例如，要在本地运行一个 Huggingface Transformers 的 Docker 镜像，可以使用以下命令：

docker run --gpus all -it -e NVIDIA_VISIBLE_DEVICES=all transformers/huggingface:latest python3

这个命令会下载最新版本的 Huggingface Transformers Docker 镜像，并在本地的 NVIDIA GPU 上运行它。
二、Huggingface Transformers 本地使用
如果你更喜欢在本地直接安装 Huggingface Transformers，可以使用 pip 或 conda 进行安装。以下是 pip 和 conda 的安装命令：
使用 pip 安装：

pip install transformers

使用 conda 安装：

conda install -c conda-forge transformers

安装完成后，你就可以在 Python 中直接导入并使用 Transformers 了。例如：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')  # 加载预训练的的分词器和模型
model = AutoModel.from_pretrained('bert-base-chinese')  # 加载预训练的模型

三、Tokenizer 参数介绍
在 Huggingface Transformers 中，tokenizer 是用来将文本转化为模型能理解的形式（即 token），以及将 token 转化回文本的工具。它有很多可调用的参数，以下是一些主要的参数：

from_pretrained(pretrained_model_name_or_path)：此方法可以加载预训练的分词器和模型。pretrained_model_name_or_path 可以是一个分词器的名字或路径，指向一个特定的预训练模型。如果只提供了一个名字，那么会默认加载同名分词器和模型。如果提供了一个路径，那么会加载该路径下的分词器和模型。
input_ids：一个整数数组，表示输入文本的 token ID。这个参数只在将文本输入模型时使用。
attention_mask：一个二进制数组，与 input_ids 同长，表示哪些 token 是有效的，哪些是无效的。无效的 token 会被模型忽视。这个参数通常用于处理掩码语言任务。
token_type_ids：一个整数数组，与 input_ids 同长，表示每个 token 的类型。这个参数通常用于处理多任务学习任务。
cls：一个特殊的 token，通常位于序列的开头，表示序列的开始。这个 token 可以用于各种任务，如文本分类、语言模型等。
sep：另一个特殊的 token，通常位于序列的结尾，表示序列的结束。这个 token 也可以用于各种任务。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

Hugging Face Transformers：深度学习利器，自然语言处理新篇章

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者