Hugging Face Transformers:深度学习利器,NLP研究新宠

作者:快去debug2023.09.26 05:40浏览量:3

简介:Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

Huggingface Transformers:镜像使用、本地使用与tokenizer参数介绍
Huggingface Transformers 是一个为了处理自然语言处理(NLP)任务而构建的开源库,它提供了在 PyTorchTensorFlow 两个框架下的深度学习模型。这些模型包括预训练的 Transformer 模型,可以用于各种 NLP 任务,如文本分类、情感分析、摘要生成等。本文将重点介绍 Huggingface Transformers 的镜像使用、本地使用,以及 tokenizer 参数。
一、Huggingface Transformers 镜像使用
镜像使用是一种快速获取和运行 Huggingface Transformers 的方式。镜像使用不需要进行繁琐的安装和配置,只需要有一个支持 Docker 的环境即可。
首先,你需要从 Docker Hub 获取 Huggingface Transformers 的镜像。你可以使用以下命令来拉取镜像:

  1. docker pull huggingface/transformers

然后,你可以使用以下命令来启动一个容器,并在其中运行 Huggingface Transformers:

  1. docker run -it huggingface/transformers jupyter notebook --no-password --allow-root --py=3 --notebook-dir=/transformers_notebooks --ip=0.0.0.0 --port=8889

这个命令将启动一个 Jupyter notebook,你就可以在这个 notebook 中使用 Huggingface Transformers 了。
二、Huggingface Transformers 本地使用
如果你想要在本地环境中使用 Huggingface Transformers,你需要首先安装它。你可以使用以下命令来安装 Huggingface Transformers:

  1. pip install transformers

安装完成后,你就可以在 Python 程序中导入并使用 Huggingface Transformers 了。例如,你可以使用以下代码来加载一个预训练的 BERT 模型:

  1. from transformers import BertTokenizer, BertModel
  2. tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
  3. model = BertModel.from_pretrained('bert-base-uncased')

三、Tokenizer 参数介绍
Tokenizer 是 Huggingface Transformers 中的重要组件,它负责将文本转化为模型可以理解的格式。当加载一个预训练模型时,通常需要先加载对应的 tokenizer。这里我们重点介绍几个常用的 tokenizer 参数。

  1. from_pretrained:这个参数用于从 Huggingface Transformers 预训练模型库中加载预训练的 tokenizer。例如,BertTokenizer.from_pretrained('bert-base-uncased') 就是加载一个基础的英文 BERT 模型。
  2. input_ids:这个参数用于向模型传递输入。在大多数情况下,你会将文本通过 tokenizer 转化为一串数字,然后将这些数字作为输入传递给模型。例如,tokenizer.encode('Hello world') 就会将 ‘Hello world’ 转化为一个数字序列。
  3. paddingtruncationmax_length:这些参数用于控制输入的长度。padding 会将输入长度扩展到指定长度,truncation 会将输入长度截断到指定长度,max_length 则会限制输入的最大长度。
  4. add_special_tokens:这个参数用于向输入中添加特殊的 token。这些特殊的 token 通常用于表示一段文本的开始和结束,或者表示一个序列中的分隔符。
article bottom image

相关文章推荐

发表评论