当前位置:网站首页>抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
2022-08-09 14:56:00 【wwlsm_zql】
使用 Tokenizers 的 tokenizers
PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。
在详细讨论之前,让我们先用几行代码创建一个虚拟的tokenizer:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)
我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它,或者将它保存到 JSON 文件中以便将来重用。
直接从 tokenizer 对象加载
让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数,PreTrainedTokenizerFast 类允许简单的实例化:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
从 JSON 文件加载
为了从 JSON 文件中加载 tokenizer,让我们首先保存 tokenizer:
tokenizer.save("tokenizer.json")
我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
本文是抱抱脸(Hugging Face)教程中文翻译,仅学习使用
边栏推荐
猜你喜欢
随机推荐
Arduino 飞鼠 空中鼠标 陀螺仪体感鼠标
对导入的 excel 的时间的处理 将excel表中的时间,转成 标准的时间
模型训练的auc和loss比较问题
Common compilation problems
YOLOV2详解
NoUniqueBeanDefinitionException和JSON乱码处理出现异常
【小白必看】初始C语言(上)
二叉排序树的左旋与右旋
encapsulation of strlen(), strcpy(), strncpy(), strcat(), strncat(), strcmp(), strncmp() functions
跨平台桌面应用 Electron 尝试(VS2019)
微信小程序tabs
It is deeply recognized that the compiler can cause differences in the compilation results
(12)Cookie和Session
stream去重相同属性对象
记一次解决Mysql:Incorrect string value: ‘\xF0\x9F\x8D\x83\xF0\x9F...‘ for column 插入emoji表情报错问题
排序方法(希尔、快速、堆)
OpenCV简介与搭建使用环境
pytorch从零搭建神经网络实现多分类(训练自己的数据集)
Retrofit2 初印象?
仪表盘









