当前位置:网站首页>抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
2022-08-09 14:56:00 【wwlsm_zql】
使用 Tokenizers 的 tokenizers
PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。
在详细讨论之前,让我们先用几行代码创建一个虚拟的tokenizer:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)
我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它,或者将它保存到 JSON 文件中以便将来重用。
直接从 tokenizer 对象加载
让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数,PreTrainedTokenizerFast 类允许简单的实例化:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
从 JSON 文件加载
为了从 JSON 文件中加载 tokenizer,让我们首先保存 tokenizer:
tokenizer.save("tokenizer.json")
我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
本文是抱抱脸(Hugging Face)教程中文翻译,仅学习使用
边栏推荐
猜你喜欢
随机推荐
欢迎使用CSDN-markdown编辑器
量子力学初步
PAT1027 打印沙漏
关于亚马逊的坑你知道几个?
防关联浏览器对亚马逊测评有多重要?
js总结,基础篇
strlen(), strcpy(), strncpy(), strcat(), strncat(), strcmp(), strncmp()函数的封装
正则化原理的简单分析(L1/L2正则化)
ASP.Net Core实战——使用Swagger
Example of file operations - downloading and merging streaming video files
Several important functional operations of general two-way circular list
(精中求精) rem适配布局
Different compilers, different modes, impact on results
.Net Core动态注入
ASP.Net Core实战——身份认证(JWT鉴权)
通用的双向循环列表的几个比较重要的函数操作
内存泄露检测工具VLD(Visual Leak Detector)使用说明
bin document read and write
记一次解决Mysql:Incorrect string value: ‘\xF0\x9F\x8D\x83\xF0\x9F...‘ for column 插入emoji表情报错问题
YOLOV2详解









