poutyne-transformers

Train 🤗 -transformers models with Poutyne.

Installation

pip install poutyne-transformers

Example

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from datasets import load_dataset
from torch.utils.data import DataLoader
from torch import optim
from poutyne import Model
from poutyne_transformers import TransformerCollator, model_loss, ModelWrapper

print('Loading model & tokenizer.')
transformer = AutoModelForSequenceClassification.from_pretrained('distilbert-base-cased', num_labels=2, return_dict=True)
tokenizer = AutoTokenizer.from_pretrained('distilbert-base-cased')

print('Loading & preparing dataset.')
dataset = load_dataset("imdb")
dataset = dataset.map(lambda entry: tokenizer(entry['text'], add_special_tokens=True, padding='max_length', truncation=True), batched=True)
dataset = dataset.remove_columns(['text'])
dataset.set_format('torch')

collate_fn = TransformerCollator()
train_dataloader = DataLoader(dataset['train'], batch_size=16, collate_fn=collate_fn)
test_dataloader = DataLoader(dataset['test'], batch_size=16, collate_fn=collate_fn)

print('Preparing training.')
wrapped_transformer = ModelWrapper(transformer)
optimizer = optim.AdamW(wrapped_transformer.parameters(), lr=5e-5)
device = torch.device('cuda:0' if torch.cuda.is_available() else "cpu")
model = Model(wrapped_transformer, optimizer, loss_function=model_loss, device=device)

print('Starting training.')
model.fit_generator(train_dataloader, test_dataloader, epochs=1)

Train 🤗-transformers model with Poutyne.

Related tags

Overview

poutyne-transformers

Installation

Example

Owner

Lennart Keller

NLP applications using deep learning.

Silero Models: pre-trained speech-to-text, text-to-speech models and benchmarks made embarrassingly simple

Code for the paper: Sequence-to-Sequence Learning with Latent Neural Grammars

text to speech toolkit. 好用的中文语音合成工具箱，包含语音编码器、语音合成器、声码器和可视化模块。

Python library for interactive topic model visualization. Port of the R LDAvis package.

NLP - Machine learning

An Analysis Toolkit for Natural Language Generation (Translation, Captioning, Summarization, etc.)

Data preprocessing rosetta parser for python

Common Voice Dataset explorer

基于“Seq2Seq+前缀树”的知识图谱问答

Natural Language Processing

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets

Named Entity Recognition API used by TEI Publisher

Bidirectional LSTM-CRF and ELMo for Named-Entity Recognition, Part-of-Speech Tagging and so on.

Pretrained Japanese BERT models

[ICCV 2021] Instance-level Image Retrieval using Reranking Transformers

PUA Programming Language written in Python.

Conditional probing: measuring usable information beyond a baseline

PyTorch Implementation of VAENAR-TTS: Variational Auto-Encoder based Non-AutoRegressive Text-to-Speech Synthesis.

Library for fast text representation and classification.