초성 해석기 based on ko-BART

Last update: Oct 28, 2022

Related tags

Overview

초성 해석기

개요

한국어 초성만으로 이루어진 문장을 입력하면, 완성된 문장을 예측하는 초성 해석기입니다.

초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ
예측 문장: 나는 너를 좋아해

모델

모델은 SKT-AI에서 공개한 Ko-BART를 이용합니다.

데이터

문장 단위로 이루어진 아무 코퍼스나 사용가능합니다. 단, 모델의 추론 성능은 데이터의 도메인이나 데이터의 양에 크게 의존하기 때문에 원하는 모델 성능에 맞는 코퍼스를 사용해주세요. ./data 디렉토리에 더미 데이터셋을 추가해두었으니, 더미 데이터셋과 동일한 형식의 코퍼스를 준비해두시면 됩니다.

학습

python run_train.py

추론

python run_inference.py --finetuned-model-path $FINETUNED_MODEL_PATH

예시

공개된 코퍼스로 학습한 모델의 추론 결과입니다.

초성: ㅂㄱㅍㄷ 	 예측 문장: 배고픈데
초성: ㅂㄱㅍㄷ 	 예측 문장: 배고프다
초성: ㅂㄱㅍㄷ 	 예측 문장: 배고프대

초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 너무너무 사랑해요
초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 너무너무 사랑했어
초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 나만너무 사랑해요

초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 나는 너를 좋아해
초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 누나 나랑 좋아해
초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 너는 나를 좋아해

Notes

본 레포는 별도의 학습 데이터를 포함하고 있지 않습니다.
본 레포의 라이센스는 Ko-BART의 modified-MIT 라이센스를 따릅니다.

Todo

테스트 코드 추가

초성 해석기 based on ko-BART

Related tags

Overview

초성 해석기

개요

모델

데이터

학습

추론

예시

Notes

Todo

Owner

Dawoon Jung

nlp基础任务

Part of Speech Tagging using Hidden Markov Model (HMM) POS Tagger and Brill Tagger

A framework for training and evaluating AI models on a variety of openly available dialogue datasets.

PyTorch impelementations of BERT-based Spelling Error Correction Models.

This repository describes our reproducible framework for assessing self-supervised representation learning from speech

DANeS is an open-source E-newspaper dataset by collaboration between DATASET JSC (dataset.vn) and AIV Group (aivgroup.vn)

Share constant definitions between programming languages and make your constants constant again

🤗Transformers: State-of-the-art Natural Language Processing for Pytorch and TensorFlow 2.0.

Unofficial implementation of Google's FNet: Mixing Tokens with Fourier Transforms

Code for CodeT5: a new code-aware pre-trained encoder-decoder model.

Simple Annotated implementation of GPT-NeoX in PyTorch

p-tuning for few-shot NLU task

Translation to python of Chris Sims' optimization function

Mlcode - Continuous ML API Integrations

nlp-tutorial is a tutorial for who is studying NLP(Natural Language Processing) using Pytorch

This is a project of data parallel that running on NLP tasks.

Natural Language Processing at EDHEC, 2022

Practical Natural Language Processing Tools for Humans is build on the top of Senna Natural Language Processing (NLP)

Script to download some free japanese lessons in portuguse from NHK

Speech Recognition for Uyghur using Speech transformer