Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Last update: Feb 18, 2022

Overview

"Kötü söz sahibine aittir."

-Anonim

Nedir?

sinkaf uygunsuz yorumların bulunmasını sağlayan bir python kütüphanesidir.

Farkı nedir?

Diğer algoritmalardan en büyük farkı, önceden belirlenmiş bir kelime listesinden cümlerlerdeki sözcükleri tek tek kontrol etmek yerine, makine öğrenmesi metodları kullanarak cümlenin genel anlamına bakabilmesidir. Aynı zamanda sinkaf baya bi hızlı!

Nasıl çalışıyor?

Arka planda modelimizi eğitmek için A corpus of Turkish offensive language verisetini kullanıyoruz. Bu veriseti 36,000+ twitter yorumunun hakaret içerip içermediğini gösteren, Türkçe ile makine öğrenmesi denemeleri yapmak isteyenler için fevkaledenin fevkinde bir kaynak! Kendilerine teşekkür ediyoruz. Velhasıl...

Nasıl yüklerim?

pip3 install sinkaf

Gerekli paketler

joblib
transformers
numpy
scikit_learn

Nasıl kullanırım?

from sinkaf import Sinkaf
  
snf = Sinkaf()

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.09811712, 0.86237484])

Alternatif model

BERT kullanılarak vektörize edilmiş veri üzerinde eğitilmiş modeller:

bert_pre: Küfürlü cümlelerin saptanmasında düşük duyarlılık yüksek kesinlik
bert_rec: Küfürlü cümlelerin saptanmasında yüksek duyarlılık az kesinlik

snf = Sinkaf(model = "bert_pre")

snf.tahmin(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([False,  True])

snf.tahminlik(["çok tatlı çocuk", "çok şerefsiz çocuk"])
# array([0.26865139 0.85412345])

İyi çalışıyor mu?

Fena değil gibi ama tabi daha iyi kesinlikle olabilir.

Detaylar için:

sinkaf, Açık Hack 2021^*'e katılmak amacıyla Kara Göz ekibi tarafından geliştirilmiştir.

^{* sunum linki}

Türkçe küfürlü içerikleri bulan bir yapay zeka kütüphanesi / An ML library for profanity detection in Turkish sentences

Related tags

Overview

Nedir?

Farkı nedir?

Nasıl çalışıyor?

Nasıl yüklerim?

Gerekli paketler

Nasıl kullanırım?

Alternatif model

İyi çalışıyor mu?

Owner

KaraGoz

Final Project for the Intel AI Readiness Boot Camp NLP (Jan)

Control the classic General Instrument SP0256-AL2 speech chip and AY-3-8910 sound generator with a Raspberry Pi and this Python library.

Persian Bert For Long-Range Sequences

Kinky furry assitant based on GPT2

Code to use Augmented Shapiro Wilks Stopping, as well as code for the paper "Statistically Signifigant Stopping of Neural Network Training"

Snowball compiler and stemming algorithms

Reading Wikipedia to Answer Open-Domain Questions

Задания КЕГЭ по информатике 2021 на Python

Pytorch-version BERT-flow: One can apply BERT-flow to any PLM within Pytorch framework.

HuggingSound: A toolkit for speech-related tasks based on HuggingFace's tools

Stuff related to Ben Eater's 8bit breadboard computer

Non-Autoregressive Predictive Coding

Trained T5 and T5-large model for creating keywords from text

A Multilingual Latent Dirichlet Allocation (LDA) Pipeline with Stop Words Removal, n-gram features, and Inverse Stemming, in Python.

Code repository of the paper Neural circuit policies enabling auditable autonomy published in Nature Machine Intelligence

A modular framework for vision & language multimodal research from Facebook AI Research (FAIR)

This project uses unsupervised machine learning to identify correlations between daily inoculation rates in the USA and twitter sentiment in regards to COVID-19.

Gathers machine learning and Tensorflow deep learning models for NLP problems, 1.13 < Tensorflow < 2.0

Input english text, then translate it between languages n times using the Deep Translator Python Library.

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation