Une minute
Convertir les données catégorielles en integer pour sklearn
Pré-requis
pip install pandas sklearn
# va installer pandas 1.1.0 et sklearn 0.0
Charger les librairies
from sklearn import preprocessing
import pandas as pd
Création d’un faux dataset
raw_data = {
'patient': [1, 1, 1, 2, 2],
'observation': [1, 2, 3, 1, 2],
'traitement': [0, 1, 0, 1, 0],
'etat': ['vivant', 'mort', 'zombie', 'vivant', 'mort']
}
df = pd.DataFrame(raw_data, columns = ['patient', 'observation', 'traitement', 'etat'])
Fit the Label Encoder
# Créer un objet label (catégorie) encoder
le = preprocessing.LabelEncoder()
# Remplir l'encoder avec la colonne pandas
le.fit(df['state'])
Voir les labels (debug)
list(le.classes_)
Transformer les catégories en integers
# Appliquer l'objet encoder rempli à la colonne Pandas
le.transform(df['state'])
Inverse: Transformer les integers en catégories:
list(le.inverse_transform([2, 2, 1]))