Convertir les données catégorielles en integer pour sklearn

Pré-requis

pip install pandas sklearn
# va installer pandas 1.1.0 et sklearn 0.0

Charger les librairies

from sklearn import preprocessing
import pandas as pd

Création d’un faux dataset

raw_data = {
   'patient': [1, 1, 1, 2, 2],
   'observation': [1, 2, 3, 1, 2],
   'traitement': [0, 1, 0, 1, 0],
   'etat': ['vivant', 'mort', 'zombie', 'vivant', 'mort']
}

df = pd.DataFrame(raw_data, columns = ['patient', 'observation', 'traitement', 'etat'])

Fit the Label Encoder

# Créer un objet label (catégorie) encoder
le = preprocessing.LabelEncoder()

# Remplir l'encoder avec la colonne pandas
le.fit(df['state'])

Voir les labels (debug)

list(le.classes_)

Transformer les catégories en integers

# Appliquer l'objet encoder rempli à la colonne Pandas
le.transform(df['state'])

Inverse: Transformer les integers en catégories:
list(le.inverse_transform([2, 2, 1]))