Last update of this page: May 2019

Notebooks et tips

Here is a list of useful notebooks to handle different use cases:

  1. Gérer les gros datasets qui ne passent pas en mémoire
  2. Modèle complexe ou modèle simple ?
  3. Chemin le plus court
  4. Exemple d’analyse de données sur dataset déséquilibré et rapport d’analyse associé - Crédit: Erdi Olmezogullari
  5. Régression linéaire avec Tensorflow
  6. Classification avec Tensorflow
  7. Underfitting and overfitting

Spark recommandation engine example:

  1. Recommandation part 1
  2. Recommandation part 2
  3. Statistics mllib

Compétitions Kaggle et kernels associés

Here is a list of notebooks I studied and find interesting coming from Kaggle and having a MIT licence. I keep them here as inspirational sources or knowledge base.

Kaggle Winning solutions

  1. Kaggle winning solutions

  2. Kaggle winning solutions 2ème option

  3. Kaggle winning solutions 3ème option

Kernels sur le sujet “titanic”

  1. Good data exploration
  2. Framework to achieve 99% accuracy
  3. End to end Machine Learning pipeline
  4. Exploratory data analysis and feature extraction

Kernels sur le sujet “iris”

Kernels autour du customer churn

Kernels autour du jeu populaire battle royale

Kernels autour Google Analytics Customer Revenue Prediction

Kernels autour des sales forecast

Kernels sur le sujet “Porto Seguro’s Safe Driver Prediction”

Recruit Restaurant Visitor Forecasting.

Sujets autour du sujet “House Pricing”

  1. Full Workflow
  2. regularized linear models
  3. Stacked Regressions

Sujets autour de la compétition “home-credit-default-risk”

URL: https://www.kaggle.com/c/home-credit-default-risk

To understand the data feel free to access the “Data” chapter in this notebook of this notebook:

Read-only Kernels:

  1. Basic end-to-end training of a LightGBM model

  2. Très bonnes explications sur la métrique ROC AUC et quelle métrique utiliser pour mesurer la performance d’un modèle lorsque des classes ne sont pas équilibrées ? Traite du One Hot Encoding et du problème pour les features ayant trop de catégories (réduction de dimension). Explication sur le feature engineering et en particulier la construction de nouvelles features avec les méthodes Polynomial Features et Domain Knowledge Features. Home Credit Default Risk Competition - Full process - Part 1

  3. On continue à améliorer le modèle de la compétition home-credit-default-risk en créant de nouvelles features. On analyse si elles ont un impact sur la performance du modèle avec le coefficient de Pearson ou la Kernel Density Exploration (KDE). Home Credit Default Risk Competition - Full process - Part 2

  4. (WIP) On continue encore à améliorer le modèle de la compétition home-credit-default-risk en utilisant toutes les données à disposition. Home Credit Default Risk Competition - Full process - Part 3

LUNA16 competition

NYC taxi trip duration

Kernal autour du sujet Pokemon-Weedle’s Cave

Other kernels

  1. Comprehensive data exploration

  2. Handling missing values

  3. Fraud detection in Insurance