Notebooks et tips

Here is a list of useful notebooks to handle different use cases:

  1. Gérer les gros datasets qui ne passent en mémoire
  2. Modèle complexe ou modèle simple ?
  3. Chemin le plus court
  4. Exemple d’analyse de données sur dataset déséquilibré et rapport d’analyse associé - Crédit: Erdi Olmezogullari
  5. Régression linéaire avec Tensorflow
  6. Classification avec Tensorflow
  7. Underfitting and overfitting

Spark recommandation engine example:

  1. Recommandation part 1
  2. Recommandation part 2
  3. Statistics mllib

Compétitions Kaggle et kernels associés

Here is a list of notebooks I studied and find interesting coming from Kaggle and having a MIT licence. I keep them here as inspirational sources or knowledge base.

Kaggle Winning solutions

  1. Kaggle winning solutions

Kernels sur le sujet “titanic”

  1. Good data exploration
  2. Framework to achieve 99% accuracy
  3. End to end Machine Learning pipeline
  4. Exploratory data analysis and feature extraction

Kernels sur le sujet “iris”

  1. Full analysis

Kernels autour du customer churn

  1. Full analysis

Kernels autour du jeu populaire battle royale

  1. Fun EDA

Kernels autour Google Analytics Customer Revenue Prediction

  1. Simple Exploration+Baseline

Kernels autour des sales forecast

  1. Sales Forecast ecommerce

Kernels sur le sujet “Porto Seguro’s Safe Driver Prediction”

  1. data preparation & exploration

Recruit Restaurant Visitor Forecasting.

  1. Top 25 solution

Sujets autour du sujet “House Pricing”

  1. Full Workflow
  2. regularized linear models
  3. Stacked Regressions

Sujets autour de la compétition “home-credit-default-risk”

URL: https://www.kaggle.com/c/home-credit-default-risk

To understand the data feel free to access the “Data” chapter in this notebook of this notebook:

Read-only Kernels:

  1. Basic end-to-end training of a LightGBM model

  2. Très bonnes explications sur la métrique ROC AUC et quelle métrique utiliser pour mesurer la performance d’un modèle lorsque des classes ne sont pas équilibrées ? Traite du One Hot Encoding et du problème pour les features ayant trop de catégories (réduction de dimension). Explication sur le feature engineering et en particulier la construction de nouvelles features avec les méthodes Polynomial Features et Domain Knowledge Features. Home Credit Default Risk Competition - Full process - Part 1

  3. On continue à améliorer le modèle de la compétition home-credit-default-risk en créant de nouvelles features. On analyse si elles ont un impact sur la performance du modèle avec le coefficient de Pearson ou la Kernel Density Exploration (KDE). Home Credit Default Risk Competition - Full process - Part 2

  4. (WIP) On continue encore à améliorer le modèle de la compétition home-credit-default-risk en utilisant toutes les données à disposition. Home Credit Default Risk Competition - Full process - Part 3

LUNA16 competition

  1. Full preprocessing

NYC taxi trip duration

  1. Last cab to new york animated heatmap

Kernal autour du sujet Pokemon-Weedle’s Cave

  1. Full tutorial

Other kernels

  1. Comprehensive data exploration
  2. Handling missing values

  3. Fraud detection in Insurance