Cleaning Practice

Let's first practice handling missing values and duplicate data using the cancer_data_means.csv file, which you created and saved in the "Assessing and Building Intuition" notebook a few pages back. If you created this CSV file in that notebook, it should still be available in this workspace for you to load into the notebook here.

Entraînons-nous d'abord à traiter les valeurs manquantes et les données en double en utilisant le fichier cancer_data_means.csv, que vous avez créé et enregistré dans le carnet "Evaluer et construire l'intuition" quelques pages plus tôt. Si vous avez créé ce fichier CSV dans ce carnet, il devrait encore être disponible dans cet espace de travail pour que vous puissiez le charger dans le carnet ici.

Renaming Columns

Since we also previously changed our dataset to only include means of tumor features, the "_mean" at the end of each feature seems unnecessary. It just takes extra time to type in our analysis later. Let's come up with a list of new labels to assign to our columns.

Puisque nous avons également modifié précédemment notre ensemble de données pour n'inclure que les moyennes des caractéristiques des tumeurs, le "_mean" à la fin de chaque caractéristique semble inutile. Cela prend simplement plus de temps pour saisir notre analyse plus tard. Établissons une liste de nouvelles étiquettes à attribuer à nos colonnes.

Once you have your data loaded into dataframes, Pandas makes a quick investigation of the data really easy. Let's explore some helpful methods for assessing and building intuition about a dataset. We can use the cancer data from before to help us.