タイタニック号のデータ分析

ゆうき( @BASEBALLY15 )です^^

今回は,タイタニック号の事故のデータ分析を行った中で,
「これは便利だ!」と思ったコードをご紹介したいと思います.

どのようなデータを扱っているの?

データ分析を行う際に,このcsvファイルを用いました.

保存する際は,Jupiternotebookと同じディレクトリに保存してください^^

このサイトは,以下のサイトを参考に作成されています.

今回扱うデータは,タイタニックの事故で生存した方や亡くなった方の『年齢』,『性別』,『客室クラス』

など,全12項目を対象に分析を行っていきたいと思います.

Today’s Code

今日のコードはこちらです.

cabin_dframe = cabin_dframe[cabin_dframe.Cabin != "T"]#Tのデータを取り除く

具体的に,何をしているのかというと,

タイタニックのデータ分析

このグラフの中から,”T”という不要な値を取り除いています.

実際に,必要なデータは”A”から”G”なので,ここでは”T”は取り除きます.

タイタニックのデータ分析で指定した文字を取り除いた後のグラフ

最終的には,このように”A”から”G”のグラフが完成します.

全コード

ライブラリ

import pandas as pd

from pandas import Series,DataFrame

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

コード

#csvファイルの読み込み
titanic_dframe = pd.read_csv("train.csv") 


#"Cabin"の文字の先頭を抜き出す
levels = [] 

for level in deck:
    levels.append(level[0])


#データフレーム化
cabin_dframe = DataFrame(levels)


#コラムに名前を付ける
cabin_dframe.columns = ["Cabin"]


#実行
cabin_dframe
#paletteは文字の色合いを変えることが出来る
sns.countplot("Cabin",data=cabin_dframe,palette="winter_d",order=sorted(set(levels)))
#Tのデータを取り除く
cabin_dframe = cabin_dframe[cabin_dframe.Cabin != "T"]
#paletteは文字の色合いを変えることが出来る
sns.countplot("Cabin",data=cabin_dframe,palette="summer_d",order=sorted(set(cabin_dframe["Cabin"])))

終わりに

Pythonには便利なコードがたくさんあります.

データ分析を行うためには,今回のように,便利なコードを知っておくだけでも,

分析の効率が上がると思います.ぜひ,皆さんも使ってみてください^^

それでは・・・

Q &A

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA