
ゆうき( @BASEBALLY15 )です^^
今回は,タイタニック号の事故のデータ分析を行った中で,
「これは便利だ!」と思ったコードをご紹介したいと思います.

どのようなデータを扱っているの?
データ分析を行う際に,このcsvファイルを用いました.
保存する際は,Jupiternotebookと同じディレクトリに保存してください^^
このサイトは,以下のサイトを参考に作成されています.
今回扱うデータは,タイタニックの事故で生存した方や亡くなった方の『年齢』,『性別』,『客室クラス』
など,全12項目を対象に分析を行っていきたいと思います.
Today’s Code
今日のコードはこちらです.
cabin_dframe = cabin_dframe[cabin_dframe.Cabin != "T"]#Tのデータを取り除く
具体的に,何をしているのかというと,

このグラフの中から,”T”という不要な値を取り除いています.
実際に,必要なデータは”A”から”G”なので,ここでは”T”は取り除きます.

最終的には,このように”A”から”G”のグラフが完成します.
全コード
ライブラリ
import pandas as pd
from pandas import Series,DataFrame
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
コード
#csvファイルの読み込み
titanic_dframe = pd.read_csv("train.csv")
#"Cabin"の文字の先頭を抜き出す
levels = []
for level in deck:
levels.append(level[0])
#データフレーム化
cabin_dframe = DataFrame(levels)
#コラムに名前を付ける
cabin_dframe.columns = ["Cabin"]
#実行
cabin_dframe
#paletteは文字の色合いを変えることが出来る
sns.countplot("Cabin",data=cabin_dframe,palette="winter_d",order=sorted(set(levels)))

#Tのデータを取り除く
cabin_dframe = cabin_dframe[cabin_dframe.Cabin != "T"]
#paletteは文字の色合いを変えることが出来る
sns.countplot("Cabin",data=cabin_dframe,palette="summer_d",order=sorted(set(cabin_dframe["Cabin"])))

終わりに
Pythonには便利なコードがたくさんあります.
データ分析を行うためには,今回のように,便利なコードを知っておくだけでも,
分析の効率が上がると思います.ぜひ,皆さんも使ってみてください^^
それでは・・・