
ゆうき( @BASEBALLY15 )です^^
以前に,『新型コロナウイルスの拡大』の未来予測をしましたね.
その時に,データフレームの任意の文字を取り出しましたよね・・・?
はい^^
その方法について,詳しく教えてください・・・
分かりました^^

DataFrameから抽出する
Pythonでデータ分析をするときに,DataFrameを使うことが多いと思います.
その中で,以下の DataFrame のように一部のデータのみを取り出したいと思うことがあると思います.
Sno | Date | Province/State | Country | Last Update | Confirmed | Deaths | Recovered | |
---|---|---|---|---|---|---|---|---|
0 | 1 | 01/22/2020 12:00:00 | Anhui | China | 01/22/2020 12:00:00 | 1.0 | 0.0 | 0.0 |
1 | 2 | 01/22/2020 12:00:00 | Beijing | China | 01/22/2020 12:00:00 | 14.0 | 0.0 | 0.0 |
2 | 3 | 01/22/2020 12:00:00 | Chongqing | China | 01/22/2020 12:00:00 | 6.0 | 0.0 | 0.0 |
3 | 4 | 01/22/2020 12:00:00 | Fujian | China | 01/22/2020 12:00:00 | 1.0 | 0.0 | 0.0 |
4 | 5 | 01/22/2020 12:00:00 | Gansu | China | 01/22/2020 12:00:00 | 0.0 | 0.0 | 0.0 |
… | … | … | … | … | … | … | … | … |
765 | 766 | 02/04/2020 22:00:00 | Boston, MA | US | 2020-01-02 19:43:00 | 1.0 | 0.0 | 0.0 |
766 | 767 | 02/04/2020 22:00:00 | Los Angeles, CA | US | 2020-01-02 19:53:00 | 1.0 | 0.0 | 0.0 |
767 | 768 | 02/04/2020 22:00:00 | Orange, CA | US | 2020-01-02 19:53:00 | 1.0 | 0.0 | 0.0 |
768 | 769 | 02/04/2020 22:00:00 | Seattle, WA | US | 2020-01-02 19:43:00 | 1.0 | 0.0 | 0.0 |
769 | 770 | 02/04/2020 22:00:00 | Tempe, AZ | US | 2020-01-02 19:43:00 | 1.0 | 0.0 | 0.0 |
↓
Sno | Date | Province/State | Country | Last Update | Confirmed | Deaths | Recovered | |
---|---|---|---|---|---|---|---|---|
35 | 36 | 01/22/2020 12:00:00 | NaN | Japan | 01/22/2020 12:00:00 | 2.0 | 0.0 | 0.0 |
73 | 74 | 01/23/2020 12:00:00 | NaN | Japan | 01/23/2020 12:00:00 | 1.0 | 0.0 | 0.0 |
118 | 119 | 01/24/2020 12:00:00 | NaN | Japan | 01/24/2020 12:00:00 | 2.0 | 0.0 | 0.0 |
159 | 160 | 01/25/2020 22:00:00 | NaN | Japan | 01/25/2020 12:00:00 | 2.0 | 0.0 | 0.0 |
205 | 206 | 01/26/2020 23:00:00 | NaN | Japan | 01/26/2020 23:00:00 | 4.0 | 0.0 | 1.0 |
252 | 253 | 01/27/2020 20:30:00 | NaN | Japan | 01/27/2020 20:30:00 | 4.0 | 0.0 | 1.0 |
そんな悩みがある方は,以下のコードを記述するだけで,解決するかもしれません!
Today’s Code
coronajapan_df = corona_df[corona_df["Country"]=="Japan"]
これは,以下の図を見てもらうと分かりやすいと思います^^

このように,分からなくなったら,一度書き出してみるのがいいですよ^^
以下に,このコードまでの流れを載せておきます.
全コード
ライブラリ
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")
%matplotlib inline
コード
#csvファイルの読み込み
file_name = "2019_nCoV_data.csv"
corona_df = pd.read_csv(file_name)
#実行
corona_df.head()
#日本のデータを抽出 Today's Codeに投稿する^^
coronajapan_df = corona_df[corona_df["Country"]=="Japan"]
#実行
coronajapan_df
終わりに
今回は,DataFrameから,任意の文字を抽出する方法について,ご紹介しました.
自分自身が学習をしていて,つまずいた部分だったので,こちらのページにまとめました.
皆さんも,ぜひ参考にしてみてください^^
それでは・・・