データ分析の一連の作業でいちばん時間がかかるのがデータの分析時間ではなくデータの前処理なのです。
データの欠損値や重複データの処理、平均・集計など重要な作業を必要とします。
これらを効率的に行うことで、データ分析の業務効率化はぐっと上がります。
データ分析で使うツールはいろいろありますが、データの前処理で使用するライブラリツールとして最も使われているのはPandasです。
Pandasの使い方の資料はたくさんありますが、データの前処理に特化した資料が少なかったのでまとめておきます。
ツールのインポート(読み込み)
PandasとNumpyをインポートします。
欠損値の発見・削除
isnull関数で欠損値を見つけやすく識別して、dropnaで削除できます。
時系列データの場合
時系列データを扱う場合、一定数の観測値がある行だけを保持したいケースがあります。
このときは、引数threshを使います。
ソート
データのソートにはsort_values関数を使うと指定した列の並び替えができます。
ご相談や制作依頼などお気軽にお問合せください!
TOP | ABOUT | 人物写真 | 静物写真 |
バーチャルヒューマン | 3DCG/VFX映像制作 | 建築写真 | コンサルティング |