写真撮影ノート

フォトグラファー上飯坂真

データ分析・因果分析のPandasライブラリー ツールを使ったデータ前処理・加工

 

データ分析の一連の作業でいちばん時間がかかるのがデータの分析時間ではなくデータの前処理なのです。

データの欠損値や重複データの処理、平均・集計など重要な作業を必要とします。

これらを効率的に行うことで、データ分析の業務効率化はぐっと上がります。

 

データ分析で使うツールはいろいろありますが、データの前処理で使用するライブラリツールとして最も使われているのはPandasです。 

Pandasの使い方の資料はたくさんありますが、データの前処理に特化した資料が少なかったのでまとめておきます。

 

 

ツールのインポート(読み込み)

PandasNumpyをインポートします。

インポートpandas,numpy

 

欠損値の発見・削除

isnull関数で欠損値を見つけやすく識別して、dropnaで削除できます。

データ前処理欠損値

 

時系列データの場合

時系列データを扱う場合、一定数の観測値がある行だけを保持したいケースがあります。

このときは、引数threshを使います。

データ前処理時系列

 

ソート

データのソートにはsort_values関数を使うと指定した列の並び替えができます。

 

 

 

ご相談や制作依頼などお気軽にお問合せください! 

TOP ABOUT 人物写真 静物写真
バーチャルヒューマン 3DCG/VFX映像制作 建築写真 コンサルティング

 

marcoporlo.hatenablog.com

marcoporlo.hatenablog.com

本サイト掲載の写真は全て無断使用、複製、転用などの行為は禁止させていただきます。