「Advanced Data Analysis」で分析させる
ChatGPTでデータを分析するなら、高度なデータ分析機能「Advanced Data Analysis」が便利です(有料版のみで使えます)。
画像やExcel、CSVなどの外部データを読み込んだり、自然言語でPythonのコードを生成・実行できたりしますが、プログラミングの知識がなくても問題なく使えます。
Advanced Data Analysisができることを、次のようにまとめてみました。
- データの可視化
データのパターンや傾向を視覚的に理解するためのグラフやチャートの作成
プロンプト例:「売上データを読み込んで、月別の平均売上を棒グラフで表示してください」- 統計分析
データの要約、傾向、関係性を把握するための統計手法の適用
プロンプト例:「顧客データを読み込んで、年齢の平均、中央値、標準偏差を計算し、それを表形式で表示してください」- 予測モデル作成
データから将来の傾向や結果を予測するための数学的モデルの構築
プロンプト例:「過去3年間の売上データをもとに、来年の月別売上を予測するための線形回帰モデルを作成し、予測結果をプロットしてください」- トレンド分析
データの時間的な変動や傾向を分析してパターンを発見する
プロンプト例:「月次の売上データをもとに、全期間のトレンドと季節性を分解したプロットを作成してください」- セグメンテーション
類似した特徴を持つグループに分けることで、細分化された分析を行う
プロンプト例:「顧客の購買データを読み込み、RFM(Recency, Frequency, Monetary)分析を行ってセグメント化してください」- A/Bテストの設計と分析
異なるバージョンの要素を比較し、効果を検証するための実験の設計と解析
プロンプト例:「2つのウェブサイトデザインの転換率データを読み込んで、A/Bテストを行い、どちらのデザインが有意に高い転換率を持つかを検定してください」- データクレンジング
データの品質を向上させるために、欠損値や異常値を処理し、整理する
プロンプト例:「顧客データをもとに、欠損値と異常値を処理し、クレンジング後のデータの要約統計を表示してください」- 探索的データ分析
データの概要を把握し、パターン、異常値、仮説を見つける分析
プロンプト例:「製品レビューのデータをもとに、レビューの平均評価、分布、主要な特徴を可視化して、全体的な傾向を把握してください」
できることが多すぎて、使い方を迷うほどです。では、具体的に何を分析させられるのでしょうか? 対象は大きく二つあります。
一つは、「構造化されたデータ」。GA4、SNS、YouTube等のアナリティクスデータがイメージしやすいでしょう。もう一つは、「曖昧で構造化されていないせいで、筋道を立てて説明できないこと」です。こちらの分析については後述します。
構造化されたデータ分析が得意なのは当たり前
ちょうど良いアナリティクスデータが手元になかったので、「Kaggle」というデータサイエンスと機械学習のコミュニティプラットフォームから、「1908~2008年に発生した飛行機事故のデータ」を引っ張ってきました(誰でもCSVでダウンロードできます)。100年分のデータなのでそこそこのボリュームです。
以下、ChatGPTに分析させた結果です。
【プロンプト】
どの国と地域で事故が多く発生しているかを可視化してください。
【出力結果】
1位がUnknown(不明)なのは、海上の墜落が多いからでしょう。それを除くと、ブラジル、ロシア、コロンビア、アラスカが多いようです。追加で次のように訊いてみました。
【プロンプト】
各年の事故件数の推移をグラフ化してください。
【出力結果】
2000年以降はグッと減っているのがわかります。グラフの形状が変わりましたが、指示すればいかようにも変更してくれます。
【プロンプト】
航空会社や軍隊などの運行者別の事故件数を集計してください。
【出力結果】
米空軍とロシア最大手のエアロフロートが、群を抜いて多いようです。次にエールフランス、ルフトハンザが続きます。
さらに「指示したこと以外で、他に気づきはないか?」とたずねたところ、特定の航空機タイプと死亡数に関連があることを示し、死亡数の多かった機種名までリストにして教えてくれました。
このようになかなか便利なのですが、「AIならこれくらいできるでしょ」という気もしますね。では、次に構造化されていないデータの分析を見てみましょう。