データサイエンティストに必要な8つの条件
10月21日-25日の5日間にわたり、米国ワシントンDCで開催された「The 2012 Teradata PARTNERS User Group Conference & Expo」において、LinedInのビジネスアナリティクス部門のディレクターであるサイモン・チャン(Simon Zhang)氏にお話をうかがう機会を得ました。本稿では、ビッグデータ分析についてのチャン氏の示唆に富む言葉をお届けします。
―LinkedInには25名のデータサイエンティストが在籍しており、あなたは彼らを統括する立場にあると聞いています。LinkedInでは、データサイエンティストに必要な資質をどのように定義しているのでしょうか。
チャン氏: まず、当社ではデータサイエンティストとビジネスアナリストを同義だと捉えています。そしてデータサイエンティスト、もしくはビジネスアナリストたりうるには8つの条件があると考えています。
- プロダクトを熟知している
- トラッキングを実装できるスキルをもっている
- データウェアハウスやHadoopなどシステムを構成するコンポーネントを熟知している
- アドホックな分析を行える
- 有効で有益なレポートを作成することができる
- 高度なモデル化に長けており、予測モデルを作ることができる
- データの中からインサイト(知見)を探し出すことができる
- 探し出したインサイトを価値に変えることができる
この8つの能力を総合的にもっているのがデータサイエンティストだと我々は定義しています。
―なかなかきびしい条件ですが、そうした高い能力を備えたデータサイエンティストたちは、日々どんなタイプのデータと向き合っているのでしょうか。
チャン氏: 我々はデータを4つのタイプに分けています。まずはERPデータ、これは量的にも少なく、メガバイト級です。2つめはCRMデータ、これはギガバイト級ですね。3つめがWebログやモバイルのデータ、これはテラバイト級です。そして最後がソーシャルデータ、これはペタバイト級で最も大きなデータであり、最も増え続けているデータであり、そして我々にとって最も重要なデータです。
そしてソーシャルデータで最も重要なのは、一個人の属性(プロパティ)やその人の発言内容ではなく、個人と個人のつながりです。これこそが我々が顧客に提供する価値の根幹を支えています。
―ソーシャルデーはサイズが大きいから重要というわけではないと。
チャン氏: 我々にとってデータのサイズは二の次です。ビッグデータはそのままでは価値を生み出しません。ビッグなデータをスモールなインサイトに変えること、小さくても意味なる価値に変えることが重要なのです。