データ分析の基本「前処理」で気をつけるべき事
2020.10.20 ヤマトクレジットファイナンス株式会社
2020.10.20 ヤマトクレジットファイナンス株式会社
米国で今最も人気にある職業といえばデータサイエンティストです。現地における平均年収は1,100万円と高額であり、国としてデータ活用に積極的なのが伺えます。また、日本国内においてもデータサイエンティストの需要は高まりつつあり、求人サイトにおける募集案件も増え続けています。
出典:ビジネスインサイダージャパン『今、アメリカでもっとも人気のある職業ベスト25』
こうした現状から、「データサイエンティストは派手な職業」というイメージを持たれている方も多いでしょう。しかし実際にデータ活用分野で活躍している人の声に耳を傾けると、決して派手な職業ではなく、むしろ「泥臭い作業」が大半を占めるそうです。その代表的な作業がデータの「前処理」であり、データ分析の基本中の基本となります。
本記事では、データ分析における「前処理」とは何か?気を付けるべき点を含めてご紹介します。
データ分析を始めるにあたり、当たり前に必要なものが「データ」です。データは公開データを利用するか、クラウドソーシングやアンケートなどで自己収集するか、あるいは自社で蓄積したデータを利用します。多くの企業では自社蓄積のデータを利用するかと思いますが、そこに大きな問題があります。
ビジネスは常に変化するため「データ構造が途中で変化すること」、そして「複数のシステムで管理されているデータの粒度やフォーマットが統一されていないこと」です。そうしたデータは往々にして、そのままでデータ分析を行うことは不可能です。というよりも、分析したとしてもビジネスに有用な情報は得られないでしょう。
そこで必要なのがデータの前処理です。この作業ではかき集めたデータに何らかの処理を施して、データを分析しやすいように整えます。前処理を確実に実行してこそ価値ある分析が行えるため、データサイエンティストの仕事の7割はデータの前処理に費やされると考えてください。
「データは原石」とはよく言ったもので、この言葉は単にデータが価値あるものと表現しているのではなく、前処理(加工)を食わなければただの石ころと同じという意味でもあります。収集したばかりのデータの多くはエラーやノイズ、欠損地などが含まれているためそのままでは使えません。前処理を実行してこそ、原石から宝飾品へと変わるようにデータは価値を持つようになります。
では、データの前処理とは具体的に何をするのでしょうか?主な処理としては「データクレンジング」「データの統合」「データの変換」があります。
データクレンジングとは文字通り、「データを綺麗にする(クレンジングする)」ための前処理です。前述のように、収集したばかりのデータにはエラーやノイズ、欠損値などが含まれています。データによっては継続的に蓄積されなかったものもあるでしょう。これらのデータを分析できるよう整えるのがデータクレンジングです。言葉で説明するのは簡単ですが、データの一部を取り除いたり、中央値を取ったりと作業は複雑です。データクレンジングの精度によってデータ分析に与える影響が非常に大きいことから、データサイエンティストの仕事の中で最も重要だとされています。
データクレンジングが完了したら、データを統合していきます。多くのデータはさまざまなソース(源)から収集されているので、一貫したものではありません。データの粒度が異なるケースが大半なので、一貫性の取れたデータを形成します。
最後に、分析モデルに応じてデータを指定のフォーマットに変換します。例えば、数値データを決められた範囲(たとえばゼロから1)の範囲に変換したり、特定の細かい分野ではなく一般化するなどの変換を実施します。
データ分析の現場ではBI(ビジネスインテリジェンス)ツールなどの発展により自動化が進められています。にもかかわらず、データの前処理に時間をかけるべき、かけざるを得ない理由とは何でしょうか?
第一に、データの前処理には統計分析や機械学習に関する深い知識と技術を要するため、クラウドソーシングなどによる処理委託が難しい点が挙げられます。そのため、自社もしくは個人でデータの前処理を実行する他ありません。そしてもう1つの理由は、データ分析そのものに関するフレームワークや自動化ツールは発展してきたものの、データの前処理に関する技術はアナログのままです。
このことから、データサイエンティストの仕事の中でもデータの前処理に費やされる時間が非常に多く、かつ深い知識と高い技術が求められるというわけです。
データの前処理は決しておろそかにしてはいけません。データサイエンティストの華は、データ分析そのものではなくデータの前処理という泥臭い作業にあることを理解するのが、最大の注意点と言えましょう。