俺のOneNote

俺のOneNote

データ分析が仕事な人のOneNote愛とか、分析小話とか。

データアナリストを目指したい人のために個人的な道案内をしてみる

コロナ影響による陰りがありつつ、データサイエンス人気は依然として高そうです。

僕自身も、データサイエンス・データアナリティクスは引き続きビジネスにあたって、なくてはならない技術でありつづける気はしています。
(コレだけでは食っていけなくなる危機感もある)

データアナリストを名乗る底辺な私ではありますが、これから目指したいと思っている学生やキャリアチェンジ組の方、新卒でデータアナリストになってこれから頑張ろうとしている人に、自分の経験を元にした至極私的な道案内をしてみます。

※なんかamazonリンクばっかで大変アフィリエイトっぽい感じですが、一切リンクないので安心してご閲覧ください!爆

私はどんな人?

そもそも私はこんな感じです。

・10年ぐらいコンサル兼データアナリスト、転職後2年ぐらいデータアナリスト専業
・R、Python等のプログラミング言語ちょっと。Power BI , TableauなどBIツールちょっと
機械学習ディープラーニング実装できるけど教科書レベル(kaggleとかは勝てない)

上記のとおり、今をときめくkagglerとは程遠く、機械学習エンジニア寄りではありません。
どちらかといえばコンサルティングマーケティング寄りのデータアナリストだと思います。
なので、データサイエンティスト(機械学習エンジニア寄り)になりたいって方は戻るボタンを押すのが賢明です。
あくまでフロントに立ちつつ、現場で必要になるデータ分析をするような人間になるため に何が必要になるか(というか、自分がこんなこと大事にしていきたい)ということを書きます。

フロント意識を鍛える

これは職場環境やポジションによるのかもしれませんが、ビジネスの先にいるお客様のことを考えることが何より大事なんだろうな、と思っています。
「バックオフィス」みたいな意識を持ってしまうと、どうしても「お客様」ではなく、対峙する営業の人や上司が「どう考えるか?」を前提にしてしまいます。
「お客様」と接することができる立場にある場合は積極的にフロントに出ること。
フロントに出れない場合でも、分析・提供した結果、「お客様」にどんなメリットがあるかを考えたアウトプットを心がけることが大切であると感じております。

コンサルティング力・論理的思考力を鍛える

論理的思考力はデータ分析以上に重要で価値創出につながる基礎になります。
超先進的で高度なデータ分析技法を利用したとしても、論理的な課題選定と仮説立案・結論のためのExcel集計に勝てないケースもあるのではないでしょうか?
昨今、データサイエンスブームと演算速度の向上やクラウド技術の発達にあわせて技術的な要素が非常に重視されていますが*1、 そもそもの論理的思考能力をおろそかにしてはいけません。 データアナリストとして、論理的思考が崩壊してると、たぶんビジネスのテーブルに乗りづらくなると思います。
幸いにもいろんな良書があるので、自身のビジネス分野も踏まえつつ、一つは読んでみることをお勧めします。

コンサル一年目が学ぶこと

コンサル一年目が学ぶこと

マッキンゼー流 入社1年目問題解決の教科書

マッキンゼー流 入社1年目問題解決の教科書

統計的思考力を鍛える

論理的思考力と合わせ、統計データの読み方、導き出し方、統計指標の利点・欠点など必要最低限のことを叩き込みましょう。
記述・推測統計や確率分布、統計的仮説検定、基本的な多変量解析など、全く触れずにPythonとか、kaggleとかに走るのもどうかなー・・・と感じる次第です*2

僕自身、数えるのも無意味なほど恐ろしい大きさのデータを扱う毎日ですが、 意外と古典的な統計学的知見が必要なケースが多いです。(サンプリングとかABテストとか)

また、統計学を”ある程度”理解するためには基礎的な数学力もある程度必要です*3
特にディープラーニングベイズ推定などを理論面から理解しようとすると、解析学線形代数学は避けて通れません。
数学的教養がある方なら問題ないですが、数学を避けてきた方は必要性を見極めつつ、学ぶ必要があります。

統計学のための数学教室

統計学のための数学教室

  • 作者:永野 裕之
  • 発売日: 2015/09/11
  • メディア: 単行本(ソフトカバー)

技術者のための確率統計学 大学の基礎数学を本気で学ぶ

技術者のための確率統計学 大学の基礎数学を本気で学ぶ

  • 作者:中井 悦司
  • 発売日: 2018/09/18
  • メディア: 単行本(ソフトカバー)

表現力・プレゼンテーション力を鍛える

次に示す「実装力」とどっちを重視するか迷いましたが、より本質的なほう、ということでこちらを先に紹介。
論理的思考力とやや被る概念です。

データ分析結果は必ず誰かに見せることが必要になるはずです。
同じチームメンバー?上司?顧客?
分析結果はその分析が必要となっている「文脈」を見極め、それに合うように最適な形*4でアウトプットすることに善処することが必要になります。

僕はデータ分析の5W1Hと呼んでおりますが、その思想は会社公式ブログに書いたのでもし時間があればこちらもよろしくお願いします(宣伝!)

techblog.cccmk.co.jp

分析した結果を最大限活用してもらえるよう、効果的に伝える技術は学ばないといけません。

Google流資料作成術

Google流資料作成術

実装力を鍛える

さて、やっとたどり着いた実装力。
プログラミング言語とか、BIツールとか、SQL等の話です。

正直昨今のデータサイエンスブームにより、僕なんかよりも技術・経験が上な人がいっぱいな気がするのであんま偉そうなこと言えないですが・・・。

・RとPythonを学ぶ

RかPythonか?みたいな記事や、RなんかよりPython一択!みたいな言動もよく見られます。
が、どっちもやるべきです。
RにはPythonにはない豊富な統計ライブラリとアウトプットの潤沢さがあります。
一方のPythonはアプリケーション実装への汎用性の高さや主要な機械学習ライブラリがある程度画一化されておりシンプルであることが魅力です。
データアナリストを名乗る以上、どっちもある程度書けるようにしといたほうが仕事の幅が広がります。*5

Pythonで動かして学ぶ!あたらしい機械学習の教科書 第2版 (AI & TECHNOLOGY)

Pythonで動かして学ぶ!あたらしい機械学習の教科書 第2版 (AI & TECHNOLOGY)

  • 作者:伊藤 真
  • 発売日: 2019/07/18
  • メディア: 単行本(ソフトカバー)

Rではじめるビジネス統計分析

Rではじめるビジネス統計分析

  • 発売日: 2014/07/17
  • メディア: Kindle

Kaggleで勝つデータ分析の技術

Kaggleで勝つデータ分析の技術

・BIを学ぶ

BIツールはここ数年でかなりの会社に浸透してきているのではないかと思います。 Power BI , Tableau , Google Data Portal , Domoなど、多くのツールがあふれています。
どれを学ぶか?は職場に応じて決まるはずです。
アナリストである以上、機械学習の精度を突き詰めることもいいかもしれないですが、可視化によって多くの人がインサイトを得ることを支援することも大事でしょう。

もし、職場でBIなんて導入していない!という場合は、 無料で始められる Power BI , Tableau Public ,Google Data Portalなどを私的に利用・学習すると良いと思います。
それぞれ、得意・不得意などがありますが、BIによるデータ集計&可視化の概念はどれも似たり寄ったりです。
BIの集計・可視化概念はどれで遊んでも習得できます。

SQLを学ぶ

R・Pythonのようなプログラミング言語、BIのような可視化ツール、これとともに学ぶべきは、データ抽出・集計の基礎になるSQLでしょう。

Python, Rで分析する以前に、データを必要な形で抽出できるようSQLを書く場面は必ずあります。
BIにおいてもSQLやデータベースの概念を理解しておくと集計が大変理解しやすい場面もあります。
ほんとにシンプルなjoinや, サブクエリが書けるだけでもいいと思います。*6
ER図も理解できるようにしておきましょう。

+αを鍛える

あとは仕事内容や自信の興味関心に沿って、スキルを得ていく感じになるでしょう。
分析だけじゃなくて環境から作らないといけない場合はVMとかコンテナ技術が必要になるかと思われます。

Google Cloud Platformではじめる機械学習と深層学習

Google Cloud Platformではじめる機械学習と深層学習

  • 作者:吉川 隼人
  • 発売日: 2017/12/12
  • メディア: 単行本(ソフトカバー)

データエンジニア的な立ち回りも必要な場合はデータベース関連技術でしょうか。*7

ソーシャル分析とかWEB解析が必要ならWEB, クローリングや自然言語処理まわりの技術。

Rによるテキストマイニング入門

Rによるテキストマイニング入門

学ぶことに終わりはないのです・・・涙目。

appendix

大変私的かつ支離滅裂な内容になりましたが、
ここに書いてあることは僕も誇れるほどできてないし、まだまだ修行中です。
でも、ある程度仕事上の必要性を加味してさらっと学ぶことができれば、ビジネスの前線で貢献できるデータアナリストとして胸を張ることができると思います。

すべてはデータを利用して社会に価値提供できるようになるため、日々がんばっていきましょう。

*1:もちろん技術的に高度なことを覚えるのは重要だし、個人的にも一番頑張っているところ

*2:実装重視の機械学習エンジニア寄りの仕事なら無視してもいいのかもしれないですが

*3:統計検定1級に落ちた僕は”ある程度”も理解できていないのかもしれない・・・

*4:結果を捻じ曲げる、とかの意味ではありません

*5:それでも、どちらかに偏るのは仕方ないことですし、僕自身もPython偏重です

*6:いや、ダメかも・・・。僕も苦手なのでごめんなさい

*7:ここは読んだことある本がないので、これ良さそうだな~的なものだけpickup