はじめに
社内で定時後に有志で勉強会というか、その場に集まってPythonやRをもくもくと勉強をするもくもく会を開きたいと考えています。目的としては分析スキルの向上や機械学習ができるようになりたいとかいう個々人の願いを叶えることです。
色々なスキルレベルのメンバーが参加することが予想されるので、皆を幸せにするためにもレベルに応じた良い教材が必要だと思いました。
ここでは、レベルに応じて適切な教材などを忘備録として残していきたいと思います。
(私自身、全てのレベルの対象者に適切な教材を網羅しているわけではないので、随時更新していこうと思います。)
受講対象について
受講対象(PythonやRをまともに触ったことがない人)は2軸で分けるとすると以下のようになると思います。
・プログラミング経験あり/経験なし
・数学の心得あり/心得なし
- プログラミング経験なし&数学の心得あり(アルキメデス)
理系出身の人がメインだと思います。学部・学科によっては全然扱わないですよね。数的な思考は得意だが、それを活かすスキルが不足しているような人でしょう。眼の前におかれた数学の問題を紙とペンで解くことはできるが、仕事で使えないという感じ。私も偉そうなことは言えないですが、コードが荒れがちなので周りに良い先生がいたほうが良いと思います。 -
プログラミング経験なし&数学の心得なし(葉っぱ隊)
一番習得に時間がかかると思います。野球やったことないのに、野球選手になりたいという人に皆さんは違和感を感じるでしょう。イメージはそんな感じです。一番時間がかかるからこそ、挫折しないための教材選びが重要かもしれません。スキル的に全裸なので、葉っぱ隊と名付けましょう。 -
プログラミング経験あり&数学の心得あり(デーサイ候補)
最も頼もしい存在です。教科書をお渡ししておけば勝手に成長すると思います。ある程度経験を積めば分析業務を任せても良いと思います。 -
プログラミング経験あり&数学の心得なし(進捗ありマン)
各種手法の原理を知るまではそれなりに時間がかかると思いますが、手を動かして何ができるかをすぐに味わえるので、モチベーションを維持しながら学んでいきやすいと思います。コード自体は実行できるので進捗ありマンと名付けてみましょう。
この2軸でPythonとRに関する便利な資料を探したいと思います。
ただし、どの本に関してもどのレベルの人が買っても良いとは思います。ただ、数学の心得がない中で、テイラー展開とか平均値の定理とかラグランジュ未定乗数法などの表現を目にした際に、挫折してしまう可能性があるので、適した書籍から順次広げていくのが良いと思います。なお、今回はPCでもくもくと進めれそうな書籍を選んでいます。紙とペンで進める本も重要なのですが、そのようなかた向けの書籍は取り上げていません。
アルキメデス向けの教材
Python
- 機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)
Pythonの入門的な記述もあり、数学の話もきちんと扱っているので、アルキメデス系の人にはぴったりの本だと思います。コードが荒れがちなアルキメデス系もこの本を写経しながら学べば進捗が良いはずです。
-
Pythonで学ぶあたらしい統計学の教科書 (AI & TECHNOLOGY)
数式はそれほど出てきませんが、Pythonが少しわかれば統計学に関してもあらかたこの本で上達すると思います。手を動かすことで前には進めると思います。アルキメデス系であれば、これを学習した上で、さらに深く理解するために他の統計学の専門書に手を出すこともできるでしょう。
R
- みんなのR 第2版
『Rによるデータサイエンス』と迷ったのですが、プログラムの実行結果がそのまま載っている印象だったので、こちらの本がプログラミング初心者には優しいと判断しました。ほとんど数式は出てこないのですが、一般化線形モデルや時系列解析などもカバーしてくれています。また、データの前処理に関する記述もこちらの本の方が手厚いです。
葉っぱ隊向けの教材
Python
-
Pythonスタートブック [増補改訂版]
本当にプログラミングがはじめての人向けの本です。まずはプログラミング自体に慣れたほうが良いと思います。
-
プロゲートのPython入門講座
妻におすすめされた講座です。無料枠でもある程度学びがあるようです。環境を構築しなくても良いという点が非常に葉っぱ隊に適しているとのことです。
R
- Rによるやさしい統計学
Rのインストールあるいは統計学の初歩のところから、応用まで幅広く説明している本です。数式はあまり出てきませんがコードが載っているので、手を動かすことができると思います。
読み物
- マンガでわかる統計学 回帰分析編
初めて統計学に触れた人で、挫折したくない場合の強力な助っ人と言えそうな本です。オーム社なので内容はしっかりしています。
デーサイ候補向けの教材
Python
- みんなのPython 第4版
他のプログラミング言語の経験があれば、どのような記述の仕方なのかを掴み取るために効率的な本だと思います。記法やメソッドなどを一通り学べば、それに続くデータ分析の勉強も捗るはずです。私は一番始めに『初めてのPython 第3版』という700ページを超える本を読んでいたのですが、いきなりあれは辛いです。
-
[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
数式による解説が適宜なされ、Pythonのコードも多く載せられており、ほとんどの手法に関して学ぶことができる本です。
R
-
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
実ビジネスではロジスティック回帰などを多用する場面が多いので、数学とプログラミングに問題がなければこの本も平行して学べると思います。
-
データマイニング入門
業務で使いそうなデータマイニングの手法が幅広く紹介されています。一部ではありますが数式もあるので納得もしやすいと思います。
-
Rによるデータサイエンス データ解析の基礎から最新手法まで
数式はそこまで多くないですが、様々な手法を扱っている上に、Rのコードも載せられているので、原理を理解しながら、コードも回せる良い本だと思います。ただ、書かれている多くは金先生のWebサイトに掲載されています。
-
データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング
そんなに数式は出てこないですが、統計学から機械学習まで幅広く扱われています。Rを用いてもくもくと進めることができると思います。あと、特徴量エンジニアリングに関するヒントも書かれていたりするので、長く使える一冊かもしれません。
進捗ありマン向けの教材
R
-
RStudioではじめるRプログラミング入門
プログラミング経験のある進捗ありマンであれば、R言語の扱い方をまずは知りたいだろうと思います。関数の書き方やヘルプページの使い方、オブジェクトの説明、S3の話などが詳しく書かれています。
-
新米探偵、データ分析に挑む
R Studioのインストール方法なども載っているので、進捗ありマンなら最初から最後まで実践できると思います。数式もほとんど出てきません。色んな分析事例をRで取り組むことで分析業務のイメージも付いてくると思います。
-
RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−
R言語について何となくつかめた進捗ありマンがモダンな記法であるtidyverseを効率よく学べる良い本です。データ整形・クロス集計・可視化がモダンな記法で書けるようになると結構楽しいと思います。
Python
- Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理
数式などは出てきませんが、Pythonでデータ分析を行う上で重要なモジュールであるpandasを詳しく扱っています。いきなり機械学習などをするよりかはpandasをマスターしてデータの前処理スキルを高めるのが良いかもしれません。進捗もあると思いますし。
今後について
そもそもPythonやRに触れたことがない人にとって、Tokyo.Rの初心者セッションは少し適していないのかなと思ったので、今回は取り上げていないですが、一通り使い方をわかってもらえたら初心者セッションの資料を使ったもくもく会も開きたいと思います。最終的にはKaggle部とかを作るとかになるのかもしれませんが、そこまで行けるか行けないか。