東大 松尾研究室が提供するあの人気講座が待望の書籍化!
本書は、2017年と2018年に東京大学で実施された講座で使われた教材がベースになっています。約400名ほどの受講枠(2年間)に、のべ1,800人以上の応募があった人気の講義です。この本のベースとなるコンテンツをさらに精査、ブラッシュアップし、読みやすく整えたものが本書になります。
本書には、データサイエンティストになるための基礎をつめこんでいます。データサイエンティストは、Pythonや確率・統計、機械学習など、幅広くさまざまな分野の知識を必要とします。
この本は主にPython 3を使って、基本的なプログラムの書き方、データの取得、読み込み、そのデータ操作からはじまり、さまざまなPythonのライブラリの使い方、確率統計の手法、機械学習(教師あり学習、教師なし学習とチューニング)の使い方についても学びます。取り扱っているデータは、マーケティングに関するデータやログデータ、金融時系列データなどさまざまで、モデリングの前にそれらを加工する手法も紹介しています。データサイエンティストになるには、どれも必要なスキルです。
本書には、さらに以下の3つの特徴があります。
・実際のデータを使って手を動かしながら、データサイエンスのスキルを身に付けることができる
・データ分析の現場で使える実践的な内容(データ前処理など)が含まれている
・練習問題や総合問題演習など実際に頭を使って考える内容がたくさんある
◆目次
Chapter 1 本書の概要とPythonの基礎
Chapter 2 科学計算、データ加工、グラフ描画ライブラリの使い方の基礎
Chapter 3 記述統計と単回帰分析
Chapter 4 確率と統計の基礎
Chapter 5 Pythonによる科学計算(NumpyとScipy)
Chapter 6 Pandasを使ったデータ加工処理
Chapter 7 Matplotlibを使ったデータ可視化
Chapter 8 機械学習の基礎(教師あり学習)
Chapter 9 機械学習の基礎(教師なし学習)
Chapter 10 モデルの検証方法とチューニング方法
Chapter 11 総合演習問題
Appendix 本書の環境構築について/練習問題解答/参考文献・参考URL