作業日誌2018-09-23
【やったこと】
- CourseraのHow to Win a Data Science CompetitionのWeek1、Pandasのアサインメントを完了。
- 問4で2日間詰まっていたが、フォーラムに行ったら解消。問題文がわかりづらいけれど、item_cnt0未満のレコードを切り捨てるわけではなく、varで分散を求める際にddof=1を指定すると解決。
- Week1のデータ前処理の部分まで終了。
- 今まで知りたかった、「どんなモデルでどんな前処理をしたら良いのか」を学べて良かった。
- 『Scikit-learnとTensorFlowによる実践機械学習』、2章まで読了。
- 機械学習の手順をまとめておきたい。kaggleで写経したものも手順をまとめてあるので、「データの前処理」「モデル作成」「モデルの評価」などの手順ごとに、どんな手法を使ったのかでまとめておきたい。また、よく図式化されたものがなかなか無いので、ストックが溜まったらまとめる。
- はてなブログで活動日誌を始めた。
- 副業の打ち合わせをした。
- はじめてスタバから電話会議で、ミーハーなので時代の最先端!とわくわくする。ノマド的な。
- 個人Slackに「learning-product-mng」を追加。
【わかったこと / 進捗があったこと】
- CourseraのJupyter NotebookのアサインメントはiPadでも投稿可能。
- Pandasのvarメソッドでddofパラメータを使うと不偏分散を求められる。
- One hot codingはnon-tree-basedでは大変重要。
- データのscalingはnon-tree-basedでは欠かせないが、tree basedではよしなに扱ってくれるので不要。
- XGBoostはNaNをよしなに取り扱ってくれる。
- 欠損値の処理は値を予測できたり、平均や中央値で補って問題なさそうな場合はそのように。ただし、カテゴリ変数の前処理を施す前にやっておいた方が良い(欠損値を999などで埋めた後にLabelingしたら謎の495が生まれたりするのを防ぐため。)
【考えたこと】
- ゲームではないプロダクトの企画に関するフレームワークを今一度整理しておきたい。マネタイズを含めたデザインをするにあたって、どういう手順を踏んで計画されるべきなのか、勉強しておく。
- 個人Slackは考え事や記事の整理に大変便利。
- やはり人生をGamificationする仕組みづくりにコミットしたい。
scikit-learnとTensorFlowによる実践機械学習
- 作者: Aurélien Géron,下田倫大,長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2018/04/26
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る