作業日誌2018-09-23 - Yonoseko's Working Diary

【やったこと】

CourseraのHow to Win a Data Science CompetitionのWeek1、Pandasのアサインメントを完了。
- 問4で2日間詰まっていたが、フォーラムに行ったら解消。問題文がわかりづらいけれど、item_cnt0未満のレコードを切り捨てるわけではなく、varで分散を求める際にddof=1を指定すると解決。
- Week1のデータ前処理の部分まで終了。
- 今まで知りたかった、「どんなモデルでどんな前処理をしたら良いのか」を学べて良かった。
『Scikit-learnとTensorFlowによる実践機械学習』、2章まで読了。
- 機械学習の手順をまとめておきたい。kaggleで写経したものも手順をまとめてあるので、「データの前処理」「モデル作成」「モデルの評価」などの手順ごとに、どんな手法を使ったのかでまとめておきたい。また、よく図式化されたものがなかなか無いので、ストックが溜まったらまとめる。
はてなブログで活動日誌を始めた。
副業の打ち合わせをした。
- はじめてスタバから電話会議で、ミーハーなので時代の最先端！とわくわくする。ノマド的な。
個人Slackに「learning-product-mng」を追加。

CourseraのJupyter NotebookのアサインメントはiPadでも投稿可能。
Pandasのvarメソッドでddofパラメータを使うと不偏分散を求められる。
One hot codingはnon-tree-basedでは大変重要。
データのscalingはnon-tree-basedでは欠かせないが、tree basedではよしなに扱ってくれるので不要。
XGBoostはNaNをよしなに取り扱ってくれる。
欠損値の処理は値を予測できたり、平均や中央値で補って問題なさそうな場合はそのように。ただし、カテゴリ変数の前処理を施す前にやっておいた方が良い（欠損値を999などで埋めた後にLabelingしたら謎の495が生まれたりするのを防ぐため。）

ゲームではないプロダクトの企画に関するフレームワークを今一度整理しておきたい。マネタイズを含めたデザインをするにあたって、どういう手順を踏んで計画されるべきなのか、勉強しておく。
個人Slackは考え事や記事の整理に大変便利。
やはり人生をGamificationする仕組みづくりにコミットしたい。