Yonoseko's Working Diary

主にiPadでPythonを勉強したり、kaggleを趣味にすべく機械学習を勉強したり、ケーナの演奏をしたりする人の活動日誌です。

作業日誌2018-09-23

【やったこと】

  • CourseraのHow to Win a Data Science CompetitionのWeek1、Pandasのアサインメントを完了。
    • 問4で2日間詰まっていたが、フォーラムに行ったら解消。問題文がわかりづらいけれど、item_cnt0未満のレコードを切り捨てるわけではなく、varで分散を求める際にddof=1を指定すると解決。
    • Week1のデータ前処理の部分まで終了。
    • 今まで知りたかった、「どんなモデルでどんな前処理をしたら良いのか」を学べて良かった。
  • 『Scikit-learnとTensorFlowによる実践機械学習』、2章まで読了。
    • 機械学習の手順をまとめておきたい。kaggleで写経したものも手順をまとめてあるので、「データの前処理」「モデル作成」「モデルの評価」などの手順ごとに、どんな手法を使ったのかでまとめておきたい。また、よく図式化されたものがなかなか無いので、ストックが溜まったらまとめる。
  • はてなブログで活動日誌を始めた。
  • 副業の打ち合わせをした。
    • はじめてスタバから電話会議で、ミーハーなので時代の最先端!とわくわくする。ノマド的な。
  • 個人Slackに「learning-product-mng」を追加。

【わかったこと / 進捗があったこと】

  • CourseraのJupyter NotebookのアサインメントはiPadでも投稿可能。
  • Pandasのvarメソッドでddofパラメータを使うと不偏分散を求められる。
  • One hot codingはnon-tree-basedでは大変重要。
  • データのscalingはnon-tree-basedでは欠かせないが、tree basedではよしなに扱ってくれるので不要。
  • XGBoostはNaNをよしなに取り扱ってくれる。
  • 欠損値の処理は値を予測できたり、平均や中央値で補って問題なさそうな場合はそのように。ただし、カテゴリ変数の前処理を施す前にやっておいた方が良い(欠損値を999などで埋めた後にLabelingしたら謎の495が生まれたりするのを防ぐため。)

【考えたこと】

  • ゲームではないプロダクトの企画に関するフレームワークを今一度整理しておきたい。マネタイズを含めたデザインをするにあたって、どういう手順を踏んで計画されるべきなのか、勉強しておく。
  • 個人Slackは考え事や記事の整理に大変便利。
  • やはり人生をGamificationする仕組みづくりにコミットしたい。

scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習