データ分析周りの情報の忘備録と研究報告の場


都内の事業会社で分析やWebマーケティングの仕事をしている「かものはし」と申します。
大学・大学院では経済学を通じて統計解析を行うなどしておりました。
企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持つに至りました。

このブログでは
統計解析
機械学習
自然言語処理
クローリング
などのドメインに関して、
日々の業務や、手に入れた情報から不定期で共有していこうと思います。

過去の記事一覧
・分散表現を特徴量として文書分類するための方法について調べてみた
・階層ベイズモデルの直帰率分析への適用 with rstan
・確率的プログラミングライブラリ「Edward」まとめ
・RのFactoRizationMachinesパッケージを用いたFMのページビューデータへの適用
・非負値行列因子分解(NMF)でブログ記事のレコメンドをしてみる
・人工知能学会全国大会2017のWebマーケティングで参考になりそうな研究9選
・Kaggleで使われた特徴量エンジニアリングとアルゴリズムまとめ
・ベイジアンネットワークをRのbnlearnパッケージで推定して予測してみる
・洋楽の歌詞データでDoc2vecを実行してみる
・Billboard100位以内の楽曲の歌詞情報にLDAを適用してみた
・某洋楽ヒットチャートの週次ランキングデータをBeautiful Soupで集めてみた
・ラーメン二郎の某飲食店レビューサイトデータに対して共分散構造分析をしてみる
・RStanで学部時代の研究を振り返ってみる
・データマイニングに関するSlideShareを大量に集めてみた#2
・SlideShareの機械学習に関するスライドを大量に集めてみた
・言語処理学会第23回年次大会〜Webマーケティングで使えそうな発表資料まとめ〜
・PythonやRを用いたアルゴリズム取引・株価分析まとめ
・Rで株価の時系列データを簡単に集計する
・顧客生涯価値(CLV)の計算 with R
・Japan.R 2016のスライドまとめ
・『マーケティング・サイエンス入門』に出てくる手法をRで実行してみる
・Cloud Vision APIをRで動かしてみる
・大学におけるStanの講義資料などを探してみた
・ExploratoryをさわってRでGoogleSearchConsoleのデータを集計・可視化
・scikit-learnのモジュールのGitHubでの利用頻度を調べてみた
・統計的因果推論に関するスライドとRのサンプルコード
・XGBoostのパラメータチューニング実践 with Python
・不均衡なデータの分類問題について with Python
・Tokyo.R#53で得たパッケージ情報とその実践
・XGBoostやパラメータチューニングの仕方に関する調査
・GensimのHDP(Hierarchical Dirichlet Process)をクラシック音楽情報に対して試してみる
・Word2Vecでクラシックの楽曲情報をコーパスとして類似度を出してみる
・iPython notebookチャレンジ(カイ二乗検定)
・RstanでCVRの前後比較をするためのコード
・ディープラーニングの基礎まとめ
・OS X YosemiteへのTensorFlowのインストールと簡易な分類モデルの実行
・RのChannelAttributionパッケージでマルコフ連鎖モデルのアトリビューション分析にチャレンジ
・LDA(潜在的ディリクレ配分法)まとめ 手法の概要と試行まで
・Rのleafletパッケージを使って蒙古タンメン中本をプロットしてみた
・Japan.R 2015に参加して得た情報まとめ
・RstanでGoogleトレンドの推定
・推薦システムに関する参考情報
・統計解析の学習用動画まとめ
・Sparkの仕組み・導入メリット・インストール方法など
・多腕バンディットモデルに関する参考文献
・状態空間モデルに関する参考文献
・ロジスティック回帰分析に関する参考文献
・テキストマイニングに関する参考文献
・Rstanの参考文献(インストール・使い方・実践)
・海外のマーケティング系ジャーナルまとめ
・サポートベクターマシン(SVM)のまとめ・参考文献