#NumPy,pandas,SciPy.stats,matplotlibをインポートする。
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
%matplotlib inline

#ロジャー・フェデラーのデータを読み込む。カレントディレクトリにデータを置いておきましょう。
player = 'Roger Federer'
filename = "data/{name}.csv".format(
                       name=player.replace(' ', '-'))
df = pd.read_csv(filename)

#データを確認する。
print("Number of columns: " + str(len(df.columns)))
df[df.columns[:8]].tail()

Number of columns: 70

#全ポイントに占める特典の割合とエースの割合だけを表示する。
npoints = df['player1 total points total']
points = df['player1 total points won'] / npoints
aces = df['player1 aces'] / npoints

plt.plot(points, aces, '.')
plt.xlabel('% of points won')
plt.ylabel('% of aces')
plt.xlim(0., 1.)
plt.ylim(0.)

(0.0, 0.16)

#二つの列だけを持つDataFrameオブジェクトを新しく作る。
df_bis = pd.DataFrame({'points': points,
                      'aces': aces}).dropna()
df_bis.tail()

#ピアソン相関係数を計算する。
df_bis.corr()

#変数の二値化
df_bis['result'] = df_bis['points'] > df_bis['points'].median()
df_bis['manyaces'] = df_bis['aces'] > df_bis['aces'].median()

#それぞれの可能性の頻度からなる分割表を作る。
pd.crosstab(df_bis['result'], df_bis['manyaces'])

#カイ二乗検定の統計値とp値の計算（2番目の数値がp値）
st.chi2_contingency(_)

(27.809858855369555,
 1.3384233799633629e-07,
 1,
 array([[ 257.25024343,  256.74975657],
        [ 256.74975657,  256.25024343]]))

パラメータ名	デフォルトの値	役割	引数
booster	gbtree	実行するモデルのタイプをツリーモデルか線形モデルのどちらかを指定できる。	gbtree: ツリーモデル gblinear: 線形モデル
silent	0	モデルの実行結果を出力するかどうかを決めることができる。モデルを理解する上で、0のままにしておく方が良いとされている。	0:出力結果を表示する。 1:出力結果を表示しない。
nthread	not set	並列処理のためのコア数などを指定できる。フルコアで実行したい場合は何も指定しなければ自動的にフルコアになる。

パラメータ名	デフォルトの値	役割	引数
eta	0.3	学習率を調整できる。小さくすることで、モデルの頑健性を高めることができる。	0.01〜0.2の値になることが多いらしい。
min_child_weigh	1	子ノードにおいて観察されるデータの重み付けの合計値の最小の値で、過学習を避けるために用いられる。高い値にすることで特定のサンプルに観察されるような傾向を学習することを避けられる。ただし、高くし過ぎるとフィッティングが悪くなる。
max_depth	6	木の深さの最大値過学習を制御するために用いられる。高いと過学習しやすくなる。	3〜10の値になることが多いらしい。
max_leaf_nodes		木の終端ノードの最大値 max_depthの代わりに用いる n本を指定したら、n^2個の枝を生み出す。これが指定された場合は、max_depthは無効化される。
gamma	0	分割が、損失関数の減少に繋がる場合にのみノードの分割を行う。モデルをより保守的にする。値は損失関数に応じて大きく変わり、チューニングが必要である。
max_delta_step	0	各木のウェイトの推定に制約をかけることができる。 0の場合は制約なしで、正数値を取るとモデルがより保守的になる。通常は必要とされないが、不均衡データの分類の際に用いる。
subsample	1	各木においてランダムに抽出される標本の割合小さくすることで、過学習を避けることができるが保守的なモデルとなる。	0.5〜1の値になることが多いらしい。
colsample_bytree	1	各木においてランダムに抽出される列の割合	0.5〜1の値になることが多いらしい。
colsample_bylevel	1	各レベル単位での、分割における列のsubsample比率 subsampleとcolsample_bytreeで十分なので、あまり使わないが、探索してみるのも良いかもしれない。
lambda	1	重みに関するL2正則化項多くのデータサイエンティストは使わないが、過学習を避けるためには用いられるべき。
alpha	0	重みに関するL1正則化項高次元の場合に用いるらしい。
scale_pos_weight	1	不均衡データの際に、0以上の値を取ることで、収束を早めることができる。

パラメータ名	デフォルトの値	役割	引数
objective	reg:linear	最小化させるべき損失関数を指定する。	binary:logistic→2項分類で確率を返す。 multi:softmax→多項分類でクラスの値を返す。（num_classでクラス数の指定が必要） multi:softprob→softmaxと同じだが、確率を返す。
eval_metric	according to objective	検証を行うためのデータの評価指標	rmse – root mean square error mae – mean absolute error logloss – negative log-likelihood error – Binary classification error rate (0.5 threshold) merror – Multiclass classification error rate mlogloss – Multiclass logloss auc: Area under the curve
seed	0	ランダムなシード番号。再現可能なデータを生み出すために、あるいはパラメータチューニングの際に用いる。

	year	tournament	start date	type	surface	draw	atp points	atp ranking
1174	2012	Australian Open, Australia	16.01.2012	GS	Outdoor: Hard	Draw: 128	720	3
1175	2012	Doha, Qatar	02.01.2012	250	Outdoor: Hard	Draw: 32	90	3
1176	2012	Doha, Qatar	02.01.2012	250	Outdoor: Hard	Draw: 32	90	3
1177	2012	Doha, Qatar	02.01.2012	250	Outdoor: Hard	Draw: 32	90	3
1178	2012	Doha, Qatar	02.01.2012	250	Outdoor: Hard	Draw: 32	90	3

	aces	points
1173	0.024390	0.585366
1174	0.039855	0.471014
1175	0.046512	0.639535
1176	0.020202	0.606061
1177	0.069364	0.531792

カテゴリー: Python

某洋楽ヒットチャートの週次ランキングデータをBeautiful Soupで集めてみた

PythonやRを用いたアルゴリズム取引・株価分析まとめ

追記

OpenCV&Pythonで画像の類似度を計算させる〜イケメンの顔比較

scikit-learnのモジュールのGitHubでの利用頻度を調べてみた

XGBoostのパラメータチューニング実践 with Python

不均衡なデータの分類問題について with Python

XGBoostやパラメータチューニングの仕方に関する調査

GensimのHDP(Hierarchical Dirichlet Process)をクラシック音楽情報に対して試してみる

Word2Vecでクラシックの楽曲情報をコーパスとして類似度を出してみる

iPython notebookチャレンジ(カイ二乗検定)