Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects[A4一枚まで備忘録]

A4用紙1枚にまとめるイメージでメモを残そうという取り組みです。

今回はメディアミックスモデリングに関して仕事があった際に参照できるメモの一つとして残します。
先日、Python/STAN Implementation of Multiplicative Marketing Mix Modelに参考文献としてBayesian Methods for Media Mix Modeling with Carryover and Shape Effectsの存在を知りました。時系列の重回帰の一種じゃないかと思っていたんですが、天下のGoogle様がどのようにマーケティングの成果を測ろうとしているのか、この論文から知ってみようと思います。

ちなみに、Python/STAN Implementation of Multiplicative Marketing Mix Modelの写経したものはMarketingMixModelingに残しています。

このコードでマーケティングにおけるチャネルごとのROAS(Return On Advertising Spend)を推定することができます。

以下の図はコードを回すことで得られるものですが、チャネルごとのROASの事後分布となります。

この図もコードを回すことで得られるものですが、広告などの支出に関する売上の関数をフィットしたものになります。精度高くこれらの関数を求めれば、過剰に広告に投資している可能性のあるチャネルを見つけることが可能になります。

Abstract

ROASやmROASに関するアトリビューション分析をベイズモデリングで行い、事後分布から効果を推定している。
広告関連のデータが、売上などに対して、数ヶ月後に遅れて効果が現れるキャリーオーバー効果の想定、支出を増やしても効果がなくなる収獲低減の想定などをモデルに置いている。
モデルの識別に関してはBICを評価基準として用いている。

Introduction

Media mix models(MMM)はメディア支出が売上にどのように影響を与えるのかを理解するために、最適なメディア投資を行うための支出の配分を決めるために使われる。
扱うデータとしては売上、物価、プロダクトの分布、様々なメディアの支出、マクロ経済や天候、季節性、競合の情報などの外部要因が含まれる。
RCTが難しいため、あるいは傾向スコアなどのモデリングもデータが少なく難しいため、回帰分析が行われることが多い。
線形回帰だと、広告がサチっている効果（広告が飽和している状態）や収獲低減の効果も表現できない。
広告にはキャリーオーバー効果と言って、売上への効果が遅れて現れるという可能性が広く信じられている。
事前分布に広告に関する様々なノウハウを反映させることで、データ数に比して推定するパラメータの数が多い分析に向きあう。

Model Specification

モデル構築には週次データが使われるケースが多い。
売上のデータ、メディア支出のデータ、コントロール変数として売上と関係してそうなデータが扱われる。コントロール変数は業界によって異なる。
キャリーオーバー効果
$$ adstock(x_{t-L+1, m}, \dots, x_{t, m} ; w_{m} ,L) = \frac{\sum_{t=0}^{L-1} w_m(l) x_{t-l, m} }{\sum_{l=0}^{L-1} w_m(l)} $$

$ w_m(l) $は非負のウェイトでラグ期間の関数になっている。
$ L $はキャリーオーバー効果の最大期間。
$ x_{t, m} $はある期間のあるメディアへの支出。
論文ではL=13とされている。
ウェイトの関数について、メディアの売上に対する効果は徐々に減っていくが、効果が遅れて生じることもあるので、効果のピークをずらした表現も扱われている。
ウェイトの関数で最初にピークがくる場合、

$$ w_{m}^{g} (l; \alpha_{m}) = \alpha_{m}^{l}, \\ l = 0, \dots, L-1 , \\ 0 < \alpha_m < 1 $$

ウェイトの関数で遅れてピークがくる場合、

$$ w_{m}^{d} (l; \alpha_{m}, \theta_m) = \alpha_{m}^{(l – \theta)^2}, \\ l = 0, \dots, L-1 , \\ 0 < \alpha_m < 1 ,\\ 0 \leq \theta_m \leq L -1 $$

となる。
$ \alpha_m $はメディアの効果の、ある期から次の期への維持率。
$ \theta_m $は遅れてピークが現れる程度に関するパラメータ。
形状効果
$$Hill(x_{t,m};\mathcal{K}_m, \mathcal{S}_m) = \frac{1}{1+ \left (
\frac{x_{t, m}}{\mathcal{K}_m} \right )^{- \mathcal{S}_m} }, \\ x_{t, m} \geq 0 $$

$ x_{t, m} $はある期間のあるメディアへの支出。
$ \mathcal{S}_m $は形状に関するパラメータで傾きに関わるもの。
$ \mathcal{K}_m $は形状に関するパラメータでサチるポイントに関わるもの。
分子に$ \mathcal{K}_m ^{\mathcal{S}_m} $を足して引くことで、

$$ \beta_{m} Hill_{m} (x_{t, m}) = \beta_{m} – \frac{\mathcal{K}_m^{\mathcal{S}_m}\beta_{m}}{x_{t,m}^{\mathcal{S}_m}+\mathcal{K}_m^{\mathcal{S}_m}} $$

に変換できる。
なお、$ \beta_m $は各メディアの回帰係数となる。これでもって各メディア支出の売上に対する効果を見れる。パラメータの大きさによって様々な形状をとりうる。
キャリーオーバー効果と形状効果をモデルで一緒に表現する。
シンプルにするためにメディア間のシナジー効果を無視している。

$$ y_t = \tau + \sum_{m=1}^{M} \beta_m Hill(x_{t, m }^{*}; \mathcal{K}_m,\mathcal{S}_m) + \sum_{c=1}^{C} \gamma_{c}z_{t, c} + \epsilon_t $$

$ y_t $は売上。
$ x_{t, m }^{*} = adstock(x_{t-L+1, m}, \dots, x_{t, m} ; w_{m}, L) $は前述の広告支出のキャリーオーバー効果を表現したもの。
$ \tau $は広告支出によらないベースラインの売上。
$ z_{t,c} $はコントロール変数。
$ \gamma_c $はコントロール変数の係数。
$ \epsilon_t $はホワイトノイズ。

Estimating the Bayesian Model

階層ベイズに拡張することもできる。
ハイパーパラメータはメディアの効果が非負であるとか、割合は0から1だとか色々と事前情報として設定する。

Attribution Metrics and Optimal Media Mix

経路ごとのROSAやmROASを計算してメディアの最適化をしたい。
メディアに投資することでの予測売上と、投資なかった場合の売上の差分でもって成果を測る。
ROASの定義式
$$ ROAS_{m} = \frac{\sum_{t_{0} \leq t \leq t_{1} + L – 1 } \hat Y_{t}^{m} (x_{t-L+1, m}, \dots, x_{t, m}; \Phi) – \hat Y_{t}^{m} (\tilde{x}_{t-L+1, m}, \dots, \tilde{x}_{t, m}; \Phi) }{\sum_{t_{0} \leq t \leq t_{1}} x_{t, m} } $$

$ \hat{Y} $は売上の予測。
$ \tilde{x} $はメディアの支出の変化。
mROASの定義式
$$ mROAS_{m} = \frac{\sum_{t_{0} \leq t \leq t_{1} + L – 1 } \hat Y_{t}^{m} (\tilde{\tilde{x}}_{t-L+1, m}, \dots, \tilde{\tilde{x}}_{t, m}; \Phi) – \hat Y_{t}^{m} (x_{t-L+1, m}, \dots, x_{t, m}; \Phi) }{ 0.01 \times \sum_{t_{0} \leq t \leq t_{1}} x_{t, m} } $$

$ \hat{Y} $は売上の予測。
$ \tilde{\tilde{x}} $はメディアの支出の1%の変化。
ROASの分布は事後分布と上述の定義式から得られる。
メディアミックスの最適化
予算という制約付きの極値問題を解く。ラグランジュ未定乗数法を用いる。

Application to a Simulated Data Set

シミュレーションしたデータを使っている。2年間の週次のデータで、売上、3つのメディア、一つのコントロール変数からなる。

Impact of Sample Size on Estimation Accuracy

単一のデータセットのみで評価することが難しいので、それぞれが独立した500個のデータセットを生成し、それぞれ推定をしている。

Choice of Priors

サンプルサイズが小さい場合、事後分布が事前分布の影響を大きく受けるため、事前分布に関して色々と考察している。
$ \beta $に関する事前分布。設定次第で結構変わる。メディアの支出にかかってくるので分析に与える影響は大きい。
$ \mathcal{K}_m $に関する事前分布。要はサチるポイントに関するもの。設定次第でグラフの挙動が結構変わる。

Application to Real Data and Model Selection

シャンプーの広告主の実際のデータを使って分析。
2.5年の週次データで、反応変数として売上、メディアデータとしてTV・雑誌・ディスプレイ・YouTube・検索、コントロール変数として小売のデータ（平均オンスあたり価格）・重み付けされた全商品の流通量や広告量が扱われている。
BICを頼りにモデルを選択した。BICは事後分布のデータから計算できる。

Conclusion

メディアミックスモデルはモデルの識別によって結果が大きく変わる。
ベイズモデルでキャリーオーバー効果や形状効果を考慮したモデルを求め、それらの事後分布からROASやmROASを計算した。
データ数が少ないとバイアスの伴った推定となる。事前情報の選定にも慎重になるべき。
BICでモデルを識別した結果、キャリーオーバー効果や形状効果を想定した設定が選ばれた。
残差に自己相関があったため、今回のモデルはまだ不完全で改善の余地がある。

[Python]Music×AnalyticsというイベントでLTをやってきましたレポート

今回はゆるめで、あるイベントのLTに参加してきた感想やら、資料やら動画やらソースコードを共有するだけの記事となっております。

ことの成り行き

Tokyo.Rでお世話になっているy__mattuさんから、「Music×Analytics Meetup Vol.4」のイベントのことを教えていただき、せっかくなのでLTをさせてもらえることになりました。

音楽の分析に関して入門レベルなので果たして参加者が盛り上がってくれる何かを提供できるか不安でした。

納期的にも、今の実力的にも過去に書いたブログ([Python]スペクトグラムで楽器の試奏データを比較（プロ奏者とも）)の延長線上のことでいいなと思ったんですが、
先行研究は欲しいし、分析対象の音楽もスケール(音階)ではなく何かの曲が良いと思いました。あと、意外な情報も載せたい、分析結果を活かして便益を得たいとも思いました。

なので、LTまでに先行研究を見つけ、意外な情報としてjupyter notebookで録音する機能を見つけ、分析対象の曲にギャツビーのCMのものを採用しました。
そして、この研究から自分の楽器の演奏の腕前を向上させることができました。
これならLTとして発表しても入門レベルでも楽しいのではないかなと思いました。

LT内容

Google Presentationと事前に録音したYoutubeをこちらに載せておきます。

[Music×Analytics]プロの音に近づくための研究と練習 from Teruyuki Sakaue

発表音声の文字起こし

LTを7分以内に抑えるリハーサルをした際の音声があったので、それをGoogle Speech To Text APIを使って文字起こしをしておきます。
「それではその音に近づくための研究と練習ということで江口さん自己紹介ですが名前は救えバックグランドは経済学や統計学仕事では同席部のマネージャー兼データ分析さんはこんな感じで趣味はトランペットブログ作成をやってるので良かったみてください結局どうしたんですけどその他データ分析関連のかって言いよったでどうやって勝手の音消したいなって思いますがここまでのホスピスがまずあって写真撮って進度が速い遅いである時と言うとって治ってるということですが音の長さが変わりますなのでお体変わります秘密のピストンだけなので発送の仕方ありませんのでコントロールして40種類ぐらいのレベルからは死んだことに帰って前記処理学会のそれの大会でスペクトルグラムを使ってプロのアクセスをしたのとの比較ではその方向の出来不出来を判定すると犬が行われていました鬼時間に周波数色の濃淡で信号ってなっちゃったから明日グラフとなりますがこの場合は時間が12秒まであって周波数が8000まで行ってあのね精神旺盛な強さが違ってます本当の鳴き声何もとしてるの俺も行ってここだったから体操マット耐熱耐酸プルマンちょっと寄りますよねプレイヤーの力も貸したして自分との違いを明らかにして違いがある場合とならそこによるそれが産めるのかお話していきたいと思ってます結果こんな感じえーとまずはサイトメトロ ffmpeg をインストールしてああいパイソン mrtg をインストールしたギターの音は愛想の良いしらすを呼び出してこういう形で書くことでノートブックので他のところでエロ金ボタンが現れますこれ音声は録音開始でもう一度録音するようになっていますその後に録音したファイルを保存 SMS でまあ16000hz 2のファイルに変換してまた再読み込みという形があってもはい録音環境としてはわからないぞマイクでして何楽器はちょっと古いので今回あったのがという音楽などの分析見ております玄関のために必要なセッティングってのがあるんでは基本的なセッティングで言っても実際に自分のそれかしたら私に出てきますね自分のやってみようと思いますまず聞いてみましょう第4フォルマント信号の強さがえっと Pro は赤いんですけど強いんですけど出してもらうわいえ私なってます遅く音源第4フォルマントの方がやっぱり行けないなっていうのが分かれば鼻が詰まってるから行けないっていましたねと自分ではまあ剛てる所間違いが分かりましたどうしたら強い信号になってるのかその女お腹に力を入れる行きの数量変えるとかありますもうなんかの力を入れて強いわ強い力を込めてもっと明るくならなかったにやと言われるとも出てこなくなったよ沢山入ったとこですねこれで第4子が赤くなるのはこれまで行きの量が足りてなかった自分じゃなかったじゃないかっていうので行ってみましょう早くなりましたねでスタグラムに従ってくると自分の音が帰宅したところ息を吸う量を多くすることで気分良くなることがわかりました待機するのって管楽器重要な今なってどれぐらい剃ったらいいのか分かんなかったり根性論だったりするんでこれは便利だねまあは管楽器にも分からなくなって鳴るんですけど G 計り方とかあると結婚もしないからっても行きたいのでくれてありがとうございました」

ソースコード（LT）

こちらではLTのために使ったスペクトログラムを表示するためのコードを共有します。

# 録音用のコード
from ipywebrtc import AudioRecorder, CameraStream
camera = CameraStream(constraints={'audio': True,'video':False})
recorder = AudioRecorder(stream=camera)
recorder

# 録音用のコード

from ipywebrtc import AudioRecorder, CameraStream

camera = CameraStream(constraints={'audio': True,'video':False})

recorder = AudioRecorder(stream=camera)

recorder

# 変換と読み込み用のコード

from IPython.display import Audio
from scipy.io import wavfile
import numpy as np

with open('recording.webm', 'wb') as f:
    f.write(recorder.audio.value)
    
!ffmpeg -i recording.webm -ac 1 -ar 16000\
-f wav file.wav -y -hide_banner -loglevel panic

sr, sig  =  wavfile.read("file.wav")
Audio(sig, rate=sr)

# 変換と読み込み用のコード

from IPython.display import Audio

from scipy.io import wavfile

import numpy as np

with open('recording.webm', 'wb') as f:

f.write(recorder.audio.value)

!ffmpeg -i recording.webm -ac 1 -ar 16000\

-f wav file.wav -y -hide_banner -loglevel panic

sr, sig = wavfile.read("file.wav")

Audio(sig, rate=sr)

 # スペクトログラム表示用
import numpy as np
from scipy.io import wavfile
from IPython.display import Audio

import librosa
import librosa.display
import matplotlib.pyplot as plt

sr, sig  =  wavfile.read("file.wav")
# 16bitの音声ファイルのデータを-1から1に正規化
data = sig / 32768

# フレーム長
fft_size = 1024                 

# フレームシフト長 
hop_length = int(fft_size / 4)  
 
# 短時間フーリエ変換実行
amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))
 
# 振幅をデシベル単位に変換
log_power = librosa.core.amplitude_to_db(amplitude)
 
# グラフ表示
librosa.display.specshow(log_power, sr=sr, hop_length=hop_length, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')  
plt.title('player 1')
plt.show()

# スペクトログラム表示用

import numpy as np

from scipy.io import wavfile

from IPython.display import Audio

import librosa

import librosa.display

import matplotlib.pyplot as plt

sr, sig = wavfile.read("file.wav")

# 16bitの音声ファイルのデータを-1から1に正規化

data = sig / 32768

# フレーム長

fft_size = 1024

# フレームシフト長

hop_length = int(fft_size / 4)

# 短時間フーリエ変換実行

amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))

# 振幅をデシベル単位に変換

log_power = librosa.core.amplitude_to_db(amplitude)

# グラフ表示

librosa.display.specshow(log_power, sr=sr, hop_length=hop_length, x_axis='time', y_axis='hz')

plt.colorbar(format='%+2.0f dB')

plt.title('player 1')

plt.show()

ソースコード（文字起こし）

Google Speech To Text APIで文字起こしをする際のコードをここに載せておきます。

# ffmpegでの処理
ffmpeg -y -i audio_only.m4a -ac 1 audio_only.wav
ffmpeg -y -i audio_only.wav -af "highpass=f=200, lowpass=f=3000" audio_only_filtered.wav
ffmpeg -y -i audio_only_filtered.wav -ar 44100 audio_only_filtered_441.wav

# ffmpegでの処理

ffmpeg -y -i audio_only.m4a -ac 1 audio_only.wav

ffmpeg -y -i audio_only.wav -af "highpass=f=200, lowpass=f=3000" audio_only_filtered.wav

ffmpeg -y -i audio_only_filtered.wav -ar 44100 audio_only_filtered_441.wav

GCSのバケットを作っておきます。今回はperry_voiceという名前のバケットを作っておきました。先ほど作ったaudio_only_filtered_441.wavを、このバケットにあげておきます。

APIの認証用のjsonファイルをcloud shellにアップロードしておきます。jsonファイルはGCPのコンソールの認証情報からサービスアカウントキーを作成し、「鍵を追加」の項目からjsonファイルを選択して手に入れることができます。（当然、Google Speech To Text APIのAPIを有効にしておく必要があります。）
1ヶ月につき60分までは無料なので、今回の処理も無料でできます。（GCSは数円かかると思いますが。）

# cloud shellの設定
pip install google.cloud
pip install google-cloud-speech
pip install --upgrade google-cloud-storage
export GOOGLE_APPLICATION_CREDENTIALS="認証用のjsonファイル名"

# cloud shellの設定

pip install google.cloud

pip install google-cloud-speech

pip install --upgrade google-cloud-storage

export GOOGLE_APPLICATION_CREDENTIALS="認証用のjsonファイル名"

# cloud shell上で実行するPythonコード（speech2text_run.pyとして保存）
# !/usr/bin/env python
# coding: utf-8

import argparse
import io
import sys
import codecs
import datetime
import locale
import re
from google.cloud import storage

def upload_blob(bucket_name, source_file_name, destination_blob_name):
    """Uploads a file to the bucket."""
    storage_client = storage.Client()
    bucket = storage_client.get_bucket(bucket_name)
    blob = bucket.blob(destination_blob_name)

    blob.upload_from_filename(source_file_name)


def transcribe_gcs(gcs_uri):
    from google.cloud import speech_v1 as speech
    from google.cloud.speech_v1 import enums
    from google.cloud.speech_v1 import types

    client = speech.SpeechClient()
    audio = types.RecognitionAudio(uri=gcs_uri)

#    d_config = types.SpeakerDiarizationConfig(
#                enable_speaker_diarization=False,
#                min_speaker_count=2,
#                max_speaker_count=3
#                )

    config = types.RecognitionConfig(
        sample_rate_hertz=44100,
        encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
        language_code='ja-JP',
        audio_channel_count=1,
#        enable_word_time_offsets=True,
        profanity_filter=True,
#        diarization_config=d_config,
        # min_speaker_count=2,
        # max_speaker_count=3
        speech_contexts=[types.SpeechContext(
            phrases=["トランペット"])]
        )

    operation = client.long_running_recognize(config, audio)

    print('Waiting for operation to complete...')
    operationResult = operation.result()

    uri = re.sub('gs://perry_voice/', '',gcs_uri)
    fout2 = codecs.open('{}_output.txt'.format(uri), 'a', 'shift_jis')


    for result in operationResult.results:
        alternative = result.alternatives[0].transcript
        fout2.write(alternative)

    fout2.close()

    upload_blob('perry_voice','{}_output.txt'.format(uri),  '{}_output.txt'.format(uri))


if __name__ == '__main__':
    parser = argparse.ArgumentParser(
        description=__doc__,
        formatter_class=argparse.RawDescriptionHelpFormatter)
    parser.add_argument(
        'path', help='GCS path for audio file to be recognized')
    args = parser.parse_args()
    transcribe_gcs(args.path)

# cloud shell上で実行するPythonコード（speech2text_run.pyとして保存）

# !/usr/bin/env python

# coding: utf-8

import argparse

import io

import sys

import codecs

import datetime

import locale

import re

from google.cloud import storage

def upload_blob(bucket_name, source_file_name, destination_blob_name):

"""Uploads a file to the bucket."""

storage_client = storage.Client()

bucket = storage_client.get_bucket(bucket_name)

blob = bucket.blob(destination_blob_name)

blob.upload_from_filename(source_file_name)

def transcribe_gcs(gcs_uri):

from google.cloud import speech_v1 as speech

from google.cloud.speech_v1 import enums

from google.cloud.speech_v1 import types

client = speech.SpeechClient()

audio = types.RecognitionAudio(uri=gcs_uri)

# d_config = types.SpeakerDiarizationConfig(

# enable_speaker_diarization=False,

# min_speaker_count=2,

# max_speaker_count=3

# )

config = types.RecognitionConfig(

sample_rate_hertz=44100,

encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,

language_code='ja-JP',

audio_channel_count=1,

# enable_word_time_offsets=True,

profanity_filter=True,

# diarization_config=d_config,

# min_speaker_count=2,

# max_speaker_count=3

speech_contexts=[types.SpeechContext(

phrases=["トランペット"])]

)

operation = client.long_running_recognize(config, audio)

print('Waiting for operation to complete...')

operationResult = operation.result()

uri = re.sub('gs://perry_voice/', '',gcs_uri)

fout2 = codecs.open('{}_output.txt'.format(uri), 'a', 'shift_jis')

for result in operationResult.results:

alternative = result.alternatives[0].transcript

fout2.write(alternative)

fout2.close()

upload_blob('perry_voice','{}_output.txt'.format(uri), '{}_output.txt'.format(uri))

if __name__ == '__main__':

parser = argparse.ArgumentParser(

description=__doc__,

formatter_class=argparse.RawDescriptionHelpFormatter)

parser.add_argument(

'path', help='GCS path for audio file to be recognized')

args = parser.parse_args()

transcribe_gcs(args.path)

# cloud shellでPythonコードをキックする用
python speech2text_run.py gs://perry_voice/audio_only_filtered_441.wav

1 2	# cloud shellでPythonコードをキックする用 python speech2text_run.py gs://perry_voice/audio_only_filtered_441.wav

文字起こし結果はGCSのperry_voiceの中にあります。

他の発表から学んだこと

深層学習を用いたJazz音楽の研究や、音楽の理論、DJプレイの自動化の研究、声の変換技術など同じ音という題材ながらも幅広く話を聞くことができました。私だけ入門な内容で申し訳ない気持ちが生じましたが、これからこの分野を深めるのもプレイヤーとして面白いなと思ったので、長く学ばせてもらおうと思います。

懇親会で学んだこと

・NVIDIAのノイズリダクション技術は文字起こしの際にやってみる価値あり
・賃貸の場合、防音の部屋は家賃相場の2~3万円アップ
・口周辺の筋肉の研究をされている方がいる（論文でその分野があるのは知っていたが、実験をやっていた方に会えた）
・みな、条件を揃えるためにマイクや集音の仕方にこだわりがあった。
・いい音の定義にやはり答えはない。

[Python]仕事で使えそうな確率まとめ

本来、正月の企画物としてアイデアを出していたものの、作成する時間がとれなかったのですが、日常的にもっと確率に従って生活できたら面白いなと思って作ってみることにしました。

二項分布

やりたいこと
オフィスにおいて、チームごとにデスク周辺の掃除当番を毎日乱数で決めているとして、1ヶ月で自分がどれくらい掃除をやらなくてはいけないのかを知りたい。あるいは、1回の掃除で済む確率とか、10回掃除する確率とかを知りたい。

これは、成功確率p（掃除当番になる確率 = 1÷チームの人数）でのN回の独立なベルヌーイ試行となり、自分が掃除当番になった場合X=1で、そうでない場合はX=0となる。
N回ベルヌーイ試行した際のXの合計は二項分布従うので、N回試行して、Xがkになる確率は以下のように示される。（チームの人数はHとする。）

$$ P(Y_N = k ) = {}_N C _k \left (\frac{1}{H} \right )^k \left ( 1- \frac{1}{H} \right )^{N-k} \\
(0 \leq k \leq N )$$

コード

from scipy.stats import binom
import matplotlib.pyplot as plt

H = 10 # チーム人数
D = 20 # 営業日

n, p = D,  1/H

# 平均、分散、歪度、尖度
mean, var, skew, kurt = binom.stats(n, p, moments='mvsk')

print('平均：',mean)

fig, ax = plt.subplots(1, 1)

x = range(D + 1)
ax.plot(x, binom.pmf(x, n, p, loc=0), 'bo', ms=8, label='binom pmf')
ax.vlines(x, 0, binom.pmf(x, n, p), colors='b', lw=5, alpha=0.5);
ax.set_xlabel("count"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("Probability mass function");

from scipy.stats import binom

import matplotlib.pyplot as plt

H = 10 # チーム人数

D = 20 # 営業日

n, p = D, 1/H

# 平均、分散、歪度、尖度

mean, var, skew, kurt = binom.stats(n, p, moments='mvsk')

print('平均：',mean)

fig, ax = plt.subplots(1, 1)

x = range(D + 1)

ax.plot(x, binom.pmf(x, n, p, loc=0), 'bo', ms=8, label='binom pmf')

ax.vlines(x, 0, binom.pmf(x, n, p), colors='b', lw=5, alpha=0.5);

ax.set_xlabel("count"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("Probability mass function");

平均では20営業日で2回は掃除することになりますが、4回以上掃除しないといけない確率が10%以上はあることがわかります。掃除が嫌いな人は、苦しみの上限をイメージできると楽なのではないかと思うので、確率に従い掃除当番を甘んじて受け入れましょう。

参考情報
scipy.stats.binom

matplotlib.pyplot.grid

多項分布

やりたいこと
先ほどのように乱数で掃除当番を割り当て、それをランキングにし、一位を掃除大臣として称号を付与するものとする。10名いるもののうち、上位のメンバーA・メンバーBとで累積の掃除回数がそれぞれ10回、6回としたもとで次の月に掃除大臣が入れ替わる確率を計算したい。

コード

import math

H = 10 # チーム人数
D = 20 # 営業日

# あるメンバーがa回当たり、あるメンバーがb回当たる確率
def calc_prob_multinomial(a, b, H=H, D=D):
    return math.factorial(D) / (math.factorial(a) * math.factorial(b) * math.factorial(D - a - b)) * (1 / H)**(a) * (1 / H)**(b) * (1 - 2 / H )**(D - a - b)

base_a = 10 # メンバーaの現在の掃除回数
base_b = 6 # メンバーbの現在の掃除回数
gap = base_a - base_b # 差分

prob_sum = 0.0
for i in range(D + 1):
    for j in range(1, D + 1):
        b = gap + i + j  # 差分に1を足すことで負けるケースを計算（b = jにしたら確率の合計は1になった。）
        if b + i  < D + 1: # 合計が月数を超えないようにする。
            prob_sum = prob_sum + calc_prob_multinomial(i, b, H=H, D=D) # 確率を足す。
        
print('sum:',prob_sum)

import math

H = 10 # チーム人数

D = 20 # 営業日

# あるメンバーがa回当たり、あるメンバーがb回当たる確率

def calc_prob_multinomial(a, b, H=H, D=D):

return math.factorial(D) / (math.factorial(a) * math.factorial(b) * math.factorial(D - a - b)) * (1 / H)**(a) * (1 / H)**(b) * (1 - 2 / H )**(D - a - b)

base_a = 10 # メンバーaの現在の掃除回数

base_b = 6 # メンバーbの現在の掃除回数

gap = base_a - base_b # 差分

prob_sum = 0.0

for i in range(D + 1):

for j in range(1, D + 1):

b = gap + i + j # 差分に1を足すことで負けるケースを計算（b = jにしたら確率の合計は1になった。）

if b + i < D + 1: # 合計が月数を超えないようにする。

prob_sum = prob_sum + calc_prob_multinomial(i, b, H=H, D=D) # 確率を足す。

print('sum:',prob_sum)

計算したところ、1.2%くらいになった。このケースにおいてAさんがBさんに次の月に掃除大臣の座を奪われる可能性は低いらしい。

参考情報
scipy.special.comb

誕生日の問題

やりたいこと
あまりにも有名な確率の話で、誕生日のパラドックスとも呼ばれています。誕生日が同じ人が部署内にいる確率が0.5を超える人数は何人か？

コード

import matplotlib.pyplot as plt

N = 50 # メンバーの数の上限
D = 365 # 誕生日の数

def calc_prob_birth(N=N, D=D):
    prob = 1.0
    for i in range(1, N):
        prob = (1 - i /D) * prob

    return 1 - prob

fig, ax = plt.subplots(1, 1)

x = range(2 ,N + 1)
probability = list(map(lambda x:calc_prob_birth(N=x) , x))
ax.plot(x, probability, 'bo', ms=8)
ax.hlines(y=0.5, xmin= 0, xmax=N, color='r');
ax.set_xlabel("the number of classmate"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("Probability");

import matplotlib.pyplot as plt

N = 50 # メンバーの数の上限

D = 365 # 誕生日の数

def calc_prob_birth(N=N, D=D):

prob = 1.0

for i in range(1, N):

prob = (1 - i /D) * prob

return 1 - prob

fig, ax = plt.subplots(1, 1)

x = range(2 ,N + 1)

probability = list(map(lambda x:calc_prob_birth(N=x) , x))

ax.plot(x, probability, 'bo', ms=8)

ax.hlines(y=0.5, xmin= 0, xmax=N, color='r');

ax.set_xlabel("the number of classmate"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("Probability");

参考情報
誕生日のパラドックス
 matplotlib.pyplot.hlines

ファーストサクセス分布

やりたいこと
アルバイトの面接を受けるとして、その合格率が1/30だとして、何回くらい面接しても合格できないものだろうか。苦しみの上限を知りたい。20回、30回面接を受けた時に合格できてない確率はどれくらいだろうか。何回くらい面接を受けたら合格できていない確率を1%未満に下げれるだろうか。
成功確率がpのベルヌーイ試行を独立に何回も行うとき、初めて成功数までに失敗した回数をXとして、初めて成功した際の試行回数をYとした場合、その確率は$ k \geq 1 $として、

$$ P(Y = k) = P(X=k-1)=p(1-p)^{k-1} $$

と表すことができる。これをパラメータpのファーストサクセス分布と呼ぶ。（幾何分布とも呼ぶ。）

コード

J = 1/ 30 # 面接合格率

def calc_prob_first_success(J=J, k=k):
    return (J) * (1- J )**(k-1)

fig, ax = plt.subplots(1, 1)

x = range(1 , 10000) # 無視できるくらい伸ばしておく。
probability = list(map(lambda x:calc_prob_first_success(k=x,) , x))
probability_sum = list(map(lambda x:1 - sum(probability[:x]) , x))
length = 90 # 90回の失敗までを見る。

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)
ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("the probability we can not success on the number of failure");

J = 1/ 30 # 面接合格率

def calc_prob_first_success(J=J, k=k):

return (J) * (1- J )**(k-1)

fig, ax = plt.subplots(1, 1)

x = range(1 , 10000) # 無視できるくらい伸ばしておく。

probability = list(map(lambda x:calc_prob_first_success(k=x,) , x))

probability_sum = list(map(lambda x:1 - sum(probability[:x]) , x))

length = 90 # 90回の失敗までを見る。

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)

ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1); ax.set_title("the probability we can not success on the number of failure");

20回面接をしても合格できない確率はおよそ50%。30回面接しても合格できない確率はおよそ36%。合格できない確率が1%を切るのは面接回数が135回になった時。このレベルを追い求めると心が折れる面接回数なのかもしれない。

参考情報
弱点克服大学生の確率・統計

負の二項分布

やりたいこと
ある営業がリンゴを売る仕事をしておりタウンページで飲食店に電話をかけているとする、商談の予約が取れる確率(p)が0.05として、商談予約が5(n)回起きるまでに失敗がk回生じる確率について知りたい。いったい、この営業は飲食店にどれくらい商談をお断りをされる覚悟で臨めばいいのか。

このような事象は負の二項分布に従うので、
$$ P(X = k) = {}_{n – 1 + k} C _k p^{n-1}(1-p)^k $$
という確率に従う。
なお、この分布の期待値は
$$ E(X) = \frac{n(1-p)}{p} $$
に従う。

コード

import matplotlib.pyplot as plt
import math

prob = 1/ 20 # リンゴ営業の商談予約できる確率
n = 5 # 営業の目標である商談予約の回数

# 負の二項分布の確率密度関数
def calc_prob_nb(prob=prob, K=K, n=n):
    return math.factorial(K+n-1) / (  math.factorial(n-1) * math.factorial(  K+n-1 - (n-1) )) *(prob)**n * ( 1- prob )**K

fig, ax = plt.subplots(1, 1)

x = range(1 , 200)
probability = list(map(lambda x:calc_prob_nb(prob=prob, K=x, n=n) , x))
length =200

ax.plot(x[:length], probability[:length], 'bo', ms=8)
ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1);
ax.set_title("Probability until the success happens on five times");

import matplotlib.pyplot as plt

import math

prob = 1/ 20 # リンゴ営業の商談予約できる確率

n = 5 # 営業の目標である商談予約の回数

# 負の二項分布の確率密度関数

def calc_prob_nb(prob=prob, K=K, n=n):

return math.factorial(K+n-1) / ( math.factorial(n-1) * math.factorial( K+n-1 - (n-1) )) *(prob)**n * ( 1- prob )**K

fig, ax = plt.subplots(1, 1)

x = range(1 , 200)

probability = list(map(lambda x:calc_prob_nb(prob=prob, K=x, n=n) , x))

length =200

ax.plot(x[:length], probability[:length], 'bo', ms=8)

ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1);

ax.set_title("Probability until the success happens on five times");

75回くらいの失敗で確率自体のピークがきている。期待値だと95回だが、確率のピークはもっと手前にある。

累積確率を知りたい場合はこちらのコード

fig, ax = plt.subplots(1, 1)

x = range(1 , 200) # 無視できるくらい伸ばしておく。
probability = list(map(lambda x:calc_prob_nb(prob=prob, K=x, n=n) , x))
probability_sum = list(map(lambda x:sum(probability[:x]) , x))
length =200

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)
ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1);
ax.set_title("Cumulative probability until the success happens on five times");

fig, ax = plt.subplots(1, 1)

x = range(1 , 200) # 無視できるくらい伸ばしておく。

probability = list(map(lambda x:calc_prob_nb(prob=prob, K=x, n=n) , x))

probability_sum = list(map(lambda x:sum(probability[:x]) , x))

length =200

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)

ax.set_xlabel("the number of failure"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1);

ax.set_title("Cumulative probability until the success happens on five times");

80%のところで125回なので、5人に一人は期待値の95回を30回くらいは超えてしまってもおかしくないということになる。そして、5人に一人くらいは50〜60回で達成できるラッキーな人もいる。

参考情報
弱点克服大学生の確率・統計

ポアソン分布

やりたいこと
先ほど、営業が飲食店に売ったリンゴの中に芋虫が住み付いているケースが500回に1回の頻度で発生し、営業と顧客の間でトラブルに発展するとする。年間に1200の飲食店と取引を行うが、トラブルはどれくらい発生するものなのか。
顧客とのトラブルが発生する回数がYだとした際に、ポアソン分布に従うとした場合、
$$P(Y = k) = \frac{\lambda^k}{k!} e^{-\lambda} $$
となる。ここで、
$$ \lambda = 1200 \times \frac{1}{500} $$
とおく。
なお、期待値と分散はともに
$$ E(Y) = V(Y) = \lambda $$
となる。

コード

import matplotlib.pyplot as plt
import math
import numpy as np

lamda = 1200 * (1 /500 )

def calc_prob_poisson(lamda=lamda, K=K):
    return lamda**K / math.factorial(K) * np.exp(-lamda)

fig, ax = plt.subplots(1, 1)

x = range(0 , 10)
probability = list(map(lambda x:calc_prob_poisson(lamda=lamda, K=x) , x))
length =10

ax.plot(x[:length], probability[:length], 'bo', ms=8)
ax.set_xlabel("the number of trouble"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1);

import matplotlib.pyplot as plt

import math

import numpy as np

lamda = 1200 * (1 /500 )

def calc_prob_poisson(lamda=lamda, K=K):

return lamda**K / math.factorial(K) * np.exp(-lamda)

fig, ax = plt.subplots(1, 1)

x = range(0 , 10)

probability = list(map(lambda x:calc_prob_poisson(lamda=lamda, K=x) , x))

length =10

ax.plot(x[:length], probability[:length], 'bo', ms=8)

ax.set_xlabel("the number of trouble"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1);

トラブルが2回の時が確率が一番高い。0回で済む確率も0.1に近いくらいはある。

fig, ax = plt.subplots(1, 1)

x = range(0 , 10)
probability = list(map(lambda x:calc_prob_poisson(lamda=lamda, K=x) , x))
probability_sum = list(map(lambda x:sum(probability[:x]) , x))
length = 10

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)
ax.set_xlabel("the number of trouble"); ax.set_ylabel("probability");
ax.grid(color='b', linestyle='-', linewidth=0.1);
ax.set_title("Cumulative probability");

fig, ax = plt.subplots(1, 1)

x = range(0 , 10)

probability = list(map(lambda x:calc_prob_poisson(lamda=lamda, K=x) , x))

probability_sum = list(map(lambda x:sum(probability[:x]) , x))

length = 10

ax.plot(x[:length], probability_sum[:length], 'bo', ms=8)

ax.set_xlabel("the number of trouble"); ax.set_ylabel("probability");

ax.grid(color='b', linestyle='-', linewidth=0.1);

ax.set_title("Cumulative probability");

5人に一人は4回以上のトラブルに巻き込まれる気の毒な営業がいそうですね。まぁ、リンゴの中は開けてみないとわかりませんから、顧客トラブルがあっても恨みっこなしで頑張りましょう。

参考情報
弱点克服大学生の確率・統計

フィギュア集め問題

やりたいこと
現場猫フィギュアのガチャポンに関心があるとする。N回ガチャポンを回した時に、N種類の現場猫フィギュアが全部揃う確率はどれくらいだろうか？（どの現場猫のフィギュアも出現確率は同じものとする。）
また、N+1回ガチャポンを回したとき、N種類の全部が揃う確率はどれくらいだろうか？あるいは、m回ガチャポンを回してそろったフィギュアの数の期待値は？そして、Y回目のガチャポンではじめてN種類の現場猫の全部揃う、Yの期待値は？

・N回ガチャポンを回した時に、N種類の現場猫フィギュアが全部揃う確率：
$$\frac{N!}{N^N}$$

・N+1回ガチャポンを回したとき、N種類の全部が揃う確率：
$$ N \times \frac{(N+1)!}{2} \times \frac{1}{N^{N+1}} $$

・m回ガチャポンを回してそろったフィギュアの種類$ X_m $の期待値：
m回ガチャポンを回してそろったフィギュアの種類$ X_m $を以下のように表す。
$$X_m = Z_1 + Z_2 + \dots + Z_N$$
m回ガチャポンを引いて、当たらないということは
$$ P(Z_i = 0) = \left ( \frac{N – 1}{N} \right )^m $$
ということになる。
これをもとに$ Z_i $の期待値を計算すると

$$ E(Z_i) = 1 \times \left ( 1 – \left ( \frac{N – 1}{N} \right )^m \right ) + 0 \times \left ( \frac{N – 1}{N} \right )^m \\
= 1 – \left( \frac{N-1}{N} \right )^m $$
よって、$ X_m $の期待値は
$$ E(X_m) = E( Z_1 + \dots + Z_N) \\
= N \left ( 1 – \left( \frac{N-1}{N} \right )^m \right )$$

となる。

・Y回目のガチャポンではじめてN種類のフィギュアが揃う際のYの期待値：
i-1種類からi種類になるまでのガチャポンの回す回数を$ T_i $として、その階差がファーストサクセス分布に従うとする。
$$ T_i – T_{i-1} \sim F_s \left ( \frac{N – i + 1}{N} \right ) $$
その場合、Yの期待値は以下のようになる。

$$ E(Y) = E( T_N ) \\
= E( (T_{N} – T_{N-1}) + (T_{N-1} – T_{N-2}) + \dots + (T_{2} – T_{1}) + T_{1} ) \\
= E \left ( F_s \left ( \frac{1}{N} \right ) + F_s \left ( \frac{2}{N} \right ) \dots + F_s \left ( \frac{N-1}{N} \right ) + 1 \right ) \\
= N \left ( 1 + \frac{1}{2} + \dots + \frac{1}{N} \right )
$$

コード

import matplotlib.pyplot as plt
import math

N = 5 # 現場猫フィギュアの種類
m = 5 # 回すガチャポンの回数m

# N回ガチャポンを回した時に、N種類の現場猫フィギュアが全部揃う確率
print(math.factorial(N) / (N ** N))


# N+1回ガチャポンを回したとき、N種類の全部が揃う確率
print(N * math.factorial(N+1) / 2 * (1/N**(N+1)) )


# m回ガチャポンを回してそろったフィギュアの数のXの期待値
print(N * (1 - ((N-1)/N)**m  ))


# Y回目のガチャポンではじめてN種類のフィギュアが揃う際のYの期待値
def harmonic_series_sum(n): 
    i = 1
    s = 0.0
    for i in range(1, n+1): 
        s = s + 1/i; 
    return s; 

print(N * (harmonic_series_sum(N)))

import matplotlib.pyplot as plt

import math

N = 5 # 現場猫フィギュアの種類

m = 5 # 回すガチャポンの回数m

# N回ガチャポンを回した時に、N種類の現場猫フィギュアが全部揃う確率

print(math.factorial(N) / (N ** N))

# N+1回ガチャポンを回したとき、N種類の全部が揃う確率

print(N * math.factorial(N+1) / 2 * (1/N**(N+1)) )

# m回ガチャポンを回してそろったフィギュアの数のXの期待値

print(N * (1 - ((N-1)/N)**m ))

# Y回目のガチャポンではじめてN種類のフィギュアが揃う際のYの期待値

def harmonic_series_sum(n):

i = 1

s = 0.0

for i in range(1, n+1):

s = s + 1/i;

return s;

print(N * (harmonic_series_sum(N)))

N回ガチャポンを回した時に、N種類の現場猫フィギュアが全部揃う確率：
0.0384
N+1回ガチャポンを回した時、N種類の現場猫フィギュア全部が揃う確率：
0.1152
m回ガチャポンを回して揃った現場猫フィギュアの種類Xの期待値：
3.3615
Y回目のガチャポンではじめてN種類の現場猫フィギュアが揃う際のYの期待値：
11.4166

参考情報
弱点克服大学生の確率・統計

[Python]スペクトグラムで楽器の試奏データを比較（プロ奏者とも）

以前、トランペットのマウスピース選びで音声解析をしてみましたが、今回は楽器選びで行ってみます。
前回の調査でf1値とかでは良い音の判断がつかなかったので、スペクトログラムを出してみたいと思います。
管楽器はそこそこに高い買い物なので、色々と比較見当をしてから意思決定したいですね。

今回の楽器たちはヤマハの800GS（所持品）、Bach 180ML37SP、Bach 180ML37GL、Bach AL190GLです。ヤマハのやつは20万円くらいですが、Bachのは30万円くらいします。ちなみにBachはアメリカの楽器メーカーで、私の感覚値ではあるのですが、音大生はだいたい持っているような気がします。10万円の差は大きいのか小さいのか。そしてプロの演奏家のスペクトグラムとも比較します。

スペクトログラムとは

パワースペクトルの値の高低を画像の濃淡で表現し、縦軸に周波数、横軸に時間を取った座標上にプロットしたものをスペクトグラムと呼びます。スペクトグラムでは、周波数が低いところ（下）から、第1フォルマント、第2フォルマント、第3フォルマント・・・と呼びます。フォルマントは周りの周波数と比べて突出している部分のことを指します。

$$ S(\omega) = \int_{-\infty}^{\infty}s(t) e^{-jft}dt$$

さて、いきなりの数式ですが、フーリエ変換の式となります。$ S(\omega) $を二乗したものがパワースペクトルとなります。（二乗するは複素平面上で絶対値を取りたいため。）
tは時刻、fは基本周波数（最も低い周波数）、jは虚数単位を表します。ここで登場する$ s(t) $は定常波と呼ばれ、以下の式で定まります。

$$s(t) = \frac{a_0}{2} + \sum_{n=1}^{\infty}a_n \cos (2 \pi n ft + \theta_n)$$
$ a_n $は元の信号$ s(t) $にどの周波数の波がどの程度の強さで含まれているかという情報を表します。
フーリエ変換のモチベーションとしては、周波数の周期関数を周波数の異なる単純な波の重み付き和で表現できることですが、トランペットの音波を色々な周波数に分解できるのは面白いです。良い奏者の周波数がどうなっているのか調べてみるのは面白そう。

Pythonでの計算&比較

音声データはFFMpegで変換とか切り取りをするなどして作成しました。作成方法は簡単で、以前のブログにも記しましたので、試してみたい方はそちらを参考にしてみてください。

# ライブラリの読み込み
import sys
import numpy as np

import librosa
import librosa.display

from scipy.io import wavfile
from IPython.display import Audio

import matplotlib.pyplot as plt
from pylab import rcParams
rcParams['figure.figsize'] = 20, 5

# 音声ファイルの読み込み
file = "../../../Documents/dataset/wavefile/yamaha.wav"
fs_yamaha, x_yamaha = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_sp.wav"
fs_bach_sp, x_bach_sp = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_gl.wav"
fs_bach_gl, x_bach_gl = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_artisan.wav"
fs_bach_artisan, x_bach_artisan = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/pro.wav"
fs_pro, x_pro = wavfile.read(file)

## yamaha（他の楽器も同様に処理）
# 16bitの音声ファイルのデータを-1から1に正規化
data = x_yamaha / 32768

# フレーム長
fft_size = 1024             

# フレームシフト長 
hop_length = int(fft_size / 4)  
 
# 短時間フーリエ変換実行
amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))

# 振幅をデシベル単位に変換
log_power = librosa.core.amplitude_to_db(amplitude)
 
# グラフ表示
librosa.display.specshow(log_power, sr=fs_yamaha, hop_length=hop_length, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')  
plt.title('yamaha')
plt.show()

# ライブラリの読み込み

import sys

import numpy as np

import librosa

import librosa.display

from scipy.io import wavfile

from IPython.display import Audio

import matplotlib.pyplot as plt

from pylab import rcParams

rcParams['figure.figsize'] = 20, 5

# 音声ファイルの読み込み

file = "../../../Documents/dataset/wavefile/yamaha.wav"

fs_yamaha, x_yamaha = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_sp.wav"

fs_bach_sp, x_bach_sp = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_gl.wav"

fs_bach_gl, x_bach_gl = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/bach_artisan.wav"

fs_bach_artisan, x_bach_artisan = wavfile.read(file)

file = "../../../Documents/dataset/wavefile/pro.wav"

fs_pro, x_pro = wavfile.read(file)

## yamaha（他の楽器も同様に処理）

# 16bitの音声ファイルのデータを-1から1に正規化

data = x_yamaha / 32768

# フレーム長

fft_size = 1024

# フレームシフト長

hop_length = int(fft_size / 4)

# 短時間フーリエ変換実行

amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))

# 振幅をデシベル単位に変換

log_power = librosa.core.amplitude_to_db(amplitude)

# グラフ表示

librosa.display.specshow(log_power, sr=fs_yamaha, hop_length=hop_length, x_axis='time', y_axis='hz')

plt.colorbar(format='%+2.0f dB')

plt.title('yamaha')

plt.show()

まずはヤマハですが、この楽器になれている分、スムーズに吹けています。最初のほうのリップスラーは5つくらいのフォルマントがありそうです。音階が上がるにつれてフォルマントが減っているのがわかります。最後のHigh Bでは細めのフォルマントが3つあります。

次は、Bach 180ML37SPという楽器です。鳴らすのに慣れていないので、ゆっくり吹きました。最初のほうのリップスラーは5つくらいのフォルマントがありそうで、それはヤマハと同じですが、最後のHigh Bで2つくらいしかフォルマントがありません。楽器に十分息が吹き込めておらず、鳴らせていないのだろうと思われます。可視化できるって面白いですね。

次は、Bach 180ML37GLという楽器です。さっきの楽器との違いは銀メッキがなされているかどうかくらいです。最初のリップスラーは同じ感じで5つくらいのフォルマントがありそうですが、リップスラーで戻ったところで5つ目のフォルマントが消えています。ただ、最後のHigh Bで3つほどフォルマントがありそうです。慣れてきたのでしょうか？

次は、Bach AL190GLという高級モデルです。40万円くらいします。より技術力の高い職人が手掛けた楽器だそうです。ベルに一手間加わっていたり、専用パーツがあったりするみたいです。実際、30万円のよりも吹きやすい印象がありました。
最初のリップスラーは同じ感じで5つくらいのフォルマントがありそうですが、最後のHigh Bでフォルマントが2つになっています。やっぱ鳴らすの難しいのでしょうか。

最後に、プロの方の音源です。最初のBで私のグラフと明らかにフォルマントの数が違うことがわかります。楽器を鳴らせているというのはこういうレベルなのかなと思ってしまいました。High Bでフォルマントが4つはありそうです。このレベルになるにはどういう吹き方をすればいいのか、色々研究のしがいがありそう。

参考文献

イラストで学ぶ音声認識 (KS情報科学専門書)

[Python]データ分析業務で使いそうなコードまとめ(随時更新)

はじめに

仕事で使いそうなPythonのコードを残しておくドキュメントが欲しいなと思ったので、よく使うものをこちらに貯めていこうと思います。まだ19個しかないですが、30個を目標に追記していきます。

フォーマットとしては、
1.やりたい処理
2.コード
3.参考情報のリンク
の3つを1セットにしています。
まずは、自分自身や周りで仕事をしている人が楽をできるドキュメントになればいいなと思って作っていきます。

・重複削除
 ・階級のデータを作りたい
 ・再起的にリストをコピーしたい
 ・ピボットテーブルでアクセスログから特徴量用のデータを作りたい
 ・データフレームのある列に対して特定の文字列で分割し、その任意のN番目のものを抽出したい
 ・データフレームの行単位で割り算を行いたい
 ・列単位で行を足し合わせて文字列を作りたい
 ・グループのレコードごとにidを割り当てたい
 ・正規表現で任意の合致した文字列で挟まれた文字列を抽出したい
 ・複数列の集計値同士で除した値が欲しい
 ・等間隔の実数の数列を作成したい
 ・スペース区切りの文字列において、ある単語の前後N個の語を抽出したい
 ・グループごとに文字列を結合したい
 ・文字列の置換をdict形式のデータで行いたい
 ・テキストを形態素解析してBoW形式のデータにして特徴量にしたい
 ・訓練データとテストデータで特徴量の数が足りない時に不足した変数を追加したい
 ・アクセスログのユーザーごとのレコードごとの累積和を計算したい
 ・選択したカラムで一気にダミー変数にしたい
 ・グループ化して平均値を計算し、プロットし、2軸でそれぞれのデータ数も載せたい
 ・参考情報

データセット

全体を通じて使うデータセットを生成する関数を用意しておきます。一つ目の
データはkaggleのBoston Housingのデータセットです。

#
import pandas as pd

def create_dataset():    
    df = pd.read_csv('https://raw.githubusercontent.com/rasbt/'
                     'python-machine-learning-book-2nd-edition/'
 　　　　　　　　　　　　'master/code/ch10/housing.data.txt',
　　　　　　　　　　　　 header=None, sep='\s+')
    df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
                  'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
    df["id"] = df.index
    return df

import pandas as pd

def create_dataset():

df = pd.read_csv('https://raw.githubusercontent.com/rasbt/'

'python-machine-learning-book-2nd-edition/'

　　　　　　　　　　　　'master/code/ch10/housing.data.txt',

　　　　　　　　　　　　 header=None, sep='\s+')

df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',

'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

df["id"] = df.index

return df

二つ目はアクセスログのデータが欲しかったので、Google Analytics APIを使ってデータを抽出したものとなります。ここではソースコードを載せますが、皆さんは当然見れません。一応、GitHubにデータを上げておきます。

#
from apiclient.discovery import build
from oauth2client.service_account import ServiceAccountCredentials

# AnalyticsAPIで取りたいものを指定する
def get_logs(service, profile_id):
    return service.data().ga().get(
            ids='ga:' + profile_id,
            start_date='7daysAgo',
            end_date='today',
            dimensions = "ga:pagePath,ga:dimension1,ga:dateHourMinute,ga:deviceCategory,ga:userType,ga:fullReferrer",
            sort = "-ga:sessions",
            metrics = "ga:sessions,ga:goal1Completions,ga:pageviews").execute()

def get_service(api_name, api_version, scopes, key_file_location):
    credentials = ServiceAccountCredentials.from_json_keyfile_name(
            key_file_location, scopes=scopes)
    service = build(api_name, api_version, credentials=credentials)

    return service

# Google Analyticsの見たいビューなどを指定して、アクセスログを抽出する
def get_log_df():
    scope = 'https://www.googleapis.com/auth/analytics.readonly'
    # 認証用のjsonファイルの置き場所
    key_file_location = '../perry_project/credential_key.json'

    service = get_service(
                          api_name='analytics',
                          api_version='v3',
                          scopes=[scope],
                          key_file_location=key_file_location)

    # Google Analyticsのアカウント。1つしか持っていないので0で指定する。
    accounts = service.management().accounts().list().execute()
    account = accounts.get('items')[0].get('id')

    # プロパティは複数あるので、検索する必要がある。
    properties = service.management().webproperties().list(
                                                                accountId=account).execute()
    for i in properties['items']:
        if i['name']=="かものはしの分析ブログ":
            property = i['id']

    # プロファイルまで行って、ようやくアクセスログを抽出できる。
    profiles = service.management().profiles().list(
                                            accountId=account,
                                            webPropertyId=property).execute()
    # プロファイルのIDがAPIを叩く時に必要となる。
    profile_id = profiles.get('items')[0].get('id')

    # データフレームの形でアクセスログを取得
    df = pd.DataFrame(get_logs(service, profile_id)['rows'])
    df.columns = ['pagePath', 'dimension1', 'dateHourMinute', 'deviceCategory',
                             'userType', 'fullReferrer', 'sessions', 'goal1Completions', 'pageviews']

    return df

from apiclient.discovery import build

from oauth2client.service_account import ServiceAccountCredentials

# AnalyticsAPIで取りたいものを指定する

def get_logs(service, profile_id):

return service.data().ga().get(

ids='ga:' + profile_id,

start_date='7daysAgo',

end_date='today',

dimensions = "ga:pagePath,ga:dimension1,ga:dateHourMinute,ga:deviceCategory,ga:userType,ga:fullReferrer",

sort = "-ga:sessions",

metrics = "ga:sessions,ga:goal1Completions,ga:pageviews").execute()

def get_service(api_name, api_version, scopes, key_file_location):

credentials = ServiceAccountCredentials.from_json_keyfile_name(

key_file_location, scopes=scopes)

service = build(api_name, api_version, credentials=credentials)

return service

# Google Analyticsの見たいビューなどを指定して、アクセスログを抽出する

def get_log_df():

scope = 'https://www.googleapis.com/auth/analytics.readonly'

# 認証用のjsonファイルの置き場所

key_file_location = '../perry_project/credential_key.json'

service = get_service(

api_name='analytics',

api_version='v3',

scopes=[scope],

key_file_location=key_file_location)

# Google Analyticsのアカウント。1つしか持っていないので0で指定する。

accounts = service.management().accounts().list().execute()

account = accounts.get('items')[0].get('id')

# プロパティは複数あるので、検索する必要がある。

properties = service.management().webproperties().list(

accountId=account).execute()

for i in properties['items']:

if i['name']=="かものはしの分析ブログ":

property = i['id']

# プロファイルまで行って、ようやくアクセスログを抽出できる。

profiles = service.management().profiles().list(

accountId=account,

webPropertyId=property).execute()

# プロファイルのIDがAPIを叩く時に必要となる。

profile_id = profiles.get('items')[0].get('id')

# データフレームの形でアクセスログを取得

df = pd.DataFrame(get_logs(service, profile_id)['rows'])

df.columns = ['pagePath', 'dimension1', 'dateHourMinute', 'deviceCategory',

'userType', 'fullReferrer', 'sessions', 'goal1Completions', 'pageviews']

return df

三つ目はテキストデータです。

def create_text_dataset():    
    df = pd.DataFrame(["フィニアスとファーブのペットのカモノハシ。なぜ水色の体なのかはツッコんではいけない。普段は何をしても反応しないノロノロした奴だが、陰でモノグラム少佐の指令のもとでエージェントPとして活動している。スパイとしての名前はエージェントP。(agent P)普段の姿からエージェントPになる時の性格と顔の変わりようが異常である。カモノハシなので当然人間語は話せず、「ガガガガガ」（もしくは「グルルルル」）という歯を鳴らすような奇妙な鳴き声で鳴く。フィニアス達の家の真下には、少佐から任務を聞いたりするための秘密の部屋があり、家の所どころにその部屋へ通じる隠し扉がある。ドゥーフェンシュマーツ博士が宿敵であり、彼の悪の企みを暴き、その計画を阻止するのがエージェントPの任務である。毎回博士の罠に掛かるが、自力かもしくは博士の間抜けなミスにより脱出する。",
                                   "ペリーはフィニアスとファーブに大事に飼われているペットのカモノハシ。うたたねをしていることが多い。何もかんがえていないかのように見えるが「ぼんやりした　ただのペット」というのは世を忍ぶ仮の姿で本当はエージェントPとよばれる優秀なスパイで、世界を救っているのだ。"],
                                    columns=["document"])
    return df

def create_text_dataset():

df = pd.DataFrame(["フィニアスとファーブのペットのカモノハシ。なぜ水色の体なのかはツッコんではいけない。普段は何をしても反応しないノロノロした奴だが、陰でモノグラム少佐の指令のもとでエージェントPとして活動している。スパイとしての名前はエージェントP。(agent P)普段の姿からエージェントPになる時の性格と顔の変わりようが異常である。カモノハシなので当然人間語は話せず、「ガガガガガ」（もしくは「グルルルル」）という歯を鳴らすような奇妙な鳴き声で鳴く。フィニアス達の家の真下には、少佐から任務を聞いたりするための秘密の部屋があり、家の所どころにその部屋へ通じる隠し扉がある。ドゥーフェンシュマーツ博士が宿敵であり、彼の悪の企みを暴き、その計画を阻止するのがエージェントPの任務である。毎回博士の罠に掛かるが、自力かもしくは博士の間抜けなミスにより脱出する。",

"ペリーはフィニアスとファーブに大事に飼われているペットのカモノハシ。うたたねをしていることが多い。何もかんがえていないかのように見えるが「ぼんやりした　ただのペット」というのは世を忍ぶ仮の姿で本当はエージェントPとよばれる優秀なスパイで、世界を救っているのだ。"],

columns=["document"])

return df

前処理

重複削除

やりたいこと
重複したデータを除外したい。最初に現れたレコードだけを残したい。

コード

#
df = create_dataset()
df = pd.concat([df, df],axis=0) # わざとデータを重複させる。
print(df.shape)

df = df[~df.duplicated(subset=["id"], keep='first')].reset_index(drop=True) # 最初に登場したidのレコードだけを抽出。
print(df.shape)

df = create_dataset()

df = pd.concat([df, df],axis=0) # わざとデータを重複させる。

print(df.shape)

df = df[~df.duplicated(subset=["id"], keep='first')].reset_index(drop=True) # 最初に登場したidのレコードだけを抽出。

print(df.shape)

参考情報
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html

階級のデータを作りたい

やりたいこと
任意の範囲に応じたラベルをつけた階級値を作りたい。

コード

#
df = create_dataset()

bins = [0,14,30,50,80]
labels=["0~13","14~29","30~49","50~79"]

df['AGE_bins'] = pd.cut(df['AGE'], 
                                 bins=bins,
                                 labels=labels,
                                 include_lowest=True)

df.AGE_bins.value_counts(normalize=True).round(2)

df = create_dataset()

bins = [0,14,30,50,80]

labels=["0~13","14~29","30~49","50~79"]

df['AGE_bins'] = pd.cut(df['AGE'],

bins=bins,

labels=labels,

include_lowest=True)

df.AGE_bins.value_counts(normalize=True).round(2)

参考情報
https://pandas.pydata.org/docs/reference/api/pandas.cut.html

再起的にリストをコピーしたい

やりたいこと
リストをコピーした際に、コピーしたものを変更した際に、もとのものも変更されてしまうので、それを防ぎたい。

コード

#
df = create_dataset()

# 上書きされるケース
id_list = df.id.tolist()
id_list2 = id_list
id_list2[0] = 100

print(id_list[0])
print(id_list2[0])

# 上書きされないケース
import copy

id_list = df.id.tolist()
id_list_2 = copy.deepcopy(id_list)
id_list2[0] = 100
print(id_list[0])
print(id_list2[0])

df = create_dataset()

# 上書きされるケース

id_list = df.id.tolist()

id_list2 = id_list

id_list2[0] = 100

print(id_list[0])

print(id_list2[0])

# 上書きされないケース

import copy

id_list = df.id.tolist()

id_list_2 = copy.deepcopy(id_list)

id_list2[0] = 100

print(id_list[0])

print(id_list2[0])

参考情報
https://docs.python.org/3/library/copy.html

ピボットテーブルでアクセスログから特徴量用のデータを作りたい

やりたいこと
集計されていないアクセスログをもとに、セッションidごとの触れたページを集計し、Bag of Words形式のデータフレームにしたい。これは機械学習の特徴量に使えるので便利。

コード

#
df = get_log_df()

df_pv = pd.pivot_table(data=df,
                       fill_value=0,
                       index="dimension1",
                       columns="pagePath",
                       aggfunc = {"pagePath":"count"}).reset_index()
column_list = [df_pv.columns.levels[0][1]]
column_list.extend(df_pv.columns.levels[1].tolist()[:-1])

df_pv.columns = column_list
df_pv.head(10)

df = get_log_df()

df_pv = pd.pivot_table(data=df,

fill_value=0,

index="dimension1",

columns="pagePath",

aggfunc = {"pagePath":"count"}).reset_index()

column_list = [df_pv.columns.levels[0][1]]

column_list.extend(df_pv.columns.levels[1].tolist()[:-1])

df_pv.columns = column_list

df_pv.head(10)

参考情報
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

データフレームのある列に対して特定の文字列で分割し、その任意のN番目のものを抽出したい

やりたいこと
pandasのデータフレームである文字列の列に対して特定のキーワードで分割し、そのN番目のものをデータフレームの列として持たせる。今回はURLのパラメータの後ろについている文字列を抽出している。

コード

#
df = get_log_df()

keyword = "\?s="
n_element = 1

df = df[df.pagePath.str.contains(keyword)]
df["expression"] = df.pagePath.str.split(keyword).apply(lambda x: x[n_element])
df[['pagePath', 'dimension1', 'expression']]

df = get_log_df()

keyword = "\?s="

n_element = 1

df = df[df.pagePath.str.contains(keyword)]

df["expression"] = df.pagePath.str.split(keyword).apply(lambda x: x[n_element])

df[['pagePath', 'dimension1', 'expression']]

参考情報

データフレームの行単位で割り算を行いたい

やりたいこと
各行の合計で、各行を割ることでレコード単位で重み付けを行いたい時や確率を計算したいときに良く使います。データはアクセスログをBag of Word形式したものを使います。

コード

# さきほどと同じ
df = get_log_df()

df_pv = pd.pivot_table(data=df,
                       fill_value=0,
                       index="dimension1",
                       columns="pagePath",
                       aggfunc = {"pagePath":"count"}).apply(lambda x:x/sum(x),axis=1).reset_index()
column_list = [df_pv.columns.levels[0][1]]
column_list.extend(df_pv.columns.levels[1].tolist()[:-1])

df_pv.columns = column_list

# さきほどと同じ

df = get_log_df()

df_pv = pd.pivot_table(data=df,

fill_value=0,

index="dimension1",

columns="pagePath",

aggfunc = {"pagePath":"count"}).apply(lambda x:x/sum(x),axis=1).reset_index()

column_list = [df_pv.columns.levels[0][1]]

column_list.extend(df_pv.columns.levels[1].tolist()[:-1])

df_pv.columns = column_list

参考情報
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.div.html

列単位で行を足し合わせて文字列を作りたい

やりたいこと
データフレームの列の要素をつなぎ合わせて文字列を作成したい。複合キーを作らないとデータを繋げない時などによく使います。

コード

#
df = get_log_df()

df['composite_key'] = df[['dimension1', 'dateHourMinute']].apply(lambda x: '{}_{}'.format(x[0], x[1]), axis=1)
df[['pagePath','dimension1','dateHourMinute', 'composite_key']].head(10)

df = get_log_df()

df['composite_key'] = df[['dimension1', 'dateHourMinute']].apply(lambda x: '{}_{}'.format(x[0], x[1]), axis=1)

df[['pagePath','dimension1','dateHourMinute', 'composite_key']].head(10)

参考情報
https://www.kato-eng.info/entry/pandas-concat-pk

グループのレコードごとにidを割り当てたい

やりたいこと
アクセスログなどで、任意のユーザーの初回に触れたページや、N番目に触れたページなどを抽出しやすいように、ユーザーごとのログにidを付与したい。

コード

#
df = get_log_df()

# グループごとに時刻の昇順で並び替える。
df = df.sort_values(by=['dimension1', 'dateHourMinute'], ascending=True).reset_index(drop=True)

# ユニークな変数を使う必要があるので、インデックスを列で持つ。
df["const"] = df.index
# グループごとにインデックスを付与していく。
df["group_index"] = df.groupby('dimension1')['const'].transform(lambda x: pd.factorize(x)[0])

most_heavy_user = df.dimension1.value_counts()[[0]].index[0]

df[df.dimension1 == most_heavy_user][['pagePath', 'dimension1','dateHourMinute','group_index']]

df = get_log_df()

# グループごとに時刻の昇順で並び替える。

df = df.sort_values(by=['dimension1', 'dateHourMinute'], ascending=True).reset_index(drop=True)

# ユニークな変数を使う必要があるので、インデックスを列で持つ。

df["const"] = df.index

# グループごとにインデックスを付与していく。

df["group_index"] = df.groupby('dimension1')['const'].transform(lambda x: pd.factorize(x)[0])

most_heavy_user = df.dimension1.value_counts()[[0]].index[0]

df[df.dimension1 == most_heavy_user][['pagePath', 'dimension1','dateHourMinute','group_index']]

参考情報
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.factorize.html

正規表現で任意の合致した文字列で挟まれた文字列を抽出したい

やりたいこと
正規表現を用いて、文字列に対して「指定した文字列と文字列の間にある表現」を抽出するための処理です。URLのデータや規則性のあるテキストデータに対して特徴量を作りたい時に使えます。

コード

#
df = get_log_df()

import numpy as np
import re

target_expression = '/?p=(.+?)&preview=true'
df['extract_number'] = [re.search(target_expression, i).group(1) if re.search(target_expression, i) else np.nan for i in df.pagePath ]

df[~df.extract_number.isna()][['pagePath', 'extract_number']].head(10)

df = get_log_df()

import numpy as np

import re

target_expression = '/?p=(.+?)&preview=true'

df['extract_number'] = [re.search(target_expression, i).group(1) if re.search(target_expression, i) else np.nan for i in df.pagePath ]

df[~df.extract_number.isna()][['pagePath', 'extract_number']].head(10)

参考情報
https://docs.python.org/ja/3/library/re.html

複数列の集計値同士で除した値が欲しい

やりたいこと
複数の列で集計した値同士を用いて、さらにそこから比率のデータを作りたい。ターゲットエンコーディングを行いたい場合に使える。

コード

#
df = get_log_df()

# 複数の列をまとめて型の変換を行う。
cols = ['sessions', 'goal1Completions', 'pageviews']
df[cols] = df[cols].astype(int)

# pagePathとdeviceCategoryごとにsessionsとgoal1Completionsを集計し、それらを除す。
df_summary = df.groupby(['pagePath','deviceCategory'])\
                            .agg({'sessions': np.sum,'goal1Completions':np.sum})\
                            .assign(newcol=lambda x: x['goal1Completions']/x['sessions']).reset_index()

df_summary.head(10)

df = get_log_df()

# 複数の列をまとめて型の変換を行う。

cols = ['sessions', 'goal1Completions', 'pageviews']

df[cols] = df[cols].astype(int)

# pagePathとdeviceCategoryごとにsessionsとgoal1Completionsを集計し、それらを除す。

df_summary = df.groupby(['pagePath','deviceCategory'])\

.agg({'sessions': np.sum,'goal1Completions':np.sum})\

.assign(newcol=lambda x: x['goal1Completions']/x['sessions']).reset_index()

df_summary.head(10)

参考情報
https://stackoverflow.com/questions/45075626/summarize-using-multiple-columns-in-python-pandas-dataframe

等間隔の実数の数列を作成したい

やりたいこと
パラメータチューニングをする際に、各パラメータについて等間隔の実数列を作りたいときがあるので、その時に使うコード。

コード

#
def frange(start, stop, step):
    i = start
    while i < stop:
        yield i
        i += step

learn_rate = list(map(lambda value:round(value,2) , frange(0.1, 0.6, 0.1)))
dropout_rate = list(map(lambda value:round(value,2) , frange(0.1, 0.6, 0.1)))
batch_size = list(map(lambda value:round(value,2) , frange(10, 51, 10)))
epochs = list(map(lambda value:round(value,2) , frange(1, 12, 5)))

def frange(start, stop, step):

i = start

while i < stop:

yield i

i += step

learn_rate = list(map(lambda value:round(value,2) , frange(0.1, 0.6, 0.1)))

dropout_rate = list(map(lambda value:round(value,2) , frange(0.1, 0.6, 0.1)))

batch_size = list(map(lambda value:round(value,2) , frange(10, 51, 10)))

epochs = list(map(lambda value:round(value,2) , frange(1, 12, 5)))

参考情報
https://www.pythoncentral.io/pythons-range-function-explained/

スペース区切りの文字列において、ある単語の前後N個の単語を抽出したい

やりたいこと
テキストマイニングをする際に、関心のある単語の前後N文字を抽出したい時がある。もちろん、関心のある単語の周辺の単語というものを特徴量にすることも良いと思われる。ここではMeCabによる形態素解析により分かち書きにする関数と共に紹介する。

コード

#
df = create_text_dataset()

import re
import MeCab

def nouns_extract(line):
    keyword=[]
    m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

    for l in m.parse(line).splitlines():
        if l != 'EOS' and l.split("\t")[1].split(",")[0] == "名詞":
            if l != 'EOS' and re.search("^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞$",l.split("\t")[1].split(",")[1]):
                keyword.append(l.split("\t")[0])
                
    keyword = str(keyword).replace("', '"," ")
    keyword = keyword.replace("\'","")
    keyword = keyword.replace("[","")
    keyword = keyword.replace("]","")
    return keyword

df['nous_wakati'] = list(map(lambda text:nouns_extract(text) ,
                                                                 list(df.document)))

target_word = "エージェントP"
window_size = 5

df["neighbor_words"] = list(map(lambda text:search(text,
                                                           window_size,target_word) ,
                                                            df['nous_wakati']))
df

df = create_text_dataset()

import re

import MeCab

def nouns_extract(line):

keyword=[]

m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

for l in m.parse(line).splitlines():

if l != 'EOS' and l.split("\t")[1].split(",")[0] == "名詞":

if l != 'EOS' and re.search("^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞$",l.split("\t")[1].split(",")[1]):

keyword.append(l.split("\t")[0])

keyword = str(keyword).replace("', '"," ")

keyword = keyword.replace("\'","")

keyword = keyword.replace("[","")

keyword = keyword.replace("]","")

return keyword

df['nous_wakati'] = list(map(lambda text:nouns_extract(text) ,

list(df.document)))

target_word = "エージェントP"

window_size = 5

df["neighbor_words"] = list(map(lambda text:search(text,

window_size,target_word) ,

df['nous_wakati']))

参考情報
https://stackoverflow.com/questions/17645701/extract-words-surrounding-a-search-word

グループごとに文字列を結合したい

やりたいこと
テキストマイニングなどで、任意のグループごとのテキストデータをスペース区切りで繋ぎたいときがあります。任意のグループごとのテキストを一気に連結できて便利です。これを形態素解析して特徴量にするのも良いと思います。
コード

# df = get_log_df() df_concat = pd.DataFrame(df.groupby('dimension1')['pagePath'].apply(lambda x: ' '.join(x))).reset_index() df_concat.head(10)

1
2
3
4
5

#
df = get_log_df()

df_concat = pd.DataFrame(df.groupby('dimension1')['pagePath'].apply(lambda x: ' '.join(x))).reset_index()
df_concat.head(10)

参考情報
https://stackoverflow.com/questions/17841149/pandas-groupby-how-to-get-a-union-of-strings

文字列の置換をdict形式のデータで行いたい

やりたいこと
事前に用意した置換のリストを使って、文字列の置換を一気に行いたい。

コード

#
df = create_text_dataset()

import re

def multiple_replace(text, adict):
    rx = re.compile('|'.join(adict))
    def dedictkey(text):
        for key in adict.keys():
            if re.search(key, text):
                return key

    def one_xlat(match):
        return adict[dedictkey(match.group(0))]

    return rx.sub(one_xlat, text)


replace_list = {'カモノハシ':'鴨嘴',
                          'ペット':'家畜',
                          'エージェントP':'探偵',
                          'スパイ':'罪人',
                          'ペリー':'彼理'}

df['document_fixed'] = list(map(lambda text:multiple_replace(text, replace_list) ,
                                                            df['document']))

df

df = create_text_dataset()

import re

def multiple_replace(text, adict):

rx = re.compile('|'.join(adict))

def dedictkey(text):

for key in adict.keys():

if re.search(key, text):

return key

def one_xlat(match):

return adict[dedictkey(match.group(0))]

return rx.sub(one_xlat, text)

replace_list = {'カモノハシ':'鴨嘴',

'ペット':'家畜',

'エージェントP':'探偵',

'スパイ':'罪人',

'ペリー':'彼理'}

df['document_fixed'] = list(map(lambda text:multiple_replace(text, replace_list) ,

df['document']))

参考情報
http://omoplatta.blogspot.com/2010/10/python_30.html

テキストを形態素解析してBoW形式のデータにして特徴量にしたい

やりたいこと
任意の日本語のテキストとラベルの組み合わせがあるとして、テキストを形態素解析してTF-IDFを計算し、それを特徴量としてラベルを予測するということをやりたい。ここでは以前集めて、GitHubに載せてあるデザイナーズマンションのデータを使い、MeCabで形態素解析をしたあとに、TF-IDFを計算し、それを特徴量にしてsklearnで簡単に予測をし、リフト曲線を描いている。

コード

#
import re
import MeCab

def nouns_extract(line):
    keyword=[]
    m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

    for l in m.parse(line).splitlines():
        if l != 'EOS' and l.split("\t")[1].split(",")[0] == "名詞":
            if l != 'EOS' and re.search("^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞$",l.split("\t")[1].split(",")[1]):
                keyword.append(l.split("\t")[0])
                
    keyword = str(keyword).replace("', '"," ")
    keyword = keyword.replace("\'","")
    keyword = keyword.replace("[","")
    keyword = keyword.replace("]","")
    return keyword

df = pd.read_csv("https://raw.githubusercontent.com/KamonohashiPerry/kamonohashiperry.com/master/designers_apartment/designers_apartment.csv")
df.text = df.text.str.replace("デザイナーズ", "")

df['nous_wakati'] = list(map(lambda text:nouns_extract(text) ,list(df.text)))

df.head(3)

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import scikitplot as skplt

X_train, X_test, y_train, y_test = train_test_split(df['nous_wakati'],
　　　　　　　　　　df.designer_flag,
　　　　　　　　　　test_size=0.3,                                                                     　　　　　　　　　　random_state=1, 
　　　　　　　　　　stratify=df.designer_flag )

vectorizer = TfidfVectorizer(min_df=20)

# 訓練データでvectorizerを計算する
X_train_vec = vectorizer.fit_transform(X_train)
# テストデータにvectorizerを適用する
X_test_vec = vectorizer.transform(X_test)

print(X_train_vec.shape, X_test_vec.shape)
print(vectorizer.get_feature_names())

lr = LogisticRegression(C=100.0,
                        random_state=1)
lr.fit(X_train_vec, y_train)
y_probas = lr.predict_proba(X_test_vec)

# リフト曲線（縦軸は倍率になっている。）
skplt.metrics.plot_lift_curve(y_test, y_probas);

import re

import MeCab

def nouns_extract(line):

keyword=[]

m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

for l in m.parse(line).splitlines():

if l != 'EOS' and l.split("\t")[1].split(",")[0] == "名詞":

if l != 'EOS' and re.search("^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞$",l.split("\t")[1].split(",")[1]):

keyword.append(l.split("\t")[0])

keyword = str(keyword).replace("', '"," ")

keyword = keyword.replace("\'","")

keyword = keyword.replace("[","")

keyword = keyword.replace("]","")

return keyword

df = pd.read_csv("https://raw.githubusercontent.com/KamonohashiPerry/kamonohashiperry.com/master/designers_apartment/designers_apartment.csv")

df.text = df.text.str.replace("デザイナーズ", "")

df['nous_wakati'] = list(map(lambda text:nouns_extract(text) ,list(df.text)))

df.head(3)

from sklearn.model_selection import train_test_split

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.linear_model import LogisticRegression

import scikitplot as skplt

X_train, X_test, y_train, y_test = train_test_split(df['nous_wakati'],

　　　　　　　　　　df.designer_flag,

　　　　　　　　　　test_size=0.3, 　　　　　　　　　　random_state=1,

　　　　　　　　　　stratify=df.designer_flag )

vectorizer = TfidfVectorizer(min_df=20)

# 訓練データでvectorizerを計算する

X_train_vec = vectorizer.fit_transform(X_train)

# テストデータにvectorizerを適用する

X_test_vec = vectorizer.transform(X_test)

print(X_train_vec.shape, X_test_vec.shape)

print(vectorizer.get_feature_names())

lr = LogisticRegression(C=100.0,

random_state=1)

lr.fit(X_train_vec, y_train)

y_probas = lr.predict_proba(X_test_vec)

# リフト曲線（縦軸は倍率になっている。）

skplt.metrics.plot_lift_curve(y_test, y_probas);

参考情報
https://scikit-plot.readthedocs.io/en/stable/metrics.html

訓練データとテストデータで特徴量の数が足りない時に不足した変数を追加したい

やりたいこと
訓練データとテストデータの変数の数が違う時に、そのままではモデルを使えないので、補うために使う。

コード

#
# 訓練データの列名を残しておく
train_column_list = train_df.columns

# 訓練データにはあるが、テストデータにはない変数を0で生成させる
compensate_list = list(set(train_column_list) - set(test_df.columns))
if compensate_list != []:
    for each_column in compensate_list:
        test_df[each_column] = 0.0

test_df = test_df[train_column_list]

# 訓練データの列名を残しておく

train_column_list = train_df.columns

# 訓練データにはあるが、テストデータにはない変数を0で生成させる

compensate_list = list(set(train_column_list) - set(test_df.columns))

if compensate_list != []:

for each_column in compensate_list:

test_df[each_column] = 0.0

test_df = test_df[train_column_list]

参考情報
なし

アクセスログのユーザーごとのレコードごとの累積和を計算したい

やりたいこと
アクセスログや購買データなどで、レコードごとの累積の値を計算したいときに使う。時系列に従いどんどん足されていく。

コード

#
df = get_log_df()

df['view_count'] = 1
df['user_cumsum'] = df.groupby('dimension1').cumsum()['view_count']

df[['pagePath', 'dimension1', 'user_cumsum']].head(10)

df = get_log_df()

df['view_count'] = 1

df['user_cumsum'] = df.groupby('dimension1').cumsum()['view_count']

df[['pagePath', 'dimension1', 'user_cumsum']].head(10)

参考情報
https://ohke.hateblo.jp/entry/2018/05/05/230000

選択したカラムで一気にダミー変数にしたい

やりたいこと
ダミー変数を一気に生成したい。名前も一気に付けたい。

コード

#
df = get_log_df()

# 一気にカテゴリ化
cols = ["deviceCategory", "userType"]
 
df[cols] = df[cols].astype('category')
 
# ダミー変数を一気に作る
for each_columns in cols:
    dummy_df = pd.get_dummies( df[each_columns], drop_first=True)
    dummy_df.columns =  ["dummy_" + each_columns + "_" + str(i) for i in dummy_df.columns.tolist()]
    
    df = pd.concat([df,
                         dummy_df], axis=1)

df = get_log_df()

# 一気にカテゴリ化

cols = ["deviceCategory", "userType"]

df[cols] = df[cols].astype('category')

# ダミー変数を一気に作る

for each_columns in cols:

dummy_df = pd.get_dummies( df[each_columns], drop_first=True)

dummy_df.columns = ["dummy_" + each_columns + "_" + str(i) for i in dummy_df.columns.tolist()]

df = pd.concat([df,

dummy_df], axis=1)

参考情報
なし

グループ化して平均値を計算し、プロットし、2軸でそれぞれのデータ数も載せたい

やりたいこと
EDAの時に、グループ化して平均値などを計算するだけでなく、該当するデータ数も2軸でプロットしたい。

コード

#
df = get_log_df()
df.goal1Completions = df.goal1Completions.astype(int)

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
 
# 後でデータの型を指定しておく
def GroupbyPlot(df:pd.DataFrame,
                             group:str,
                             target:str,
                             y_label:str,
                             x_label:str):
    group_name_summary = df.groupby(group)[target].agg([np.mean, "count"])
    index_list = group_name_summary.index.tolist()
    
    group_name_summary = group_name_summary.reset_index()
    
    fig, ax = plt.subplots(figsize=(10,5))
    ax3 = ax.twinx()
    rspine = ax3.spines['right'] 
    rspine.set_position(('axes', 1.15))
    ax3.set_frame_on(True)
    ax3.patch.set_visible(False)
    fig.subplots_adjust(right=0.7)
    group_name_summary["mean"].plot(ax=ax, style='r-', kind="line")
    group_name_summary["count"].plot(ax=ax, secondary_y=True,kind="bar",color='b',alpha=0.5 );
    # ax.set_title('');
    ax.set_ylabel(y_label);
    ax.set_xlabel(x_label); 
    ax.set_xticklabels(index_list);
    ax3.set_ylabel('count');
    return group_name_summary

target_string = "fullReferrer"
df_summary = GroupbyPlot(df, 
                         group=target_string,
                         target="goal1Completions", y_label="ratio", x_label=target_string)

df = get_log_df()

df.goal1Completions = df.goal1Completions.astype(int)

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

# 後でデータの型を指定しておく

def GroupbyPlot(df:pd.DataFrame,

group:str,

target:str,

y_label:str,

x_label:str):

group_name_summary = df.groupby(group)[target].agg([np.mean, "count"])

index_list = group_name_summary.index.tolist()

group_name_summary = group_name_summary.reset_index()

fig, ax = plt.subplots(figsize=(10,5))

ax3 = ax.twinx()

rspine = ax3.spines['right']

rspine.set_position(('axes', 1.15))

ax3.set_frame_on(True)

ax3.patch.set_visible(False)

fig.subplots_adjust(right=0.7)

group_name_summary["mean"].plot(ax=ax, style='r-', kind="line")

group_name_summary["count"].plot(ax=ax, secondary_y=True,kind="bar",color='b',alpha=0.5 );

# ax.set_title('');

ax.set_ylabel(y_label);

ax.set_xlabel(x_label);

ax.set_xticklabels(index_list);

ax3.set_ylabel('count');

return group_name_summary

target_string = "fullReferrer"

df_summary = GroupbyPlot(df,

group=target_string,

target="goal1Completions", y_label="ratio", x_label=target_string)

参考情報
なし

参考情報

前処理大全［データ分析のためのSQL/R/Python実践テクニック］
はじめてのアナリティクス API: サービスアカウント向け Python クイックスタート
 カモノハシペリー
 ペリー｜フィニアスとファーブ｜ディズニーキッズ公式

[Python]音声解析でトランペットの録音データを可視化してみる

はじめに

私はデータ分析以外の趣味としては、トランペットの演奏があります。個人でプイプイ吹いているだけのしょうもない趣味ですけどね。
先日、楽器屋に新しいマウスピース（楽器を口に当てる金属部分、振動させる部分）を買いに行ったのですが、吹いているうちによくわからなくなったので、録音した音声波形などを可視化することで、いいなと思う音がどんな波形をしているのかを明らかにしたいと思います。

進め方

録音データを用意（iPhoneのムービー）
FFmpegで動画から音声のみを切り出し、サンプルレートを変え、モノラルにする
Pythonで基本周波数（F0）などを可視化

データの準備

今回はチューニングB♭（ベー）の音3種類（Yamaha 11C4、Bach 5C、Bach 3C）と、練習曲（ルパン三世のフレーズ）の音2種類（Yamaha 11C4、Bach 5C）の計5つの音源を扱います。

マウスピースのイメージ

Yamaha 11C4：オールマイティー（これまで使っていたやつ）
Bach 5C：少し深くて、少し内径が小さい
Bach 3C：少し深くて、少し内径が小さい（5Cと3Cの違いは当て心地？）

指標の説明

音声波形：波動の振動の大きさを表す非負のスカラー量を縦軸に、横軸を時間とした場合のグラフを音声波形と呼ぶ。
ピッチマーク：単位波形を抽出する基準点でエポックマーカーと呼ばれる。音が鳴った際に1をとり音がない際は0を取る。
基本周波数：信号を正弦波の合成で表したときの最も低い周波数成分の周波数で、音程に該当する。
相関係数：ピッチマークの検出に使う指標でNCCF（Normalized Cross-Correlation Function）というものを使って計算している。自己相関のようなもので-1から1の間を取る。

音声ファイルのあるディレクトリで以下のコマンドを実行します。（私の環境はMacです。）

# チューニングベーのファイルの変換
ffmpeg -i IMG_3506.MOV -ss 2 -to 7 -ar 16000 -ac 1 b_5C.wav
ffmpeg -i IMG_3506.MOV -ss 25 -to 30 -ar 16000 -ac 1 b_3C.wav
ffmpeg -i IMG_3506.MOV -ss 38 -to 43 -ar 16000 -ac 1 b_11C4.wav

# 練習曲のファイルの変換
ffmpeg -i IMG_3468.MOV -ss 32 -to 42 -ar 16000 -ac 1 rupin_11C4.wav
ffmpeg -i IMG_3517.MOV -ss 43.5 -to 54 -ar 16000 -ac 1 rupin_5C.wav

# チューニングベーのファイルの変換

ffmpeg -i IMG_3506.MOV -ss 2 -to 7 -ar 16000 -ac 1 b_5C.wav

ffmpeg -i IMG_3506.MOV -ss 25 -to 30 -ar 16000 -ac 1 b_3C.wav

ffmpeg -i IMG_3506.MOV -ss 38 -to 43 -ar 16000 -ac 1 b_11C4.wav

# 練習曲のファイルの変換

ffmpeg -i IMG_3468.MOV -ss 32 -to 42 -ar 16000 -ac 1 rupin_11C4.wav

ffmpeg -i IMG_3517.MOV -ss 43.5 -to 54 -ar 16000 -ac 1 rupin_5C.wav

音声波形などの可視化〜チューニングB♭（ベー）〜

ここでは単純にチューニングベーの音を比較します。まず音源ですが、以下で実際に聴けるようになっています。（耳を痛めないように、最も小さい音で聴いてから調整してください。）
しかし、慣れないマウスピースで音程が不安定になっているのが悲しいですね。

・Yamaha 11C4のチューニングベー

・Bach 5Cのチューニングベー

・Bach 3Cのチューニングベー

以前書いたブログと同様に、pyreaperというREAPERのラッパーとなっているライブラリを用います。REAPERはGoogleが開発していて、C++で書かれています。

import pyreaper
import pysptk

from scipy.io import wavfile
from IPython.display import Audio

file = "/dataset/wavefile/b_11C4.wav"
fs_11c4_b, x_11c4_b = wavfile.read(file)

file = "/dataset/wavefile/b_5C.wav"
fs_5c_b, x_5c_b = wavfile.read(file)

file = "/dataset/wavefile/b_3C.wav"
fs_3c_b, x_3c_b = wavfile.read(file)

# pyreaperモジュールを使ってピッチマークやF0や相関係数を計算する。
pm_times_11c4_b, pm_11c4_b, f0_times_11c4_b, f0_11c4_b, corr_11c4_b = pyreaper.reaper(x_11c4_b, fs_11c4_b)
pm_times_5c_b, pm_5c_b, f0_times_5c_b, f0_5c_b, corr_5c_b = pyreaper.reaper(x_5c_b, fs_5c_b)
pm_times_3c_b, pm_3c_b, f0_times_3c_b, f0_3c_b, corr_3c_b = pyreaper.reaper(x_3c_b, fs_3c_b)

import pyreaper

import pysptk

from scipy.io import wavfile

from IPython.display import Audio

file = "/dataset/wavefile/b_11C4.wav"

fs_11c4_b, x_11c4_b = wavfile.read(file)

file = "/dataset/wavefile/b_5C.wav"

fs_5c_b, x_5c_b = wavfile.read(file)

file = "/dataset/wavefile/b_3C.wav"

fs_3c_b, x_3c_b = wavfile.read(file)

# pyreaperモジュールを使ってピッチマークやF0や相関係数を計算する。

pm_times_11c4_b, pm_11c4_b, f0_times_11c4_b, f0_11c4_b, corr_11c4_b = pyreaper.reaper(x_11c4_b, fs_11c4_b)

pm_times_5c_b, pm_5c_b, f0_times_5c_b, f0_5c_b, corr_5c_b = pyreaper.reaper(x_5c_b, fs_5c_b)

pm_times_3c_b, pm_3c_b, f0_times_3c_b, f0_3c_b, corr_3c_b = pyreaper.reaper(x_3c_b, fs_3c_b)

音声波形の比較

plt.plot(x_11c4_b);
plt.title('11c4')
plt.show();

plt.plot(x_5c_b);
plt.title('5c')
plt.show();

plt.plot(x_3c_b);
plt.title('3c')
plt.show();

plt.plot(x_11c4_b);

plt.title('11c4')

plt.show();

plt.plot(x_5c_b);

plt.title('5c')

plt.show();

plt.plot(x_3c_b);

plt.title('3c')

plt.show();

やはり慣れている分、11c4が安定してそうな波形に見えますね。3Cは結構ブレてそうです。実際の音源でもわかりますね。

ピッチの比較

plt.plot(pm_times_11c4_b, pm_11c4_b, linewidth=3, color="red", label="Pitch mark")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(pm_times_5c_b, pm_5c_b, linewidth=3, color="red", label="Pitch mark")
plt.title('5c')
plt.legend(fontsize=15);
plt.show();

plt.plot(pm_times_3c_b, pm_3c_b, linewidth=3, color="red", label="Pitch mark")
plt.title('3c')
plt.legend(fontsize=15);
plt.show();

plt.plot(pm_times_11c4_b, pm_11c4_b, linewidth=3, color="red", label="Pitch mark")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(pm_times_5c_b, pm_5c_b, linewidth=3, color="red", label="Pitch mark")

plt.title('5c')

plt.legend(fontsize=15);

plt.show();

plt.plot(pm_times_3c_b, pm_3c_b, linewidth=3, color="red", label="Pitch mark")

plt.title('3c')

plt.legend(fontsize=15);

plt.show();

発音のあったところで1となる指標です。今回は伸ばしているだけなので、何の面白味もないです。

基本周波数（F0）の比較

plt.plot(f0_times_11c4_b, f0_11c4_b, linewidth=3, color="green", label="F0 contour")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(f0_times_5c_b, f0_5c_b, linewidth=3, color="green", label="F0 contour")
plt.legend(fontsize=15);
plt.title('5c')
plt.show();

plt.plot(f0_times_3c_b, f0_3c_b, linewidth=3, color="green", label="F0 contour")
plt.legend(fontsize=15);
plt.title('3c')
plt.show();

plt.plot(f0_times_11c4_b, f0_11c4_b, linewidth=3, color="green", label="F0 contour")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(f0_times_5c_b, f0_5c_b, linewidth=3, color="green", label="F0 contour")

plt.legend(fontsize=15);

plt.title('5c')

plt.show();

plt.plot(f0_times_3c_b, f0_3c_b, linewidth=3, color="green", label="F0 contour")

plt.legend(fontsize=15);

plt.title('3c')

plt.show();

音程をつかさどるF0に関しては3Cが安定してそうです。聴いたらブレブレなのに。

相関係数の比較

plt.plot(f0_times_11c4_b, corr_11c4_b, linewidth=3, color="blue", label="Correlations")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(f0_times_5c_b, corr_5c_b, linewidth=3, color="blue", label="Correlations")
plt.legend(fontsize=15);
plt.title('5c')
plt.show();

plt.plot(f0_times_3c_b, corr_3c_b, linewidth=3, color="blue", label="Correlations")
plt.legend(fontsize=15);
plt.title('3c')
plt.show();

plt.plot(f0_times_11c4_b, corr_11c4_b, linewidth=3, color="blue", label="Correlations")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(f0_times_5c_b, corr_5c_b, linewidth=3, color="blue", label="Correlations")

plt.legend(fontsize=15);

plt.title('5c')

plt.show();

plt.plot(f0_times_3c_b, corr_3c_b, linewidth=3, color="blue", label="Correlations")

plt.legend(fontsize=15);

plt.title('3c')

plt.show();

いつも使っている11c4がブレにくいようで、5Cが比較的に上下動が多いように見えます。

音声波形などの可視化〜練習曲〜

結局、マウスピースは5Cを購入して、その後スタジオで練習曲の音を比較しました。先ほどと同様に音源が以下で実際に聴けるようになっています。（耳を痛めないように、最も小さい音で聴いてから調整してください。）私は、実際に録音して、マウスピースでこんなに変わるんだと驚きを隠せないです。チューニングベーを比較するだけではわかりにくいんですかね。私としては、5Cの音の方が好きです。

・Yamaha 11C4での練習曲

・Bach 5Cでの練習曲

file = "/dataset/wavefile/rupin_11C4.wav"
fs_11c4, x_11c4 = wavfile.read(file)

file = "/dataset/wavefile/rupin_5C.wav"
fs_5c, x_5c = wavfile.read(file)

# pyreaperモジュールを使ってピッチマークやF0や相関係数を計算する。
pm_times_11c4, pm_11c4, f0_times_11c4, f0_11c4, corr_11c4 = pyreaper.reaper(x_11c4, fs_11c4)
pm_times_5c, pm_5c, f0_times_5c, f0_5c, corr_5c = pyreaper.reaper(x_5c, fs_5c)

file = "/dataset/wavefile/rupin_11C4.wav"

fs_11c4, x_11c4 = wavfile.read(file)

file = "/dataset/wavefile/rupin_5C.wav"

fs_5c, x_5c = wavfile.read(file)

# pyreaperモジュールを使ってピッチマークやF0や相関係数を計算する。

pm_times_11c4, pm_11c4, f0_times_11c4, f0_11c4, corr_11c4 = pyreaper.reaper(x_11c4, fs_11c4)

pm_times_5c, pm_5c, f0_times_5c, f0_5c, corr_5c = pyreaper.reaper(x_5c, fs_5c)

音声波形の比較

plt.plot(x_11c4);
plt.title('11c4')
plt.show();

plt.plot(x_5c);
plt.title('5c')
plt.show();

plt.plot(x_11c4);

plt.title('11c4')

plt.show();

plt.plot(x_5c);

plt.title('5c')

plt.show();

5Cのほうが上下の大きさが対称に近いような印象を受けます。いい音を捉える参考になるんですかね？

ピッチの比較

plt.plot(pm_times_11c4, pm_11c4, linewidth=3, color="red", label="Pitch mark")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(pm_times_5c, pm_5c, linewidth=3, color="red", label="Pitch mark")
plt.title('5c')
plt.legend(fontsize=15);
plt.show();

plt.plot(pm_times_11c4, pm_11c4, linewidth=3, color="red", label="Pitch mark")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(pm_times_5c, pm_5c, linewidth=3, color="red", label="Pitch mark")

plt.title('5c')

plt.legend(fontsize=15);

plt.show();

おそらく、11c4の音源の息継ぎのタイミングがやや長くなった結果、ピッチに差が出たのではないかと思います。

基本周波数（F0）の比較

plt.plot(f0_times_11c4, f0_11c4, linewidth=3, color="green", label="F0 contour")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(f0_times_5c, f0_5c, linewidth=3, color="green", label="F0 contour")
plt.legend(fontsize=15);
plt.title('5c')
plt.show();

plt.plot(f0_times_11c4, f0_11c4, linewidth=3, color="green", label="F0 contour")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(f0_times_5c, f0_5c, linewidth=3, color="green", label="F0 contour")

plt.legend(fontsize=15);

plt.title('5c')

plt.show();

比較が難しいですが、最後の伸ばしは5Cのほうが安定しているようです。

相関係数の比較

plt.plot(f0_times_11c4, corr_11c4, linewidth=3, color="blue", label="Correlations")
plt.legend(fontsize=15);
plt.title('11c4')
plt.show();

plt.plot(f0_times_5c, corr_5c, linewidth=3, color="blue", label="Correlations")
plt.legend(fontsize=15);
plt.title('5c')
plt.show();

plt.plot(f0_times_11c4, corr_11c4, linewidth=3, color="blue", label="Correlations")

plt.legend(fontsize=15);

plt.title('11c4')

plt.show();

plt.plot(f0_times_5c, corr_5c, linewidth=3, color="blue", label="Correlations")

plt.legend(fontsize=15);

plt.title('5c')

plt.show();

5Cのほうが上下動をしているように見えます。いいなと思う音の方が上下動しやすいのでしょうか。気になるところ。

追記：スペクトログラムの比較

どうやら音色を考えるうえで、縦軸に周波数、横軸に時間をとったスペクトログラムというものを可視化するのも良いらしいです。参考文献に従って行ってみます。

import sys
import numpy as np
import librosa
import matplotlib.pyplot as plt
import scipy.io.wavfile
import librosa.display

## 11C4
# 16bitの音声ファイルのデータを-1から1に正規化
data = x_11c4 / 32768

# フレーム長
fft_size = 1024                 

# フレームシフト長 
hop_length = int(fft_size / 4)  
 
# 短時間フーリエ変換実行
amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))
 
# 振幅をデシベル単位に変換
log_power = librosa.core.amplitude_to_db(amplitude)
 
# グラフ表示
librosa.display.specshow(log_power, sr=fs_11c4, hop_length=hop_length, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')  
plt.title('11c4')
plt.show()         


## 5C

# 16bitの音声ファイルのデータを-1から1に正規化
data = x_5c / 32768
# フレーム長
fft_size = 1024                 
# フレームシフト長 
hop_length = int(fft_size / 4)  
 
# 短時間フーリエ変換実行
amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))
 
# 振幅をデシベル単位に変換
log_power = librosa.core.amplitude_to_db(amplitude)
 
# グラフ表示
librosa.display.specshow(log_power, sr=fs_5c, hop_length=hop_length, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')  
plt.title('5c')
plt.show()

import sys

import numpy as np

import librosa

import matplotlib.pyplot as plt

import scipy.io.wavfile

import librosa.display

## 11C4

# 16bitの音声ファイルのデータを-1から1に正規化

data = x_11c4 / 32768

# フレーム長

fft_size = 1024

# フレームシフト長

hop_length = int(fft_size / 4)

# 短時間フーリエ変換実行

amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))

# 振幅をデシベル単位に変換

log_power = librosa.core.amplitude_to_db(amplitude)

# グラフ表示

librosa.display.specshow(log_power, sr=fs_11c4, hop_length=hop_length, x_axis='time', y_axis='hz')

plt.colorbar(format='%+2.0f dB')

plt.title('11c4')

plt.show()

## 5C

# 16bitの音声ファイルのデータを-1から1に正規化

data = x_5c / 32768

# フレーム長

fft_size = 1024

# フレームシフト長

hop_length = int(fft_size / 4)

# 短時間フーリエ変換実行

amplitude = np.abs(librosa.core.stft(data, n_fft=fft_size, hop_length=hop_length))

# 振幅をデシベル単位に変換

log_power = librosa.core.amplitude_to_db(amplitude)

# グラフ表示

librosa.display.specshow(log_power, sr=fs_5c, hop_length=hop_length, x_axis='time', y_axis='hz')

plt.colorbar(format='%+2.0f dB')

plt.title('5c')

plt.show()

5Cよりも11C4が赤い線が1つ多いように見えます。幅広く音が鳴っていてモサっとしてしまっているのでしょうか。私としては5Cの方が音が鋭くて好きです。

おわりに

音声波形で音色の比較がうまくできるかどうか試してみたのですが、良いと思われる音とそうでない音で相関係数や音声波形などのデータの可視化において違いが生じやすいのかなという印象でした。そして音色をつかさどるとされるスペクトログラムにおいても、違いがありそうでした。
もっと音源を集めていっていい音の研究をしていこうと思います。あと、音楽の理論の方も細々と学んでいきます。

参考文献

IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集
 pyreaperで音声データのピッチを掴むためのメモ書き（F0の抽出）
Pythonで音声解析 – 音声データの周波数特性を調べる方法
 基本周波数についてのまとめ
 イラストで学ぶ音声認識 (KS情報科学専門書)

BLSTMを用いた文書分類でデザイナーズマンション予測に再挑戦

はじめに

仕事で深層学習を使うことはないのですが、扱える技術の幅を広げていきたいなと思い、BLSTMを用いた文書分類についてkerasでの簡単なサンプルコードをやってみようと思います。データは以前集めた、某不動産紹介サイトの賃貸マンションの設備に関する文書とそれがデザイナーズマンションかどうかのラベルを使います。そして文書内の単語からその文書がデザイナーズマンションかどうかを予測します。前回はAUCで83%だったので、それを超えれると良いですね。

単純なRNNとは

モチベーション
- フィードフォワード型のニューラルネットワークではうまく扱うことができない時系列データをうまく扱えるようにすること。
特徴
- 入力が互いに関係している（多層パーセプトロンの際は置かれていない仮定）
  - 直訳すると循環するニューラルネットワークとなる。
- 最初の文の単語が2つ目、3つ目の単語に影響を与える可能性を考慮。

具体的な関数の形としては、 $$ h_t = \tanh (W h_{t-1} + U x_t) \\\ y_t = softmax(V h_t) $$ で与えられる。

$ h_t $は隠れ層の状態を、$ x_t $は入力変数を、$ y_t $は出力ベクトルを表している。（他のアルファベットは重み行列）

LSTMとは

モチベーション
- 単純なRNNの勾配消失問題を解決するために提案された手法。
特徴
- 単純なRNNに置き換えることで性能が大幅に向上することも珍しくない。
  - 時系列データ、長い文章、録音データからなる長期的なパターンを取り出すことを得意としている手法。
- 勾配消失問題に強い
- Long Short-Term Memory：長短期記憶
  - 長期依存性を学習できるRNNの亜種。
  - 入力ゲート、忘却ゲート、出力ゲート、内部隠れ層という4つの層が相互に関わり合う。重要な入力を認識し、それを長期状態に格納すること、必要な限りで記憶を保持すること、必要なときに記憶を取り出すことを学習する。
    - 入力ゲート：内部隠れ層のどの部分を長期状態に加えるかを決める。
    - 忘却ゲート：長期状態のどの部分を消去するか決める。
    - 出力ゲート：各タイムステップで、長期状態のどの部分を読み出し、出力するかを決める。

$$
i = \sigma (W_i h_{t-1} + U_i x_t) \\
f = \sigma (W_f h_{t-1} + U_f x_t) \\
o = \sigma (W_o h_{t-1} + U_ox_t ) \\
g = \tanh (W_g h_{t-1} + U_g x_t) \\
c_t = (c_{t-1} \otimes f ) \otimes ( g \otimes i) \\
h_t = \tanh (c_t) \otimes o
$$ i：入力ゲート(input)
f：忘却ゲート(forget)
o：出力ゲート(output)
$ \sigma $：シグモイド関数
g：内部隠れ層状態
$c_t $：時刻tにおけるセル状態
$h_t $：時刻tにおける隠れ状態

Bidirectional LSTMとは

モチベーション
- 従来のRNNの制約を緩和するために導入。
特徴
- ある特定の時点で過去と将来の利用可能な入力情報を用いて訓練するネットワーク
  - 従来のRNNのニューロンをフォワード(未来)なものとバックワード(過去)なものとの2つに分ける。
    - 2つのLSTMを訓練している。
  - 全体のコンテキストを利用して推定することができるのが良いらしい。
    - 文章で言うと、文章の前(過去)と後(未来)を考慮して分類などを行うイメージ。
  - 人間もコンテキストを先読みしながら解釈することもある。
- BLSTMは全てのシークエンスの予測問題において有効ではないが、適切に扱えるドメインで良い結果を残す。
- 1997年とかなり歴史があるものらしい

（出典：Deep Dive into Bidirectional LSTM）

Bidirectional LSTMで文書分類

今回は、BLSTMを使って、マンションの設備に関するテキスト情報から、そのマンションがデザイナーズマンションかどうかを予測します。全体のソースコードはGoogle Colabを御覧ください。

データ

import pandas as pd
from sklearn.model_selection import train_test_split

# GitHubにおいてあるマンションのデータを読み込む
raw_data = pd.read_csv("https://github.com/KamonohashiPerry/kamonohashiperry.com/blob/master/designers_apartment/designers_apartment.csv?raw=true")
raw_data["text"] = raw_data["text"].str.replace("デザイナーズ", "") 

# 訓練データとテストデータを分割
train_x, test_x, train_y, test_y = train_test_split(raw_data["text"], raw_data["designer_flag"], test_size=0.3, random_state=123)

import pandas as pd

from sklearn.model_selection import train_test_split

# GitHubにおいてあるマンションのデータを読み込む

raw_data = pd.read_csv("https://github.com/KamonohashiPerry/kamonohashiperry.com/blob/master/designers_apartment/designers_apartment.csv?raw=true")

raw_data["text"] = raw_data["text"].str.replace("デザイナーズ", "")

# 訓練データとテストデータを分割

train_x, test_x, train_y, test_y = train_test_split(raw_data["text"], raw_data["designer_flag"], test_size=0.3, random_state=123)

データを確認してみると、

train_x
246     バストイレ別 バルコニー エアコン クロゼット フローリング 浴室乾燥機 オートロック シス...
1402    バストイレ別 バルコニー エアコン ガスコンロ対応 クロゼット フローリング TVインターホ...
1586    バストイレ別 バルコニー エアコン ガスコンロ対応 クロゼット フローリング TVインターホ...
375     バストイレ別 バルコニー エアコン クロゼット フローリング 浴室乾燥機 オートロック 室内...
1272    エアコン フローリング 室内洗濯置 シューズボックス 角住戸 光ファイバー 2面採光 最上階...
1122    バストイレ別 バルコニー エアコン ガスコンロ対応 クロゼット フローリング TVインターホ...
1346    バストイレ別 バルコニー エアコン ガスコンロ対応 クロゼット フローリング オートロック...
1406    バストイレ別 バルコニー エアコン ガスコンロ対応 フローリング シャワー付洗面台 オートロ...
1389    バストイレ別 エアコン クロゼット フローリング シューズボックス 押入 光ファイバー 即入...
1534    バルコニー エアコン クロゼット TVインターホン オートロック 陽当り良好 シューズボック...

train_x

246 バストイレ別バルコニーエアコンクロゼットフローリング浴室乾燥機オートロックシス...

1402 バストイレ別バルコニーエアコンガスコンロ対応クロゼットフローリング TVインターホ...

1586 バストイレ別バルコニーエアコンガスコンロ対応クロゼットフローリング TVインターホ...

375 バストイレ別バルコニーエアコンクロゼットフローリング浴室乾燥機オートロック室内...

1272 エアコンフローリング室内洗濯置シューズボックス角住戸光ファイバー 2面採光最上階...

1122 バストイレ別バルコニーエアコンガスコンロ対応クロゼットフローリング TVインターホ...

1346 バストイレ別バルコニーエアコンガスコンロ対応クロゼットフローリングオートロック...

1406 バストイレ別バルコニーエアコンガスコンロ対応フローリングシャワー付洗面台オートロ...

1389 バストイレ別エアコンクロゼットフローリングシューズボックス押入光ファイバー即入...

1534 バルコニーエアコンクロゼット TVインターホンオートロック陽当り良好シューズボック...

train_y

246 1

1402 0

1586 0

375 1

1272 0

1122 0

1346 0

1406 0

1389 0

1534 0

今回のデータがテキストとラベルからなっていることがわかる。なお、データ数は1864件あり、そのうち16%がデザイナーズマンションです。

前処理

Google Colab上で形態素解析を行うために、MeCabをインストールする。

!apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab
# せっかくなので、Neologdを使えるようにする。
!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n
!cat /etc/mecabrc
!sed -e "s!/var/lib/mecab/dic/debian!/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd!g" /etc/mecabrc > /etc/mecabrc.new
!cat /etc/mecabrc.new
!cp /etc/mecabrc /etc/mecabrc.org
!cp /etc/mecabrc.new /etc/mecabrc
!cat /etc/mecabrc
!apt-get -q -y install swig
!pip install mecab-python3

!apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab

# せっかくなので、Neologdを使えるようにする。

!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n

!cat /etc/mecabrc

!sed -e "s!/var/lib/mecab/dic/debian!/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd!g" /etc/mecabrc > /etc/mecabrc.new

!cat /etc/mecabrc.new

!cp /etc/mecabrc /etc/mecabrc.org

!cp /etc/mecabrc.new /etc/mecabrc

!cat /etc/mecabrc

!apt-get -q -y install swig

!pip install mecab-python3

これでMaCab NeologdをGoogle ColabのPythonで実行できます。

テキストデータの前処理を行うために名詞だけを抽出してリスト形式で返す関数を定義します。

# 形態素解析を行い、名詞だけ抽出し、かつ名詞の中でも活用を絞り込んで抽出する関数
def nouns_extract(line):
    import re
    import MeCab
    keyword=[]
    m = MeCab.Tagger(' -d  /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd ')
    for l in m.parse(line).splitlines():
        if l != 'EOS' and l.split('\t')[1].split(',')[0] == '名詞':
            if l != 'EOS' and re.search('^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞

# 形態素解析を行い、名詞だけ抽出し、かつ名詞の中でも活用を絞り込んで抽出する関数

def nouns_extract(line):

import re

import MeCab

keyword=[]

m = MeCab.Tagger(' -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd ')

for l in m.parse(line).splitlines():

if l != 'EOS' and l.split('\t')[1].split(',')[0] == '名詞':

if l != 'EOS' and re.search('^一般$|^形容動詞語幹$|^サ変接続$|^副詞可能$|^固有名詞

ここで、語彙に関するデータを作成します。

import collections

# 語彙に関するデータを作成するための処理
maxlen = 0
word_freqs = collections.Counter()
num_recs = 0

for sentence in list(train_x):
  words = nouns_extract(sentence)
  maxlen = max(maxlen, len(words)) # リストの最大値を取得
  # 単語の出現頻度を集計
  for word in words:
    word_freqs[word] += 1
  num_recs += 1

import collections

# 語彙に関するデータを作成するための処理

maxlen = 0

word_freqs = collections.Counter()

num_recs = 0

for sentence in list(train_x):

words = nouns_extract(sentence)

maxlen = max(maxlen, len(words)) # リストの最大値を取得

# 単語の出現頻度を集計

for word in words:

word_freqs[word] += 1

num_recs += 1

続いて、単語とそのインデックスからなるdict形式のデータを作成します。

# 語彙のなかから2000語を選ぶ
MAX_FEATURES = 2000
# 文の長さの最大値
MAX_SENTENCE_LENGTH = 40
# 語彙数
vocab_size = min(MAX_FEATURES, len(word_freqs)) + 2
# 単語とそのインデックスからなるdict形式のデータ
word2index = {x[0]: i+2 for i, x in enumerate(word_freqs.most_common(MAX_FEATURES))}

# 0番目と1番目にパディング用(PAD)と擬似単語(UNK)を指定する
# パディングとは系列の長さを揃えること。
word2index['PAD'] = 0
word2index['UNK'] = 1

# インデックスとその単語からなるdict形式のデータ
index2word = {v:k for k, v in word2index.items()}

# 語彙のなかから2000語を選ぶ

MAX_FEATURES = 2000

# 文の長さの最大値

MAX_SENTENCE_LENGTH = 40

# 語彙数

vocab_size = min(MAX_FEATURES, len(word_freqs)) + 2

# 単語とそのインデックスからなるdict形式のデータ

word2index = {x[0]: i+2 for i, x in enumerate(word_freqs.most_common(MAX_FEATURES))}

# 0番目と1番目にパディング用(PAD)と擬似単語(UNK)を指定する

# パディングとは系列の長さを揃えること。

word2index['PAD'] = 0

word2index['UNK'] = 1

# インデックスとその単語からなるdict形式のデータ

index2word = {v:k for k, v in word2index.items()}

最後に、これまでに作成した語彙とそのインデックスのデータを用いて、実際に学習に使う入力データと出力データを作成します。

import numpy as np

# 空の変数を作成
X = np.empty((num_recs, ), dtype=list)
y = np.zeros((num_recs, ))
i = 0

train_x_list = list(train_x)
train_y_list = list(train_y)

for i in range(len(train_x_list)):
  label = train_y_list[i]
  words = nouns_extract(train_x_list[i])
  # 特徴量用の空の変数
  seqs = []
  for word in words:
    # 単語を照合してインデックスを取得
    if word in word2index:
      seqs.append(word2index[word])
    else:
      # 語彙に存在しない単語の場合はUNKのインデックスを付与する          
      seqs.append(word2index["UNK"])

  X[i] = seqs
  y[i] = int(label)
  i += 1

# パディングして、同じ長さに揃えてくれる関数
X = sequence.pad_sequences(X, maxlen=MAX_SENTENCE_LENGTH)

import numpy as np

# 空の変数を作成

X = np.empty((num_recs, ), dtype=list)

y = np.zeros((num_recs, ))

i = 0

train_x_list = list(train_x)

train_y_list = list(train_y)

for i in range(len(train_x_list)):

label = train_y_list[i]

words = nouns_extract(train_x_list[i])

# 特徴量用の空の変数

seqs = []

for word in words:

# 単語を照合してインデックスを取得

if word in word2index:

seqs.append(word2index[word])

else:

# 語彙に存在しない単語の場合はUNKのインデックスを付与する

seqs.append(word2index["UNK"])

X[i] = seqs

y[i] = int(label)

i += 1

# パディングして、同じ長さに揃えてくれる関数

X = sequence.pad_sequences(X, maxlen=MAX_SENTENCE_LENGTH)

実行

先程作成したデータを訓練データとテストデータに分けます。

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)

1	Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)

ここで、AUCを計算するための関数を定義します。（まるまる拝借しました）

import tensorflow as tf
from sklearn.metrics import roc_auc_score
from keras.callbacks import Callback, EarlyStopping

# define roc_callback, inspired by https://github.com/keras-team/keras/issues/6050#issuecomment-329996505
def auc_roc(y_true, y_pred):
    # any tensorflow metric
    value, update_op = tf.contrib.metrics.streaming_auc(y_pred, y_true)
    
    # find all variables created for this metric
    metric_vars = [i for i in tf.local_variables() if 'auc_roc' in i.name.split('/')[1]]
    
    # Add metric variables to GLOBAL_VARIABLES collection.
    # They will be initialized for new session.
    for v in metric_vars:
        tf.add_to_collection(tf.GraphKeys.GLOBAL_VARIABLES, v)

    # force to update metric values
    with tf.control_dependencies([update_op]):
        value = tf.identity(value)
        return value

import tensorflow as tf

from sklearn.metrics import roc_auc_score

from keras.callbacks import Callback, EarlyStopping

# define roc_callback, inspired by https://github.com/keras-team/keras/issues/6050#issuecomment-329996505

def auc_roc(y_true, y_pred):

# any tensorflow metric

value, update_op = tf.contrib.metrics.streaming_auc(y_pred, y_true)

# find all variables created for this metric

metric_vars = [i for i in tf.local_variables() if 'auc_roc' in i.name.split('/')[1]]

# Add metric variables to GLOBAL_VARIABLES collection.

# They will be initialized for new session.

for v in metric_vars:

tf.add_to_collection(tf.GraphKeys.GLOBAL_VARIABLES, v)

# force to update metric values

with tf.control_dependencies([update_op]):

value = tf.identity(value)

return value

続いて、kerasを用いて、ネットワークを構築し、コンパイルを行います。

from keras.layers import Activation, Dense, Dropout, Embedding, LSTM, Bidirectional
from keras.models import Sequential
from keras.preprocessing import sequence
from keras.callbacks import TensorBoard

LOG_DIR = "drive/Colab Notebooks/NLP/logs"

# 分散表現層の次元
EMBEDDING_SIZE = 128
# 隠れ層の数
HIDDEN_LAYER_SIZE = 64
# バッチサイズ
BATCH_SIZE = 32
# エポックの数
NUM_EPOCHS = 10

model = Sequential()

# 分散表現の層
model.add(Embedding(vocab_size, EMBEDDING_SIZE, input_length=MAX_SENTENCE_LENGTH))
# Bidirectional LSTMの層
model.add(Bidirectional(LSTM(HIDDEN_LAYER_SIZE )))
# ドロップアウト層
model.add(Dropout(0.5))
# 活性化層
model.add(Dense(1, activation='sigmoid'))

# モデルのコンパイル
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy", auc_roc])

my_callbacks = [EarlyStopping(monitor='auc_roc', patience=300, verbose=1, mode='max'), TensorBoard(LOG_DIR)]

# ネットワークの学習
history = model.fit(Xtrain, ytrain, batch_size=BATCH_SIZE,
                    epochs=NUM_EPOCHS,
                    callbacks=my_callbacks,
                    validation_data=(Xtest, ytest))

from keras.layers import Activation, Dense, Dropout, Embedding, LSTM, Bidirectional

from keras.models import Sequential

from keras.preprocessing import sequence

from keras.callbacks import TensorBoard

LOG_DIR = "drive/Colab Notebooks/NLP/logs"

# 分散表現層の次元

EMBEDDING_SIZE = 128

# 隠れ層の数

HIDDEN_LAYER_SIZE = 64

# バッチサイズ

BATCH_SIZE = 32

# エポックの数

NUM_EPOCHS = 10

model = Sequential()

# 分散表現の層

model.add(Embedding(vocab_size, EMBEDDING_SIZE, input_length=MAX_SENTENCE_LENGTH))

# Bidirectional LSTMの層

model.add(Bidirectional(LSTM(HIDDEN_LAYER_SIZE )))

# ドロップアウト層

model.add(Dropout(0.5))

# 活性化層

model.add(Dense(1, activation='sigmoid'))

# モデルのコンパイル

model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy", auc_roc])

my_callbacks = [EarlyStopping(monitor='auc_roc', patience=300, verbose=1, mode='max'), TensorBoard(LOG_DIR)]

# ネットワークの学習

history = model.fit(Xtrain, ytrain, batch_size=BATCH_SIZE,

epochs=NUM_EPOCHS,

callbacks=my_callbacks,

validation_data=(Xtest, ytest))

テストデータでの予測精度を確認します。

# testデータでの予測
score, acc, auc = model.evaluate(Xtest, ytest, batch_size=BATCH_SIZE)
print("Test score: {:.3f}, accuracy: {:.3f}, auc: {:.3f}".format(score, acc, auc))

Test score: 0.444, accuracy: 0.824, auc: 0.844

# testデータでの予測

score, acc, auc = model.evaluate(Xtest, ytest, batch_size=BATCH_SIZE)

print("Test score: {:.3f}, accuracy: {:.3f}, auc: {:.3f}".format(score, acc, auc))

Test score: 0.444, accuracy: 0.824, auc: 0.844

実際のラベルとテキストデータを見比べてみます。

for i in range(20):
  idx = np.random.randint(len(Xtest))
  xtest = Xtest[idx].reshape(1, 40)
  ylabel = ytest[idx]
  ypred = model.predict(xtest)[0][0]
  sent = " ".join([index2word[x] for x in xtest[0].tolist() if x != 0 ])
  print("{:.0f}\t{:.0f}\t{}".format(ypred, ylabel, sent))

0   0   バルコニー エアコン クロゼット フローリング 室内 洗濯 置 シューズボックス システムキッチン 住戸 外壁 タイル 入居 ガスレンジ 都市ガス
0   0   ウォークインクロゼット 保証 不要 敷金 バイク 置場 ネット 専用 回線 トランクルーム 事務所 相談 楽器 相談 トイレ ルームシェア 相談 利用 沿線 利用 徒歩 10分 専有 面積 平面 駐車場 LDK 居室 都市ガス 高速 ネット 対応 礼金 保証 会社 利用 初期 費用 カード 決済
0   0   バス トイレ エアコン ガスコンロ 対応 クロゼット フローリング 室内 洗濯 置 シューズボックス システムキッチン 脱衣所 入居 礼金 不要 最上階 敷金 ガスレンジ ダブル ロック キー 上 都市ガス
0   0   室内 洗濯 置 焚 機能 浴室 住戸 脱衣所 洗面所 独立 駐輪場 光ファイバー 入居 ペット 相談 敷金 居室 フローリング 採光 収納 内装 リフォーム 済 事務所 相談 ルームシェア 相談 利用 沿線 利用 徒歩 5分 東南 都市ガス 玄関 収納 礼金 保証 会社 利用
0   0   居室 フローリング 採光 沿線 利用 内装 リフォーム 済 眺望 良好 事務所 相談 24時間 換気 システム 南面 リビング 外装 リフォーム 済 利用 利用 沿線 利用 徒歩 10分 敷地内 ごみ 置き場 都市ガス BS 保証 会社 利用 初期 費用 カード 決済 通風 良好
0   0   TV インターホン 浴室 乾燥機 オートロック 室内 洗濯 置 システムキッチン 住戸 エレベーター 洗面所 独立 コンロ 宅配ボックス 光ファイバー 外壁 タイル BS CS 防犯カメラ 保証 不要 敷金 保証金 不要 プール 利用 沿線 利用 徒歩 10分 24時間 ゴミ 敷地内 ごみ 置き場 5年 都市ガス 礼金
0   0   バルコニー エアコン クロゼット フローリング 室内 洗濯 置 シューズボックス システムキッチン 住戸 外壁 タイル 入居 ガスレンジ 都市ガス
0   1   バス トイレ バルコニー エアコン クロゼット フローリング TV インターホン 浴室 乾燥機 オートロック 室内 洗濯 置 シューズボックス システムキッチン 温水洗浄便座 エレベーター 洗面所 独立 コンロ 駐輪場 礼金 不要 バイク 置場 ガスレンジ ネット 専用 回線 利用 沿線 利用 徒歩 10分 都市ガス BS
1   1   システム 居室 フローリング ディンプルキー ダブル ロック キー 24時間 換気 システム フロント サービス 耐火構造 耐震 構造 利用 沿線 利用 徒歩 5分 24時間 ゴミ 敷地内 ごみ 置き場 セキュリティ 会社 加入 済 間接照明 LAN 保証 会社 利用 初期 費用 カード 決済 通風 良好
0   0   バス トイレ バルコニー フローリング TV インターホン 浴室 乾燥機 オートロック 室内 洗濯 置 システムキッチン 住戸 エレベーター 洗面所 独立 CATV 入居 防犯カメラ グリル 居室 洋室 仲 エアコン 納戸 徒歩 10分 専有 面積 南西
0   0   エアコン ガスコンロ 対応 クロゼット フローリング シャワー 洗面 TV インターホン 浴室 乾燥機 室内 洗濯 置 シューズボックス 温水洗浄便座 脱衣所 洗面所 独立 駐輪場 CATV 保証 不要 CATV インターネット 平坦 保証 不要 始発駅 利用 沿線 利用 徒歩 10分 バス停 徒歩 3分 南西 都市ガス BS
0   1   住戸 浴室 窓 24時間 換気 システム クロゼット ルームシェア 相談 南面 リビング 学生 相談 一部 フローリング 利用 沿線 利用 徒歩 5分 駅 徒歩 10分 24時間 ゴミ 敷地内 ごみ 置き場 都市ガス 洗面所 ドア 南面 バルコニー BS 初期 費用 カード 決済 通風 良好0 0   対面 キッチン IH クッキング ヒーター グリル ウォークインクロゼット 保証 不要 敷金 二人 入居 相談 ネット 使用 不要 テラス 保証 不要 3年 南面 リビング 浴室 利用 沿線 利用 バス停 徒歩 3分 敷地内 ごみ 置き場 LDK 都市ガス 南面 バルコニー 天井 シューズ クロゼット 礼金
0   0   バス トイレ バルコニー エアコン フローリング 室内 洗濯 置 シューズボックス 焚 機能 浴室 駐輪場 宅配ボックス 入居 礼金 不要 敷金 不要 IH クッキング ヒーター エレベーター 2基 利用 沿線 利用 徒歩 5分 都市ガス
1   1   コンロ 宅配ボックス 光ファイバー 外壁 タイル BS CS 防犯カメラ 照明 保証人 不要 敷金 沿線 利用 ディンプルキー 洗濯機 耐火構造 始発駅 沿線 利用 徒歩 10分 24時間 ゴミ 敷地内 ごみ 置き場 居室 都市ガス 高速 ネット 対応 礼金 保証 会社 利用 初期 費用 カード 決済
0   0   バルコニー エアコン クロゼット フローリング シューズボックス 住戸 エレベーター 入居 防犯カメラ 分譲 賃貸 仲 眺望 良好 保証 不要 利用 沿線 利用 徒歩 5分 敷地内 ごみ 置き場 日勤 管理 敷金 礼金 不要 通風 良好
1   1   24時間 換気 システム 南面 リビング 一部 フローリング ISDN 対応 耐火構造 耐震 構造 利用 徒歩 5分 バス停 徒歩 3分 制震 構造 高層 24時間 ゴミ 敷地内 ごみ 置き場 都市ガス 南面 バルコニー 玄関 収納 BS 高速 ネット 対応 LAN 初期 費用 カード 決済
0   0   バイク 置場 南西 住戸 ガスレンジ ディンプルキー 内装 リフォーム 済 眺望 良好 照明 センサー 利用 沿線 利用 徒歩 10分 24時間 ゴミ 敷地内 ごみ 置き場 南西 当社 管理 物件 都市ガス 洗面所 ドア 南面 バルコニー 室内 物干 礼金 保証 会社 利用 通風 良好
0   0   駅 平坦 ネット 使用 不要 ダブル ロック キー 保証 不要 2年 24時間 換気 システム 複層ガラス 照明 センサー 利用 徒歩 10分 外壁 サイディング 24時間 ゴミ 敷地内 ごみ 置き場 南西 都市ガス 玄関 収納 年内 入居 年度内 入居 礼金 初期 費用 カード 決済
0   1   フローリング TV インターホン 浴室 乾燥機 オートロック 室内 洗濯 置 陽 良好 シューズボックス システムキッチン 焚 機能 浴室 住戸 エレベーター 洗面化粧台 コンロ 駐輪場 宅配ボックス CATV 光ファイバー BS CS 対面 キッチン 沿線 利用 楽器 相談 ウッドデッキ 利用 徒歩 10分 東南 LDK 居室 都市ガス

for i in range(20):

idx = np.random.randint(len(Xtest))

xtest = Xtest[idx].reshape(1, 40)

ylabel = ytest[idx]

ypred = model.predict(xtest)[0][0]

sent = " ".join([index2word[x] for x in xtest[0].tolist() if x != 0 ])

print("{:.0f}\t{:.0f}\t{}".format(ypred, ylabel, sent))

0 0 バルコニーエアコンクロゼットフローリング室内洗濯置シューズボックスシステムキッチン住戸外壁タイル入居ガスレンジ都市ガス

0 0 ウォークインクロゼット保証不要敷金バイク置場ネット専用回線トランクルーム事務所相談楽器相談トイレルームシェア相談利用沿線利用徒歩 10分専有面積平面駐車場 LDK 居室都市ガス高速ネット対応礼金保証会社利用初期費用カード決済

0 0 バストイレエアコンガスコンロ対応クロゼットフローリング室内洗濯置シューズボックスシステムキッチン脱衣所入居礼金不要最上階敷金ガスレンジダブルロックキー上都市ガス

0 0 室内洗濯置焚機能浴室住戸脱衣所洗面所独立駐輪場光ファイバー入居ペット相談敷金居室フローリング採光収納内装リフォーム済事務所相談ルームシェア相談利用沿線利用徒歩 5分東南都市ガス玄関収納礼金保証会社利用

0 0 居室フローリング採光沿線利用内装リフォーム済眺望良好事務所相談 24時間換気システム南面リビング外装リフォーム済利用利用沿線利用徒歩 10分敷地内ごみ置き場都市ガス BS 保証会社利用初期費用カード決済通風良好

0 0 TV インターホン浴室乾燥機オートロック室内洗濯置システムキッチン住戸エレベーター洗面所独立コンロ宅配ボックス光ファイバー外壁タイル BS CS 防犯カメラ保証不要敷金保証金不要プール利用沿線利用徒歩 10分 24時間ゴミ敷地内ごみ置き場 5年都市ガス礼金

0 0 バルコニーエアコンクロゼットフローリング室内洗濯置シューズボックスシステムキッチン住戸外壁タイル入居ガスレンジ都市ガス

0 1 バストイレバルコニーエアコンクロゼットフローリング TV インターホン浴室乾燥機オートロック室内洗濯置シューズボックスシステムキッチン温水洗浄便座エレベーター洗面所独立コンロ駐輪場礼金不要バイク置場ガスレンジネット専用回線利用沿線利用徒歩 10分都市ガス BS

1 1 システム居室フローリングディンプルキーダブルロックキー 24時間換気システムフロントサービス耐火構造耐震構造利用沿線利用徒歩 5分 24時間ゴミ敷地内ごみ置き場セキュリティ会社加入済間接照明 LAN 保証会社利用初期費用カード決済通風良好

0 0 バストイレバルコニーフローリング TV インターホン浴室乾燥機オートロック室内洗濯置システムキッチン住戸エレベーター洗面所独立 CATV 入居防犯カメラグリル居室洋室仲エアコン納戸徒歩 10分専有面積南西

0 0 エアコンガスコンロ対応クロゼットフローリングシャワー洗面 TV インターホン浴室乾燥機室内洗濯置シューズボックス温水洗浄便座脱衣所洗面所独立駐輪場 CATV 保証不要 CATV インターネット平坦保証不要始発駅利用沿線利用徒歩 10分バス停徒歩 3分南西都市ガス BS

0 1 住戸浴室窓 24時間換気システムクロゼットルームシェア相談南面リビング学生相談一部フローリング利用沿線利用徒歩 5分駅徒歩 10分 24時間ゴミ敷地内ごみ置き場都市ガス洗面所ドア南面バルコニー BS 初期費用カード決済通風良好0 0 対面キッチン IH クッキングヒーターグリルウォークインクロゼット保証不要敷金二人入居相談ネット使用不要テラス保証不要 3年南面リビング浴室利用沿線利用バス停徒歩 3分敷地内ごみ置き場 LDK 都市ガス南面バルコニー天井シューズクロゼット礼金

0 0 バストイレバルコニーエアコンフローリング室内洗濯置シューズボックス焚機能浴室駐輪場宅配ボックス入居礼金不要敷金不要 IH クッキングヒーターエレベーター 2基利用沿線利用徒歩 5分都市ガス

1 1 コンロ宅配ボックス光ファイバー外壁タイル BS CS 防犯カメラ照明保証人不要敷金沿線利用ディンプルキー洗濯機耐火構造始発駅沿線利用徒歩 10分 24時間ゴミ敷地内ごみ置き場居室都市ガス高速ネット対応礼金保証会社利用初期費用カード決済

0 0 バルコニーエアコンクロゼットフローリングシューズボックス住戸エレベーター入居防犯カメラ分譲賃貸仲眺望良好保証不要利用沿線利用徒歩 5分敷地内ごみ置き場日勤管理敷金礼金不要通風良好

1 1 24時間換気システム南面リビング一部フローリング ISDN 対応耐火構造耐震構造利用徒歩 5分バス停徒歩 3分制震構造高層 24時間ゴミ敷地内ごみ置き場都市ガス南面バルコニー玄関収納 BS 高速ネット対応 LAN 初期費用カード決済

0 0 バイク置場南西住戸ガスレンジディンプルキー内装リフォーム済眺望良好照明センサー利用沿線利用徒歩 10分 24時間ゴミ敷地内ごみ置き場南西当社管理物件都市ガス洗面所ドア南面バルコニー室内物干礼金保証会社利用通風良好

0 0 駅平坦ネット使用不要ダブルロックキー保証不要 2年 24時間換気システム複層ガラス照明センサー利用徒歩 10分外壁サイディング 24時間ゴミ敷地内ごみ置き場南西都市ガス玄関収納年内入居年度内入居礼金初期費用カード決済

0 1 フローリング TV インターホン浴室乾燥機オートロック室内洗濯置陽良好シューズボックスシステムキッチン焚機能浴室住戸エレベーター洗面化粧台コンロ駐輪場宅配ボックス CATV 光ファイバー BS CS 対面キッチン沿線利用楽器相談ウッドデッキ利用徒歩 10分東南 LDK 居室都市ガス

LSTMの場合は、BLSTMに関する記述（1行）をネットワークから除外すれば良いので簡単に試すことができます。せっかくなので比較してみたところ、AUCは0.841でした。BLSTMは0.844だったので、若干上回る程度のようです。以前扱った記事ではデザイナーズマンション分類はAUCが0.83程度だったので、LSTMを使ったほうが精度が少しだけ高いようです。

追記

TensorBoardの検証のloglossを見てみます。

エポックに対してloglossが非常に荒れています。学習曲線としてはセオリー的にアウトなようです。一方で、検証のAUCはエポックに従って高まるようです。

AUCは良くなっているけどloglossが増え続けている。loglossが下がらないと過学習している可能性が高いので、これは過学習しているだけなのだろう。

参考文献

2019年に読んだデータ分析系の本の振り返り（21+1冊）

はじめに

2020年、あけましておめでとうございます。年末に自分自身を振り返ろうと思ったのですが、結局データ分析と勉強しかしていないわけで、書籍を振り返ろうと思うに至りました。私の知り合いのデータサイエンティストはだいたい全冊持っているであろうと思われますが、良い本だと思うので思い出していただければ幸いです。

1.『ベイズモデリングの世界』（岩波書店）

基本的に階層ベイズモデルを使って、個体ごとの異質性を考慮した分析手法が提案されています。前半はオムニバス形式で様々な先生がモデルの適用について執筆されており、後半では伊庭先生による階層ベイズモデルの講義になっています。途中でスタイン統計量による縮小推定の話があげられ、柔軟なモデリングのためには「階層化した方が少なくとも望ましい推定量が得られる」という数学的証明を捨てることもやむを得ないと書かれています。

2.『トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ) 』（コロナ社）

この本はトピックモデルの教科書というよりも、ベイズ推定の教科書という側面が強い印象があります。途中で出てくる数式は流し読みするのは難しく、最低2冊以上のノートが別途必要になると思います。一度でもLDAのパラメータを導出してみたいという方には良い教科書だと思います。疑似コードが提供されているので、それをもとにRやPythonでコーディングしていけば、一番シンプルなLDAが非常に短い行で実行できてしまうことに驚かれるかもしれません。人間が手を動かして推定アルゴリズムを導出しているからこそ、短いコードで済むということを実感できるはずです。

3.『構造的因果モデルの基礎』（共立出版）

グラフィカルなアプローチで因果推論を扱っている書籍です。Judea Pearl流の因果推論アプローチについて記すことを目的に書かれています。基礎と書かれていますが決して簡単ではありません。ただ、扱われる数学のレベルとしては確率と線形代数がわかれば大丈夫だと思われます。余談ではありますが、1章の相関関係と因果関係の事例紹介で「おむつとビールの話」が都市伝説ではなくきちんと記事としてWall Street Journalという雑誌に掲載されていたことが明らかにされています。

4.『現場で使える！PyTorch開発入門深層学習モデルの作成とアプリケーションへの実装 (AI & TECHNOLOGY)』（翔泳社）

PyTorchを触ったことがないが、深層学習の手法について知っている層を対象とした本です。6章まではGoogleのColabで動かせるのでGoogleに課金することなく深層学習による回帰、CNN、GAN、RNN、Encoder-Decoderモデル、ニューラル行列因子分解をPyTorchで試すことができます。写経したものはこちら。転移学習や高解像度化や画像生成、文章のクラス分類、文書生成、機械翻訳などもできるので、PyTorchでこれくらいの量をコーディングしたらこれくらいのことができるのかという学びや、他の人の書いたPyTorchコードを読みやすくなるなどの便益は十分にあると思いました。

5.『作ってわかる! アンサンブル学習アルゴリズム入門』（シーアンドアール研究所）

会社で行っているPythonもくもく会用に買った本で、scikit-learnを使わずに機械学習のアルゴリズム（アンサンブル系）をコーディングするための本です。pythonのコードについて逐次、細かい解説が行われているわけではないので、1行1行自分でコメントを加えながら写経をしていけば力が付くという本かなと思われます。sklearnはそれはそれで素晴らしいですが、こういう本でフルスクラッチで修行できるのはいいですね。

6.『数理統計学―基礎から学ぶデータ解析』（内田老鶴圃）

統計検定1級を合格された方のブログで紹介されていた教科書です。理系の大学生レベルの数学知識があれば、数理統計学の基礎を学べると思います。中心極限定理の証明や、様々な分布の期待値や分散、様々な分布の性質について数式を用いてしっかり理解することができます。数式もほどよく端折られているので、無論ですがノートが数冊必要になります。各章毎にある練習問題も解くことで力が付くと思います。日本の大学の授業の教科書がこれだったらジェノサイド（再履修者の大量発生）が起きるんだろうなと思ってしまった。

7.『44の例題で学ぶ統計的検定と推定の解き方』（オーム社）

統計の検定に関してだけ扱った珍しい本です。第3部までは統計学の普通の教科書ですが、それ以降であらゆる検定の例題が44件も載せられています。パラメトリックな検定から、ノンパラメトリックな検定まで幅広く扱われています。一番気にいっているのは仮説検定法の分類の表です。これさえあれば、どのデータに対してどの検定を行えばいいかが一目瞭然です。

8.『わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する』（技術評論社）

機械学習の原理を手早く数式を交えて学べる本です。かゆいところに手が届いていると言うか、既出の教科書では捨象されがちな、条件付き確率における2変数以上の条件づけでの表現に紙面を割いていたりしてくれるのが嬉しいです。ある程度数学の話はわかるが、だいぶ忘れているビジネスパーソンには大変にありがたいコンテンツと言えると思います。ベイズ線形回帰に関しても行列を用いた、わかりやすい導出方法が紹介されています。またコラムで紹介されている、測度論にどう向き合えばいいかの著者の見解は参考になります。

9.『Statistical Rethinking: A Bayesian Course with Examples in R and Stan (Chapman & Hall/CRC Texts in Statistical Science)』

R言語とstanを用いてベイズ統計学を入門レベルから学べる本です。各トピックごとにそれなりの紙面が割かれています。例題も豊富にあるので、線形回帰・MCMC・情報量基準・階層ベイズモデルまで、ベイズ統計学を基礎から応用までしっかりと学べると思います。youtubeで著者の講義も配信されているので、留学気分を味わえます。

10.『scikit-learnとTensorFlowによる実践機械学習』（オライリージャパン）

2019年に日本で開かれたML SummitでTFの開発者がおすすめしていた教科書です。前半部分で機械学習の入門から応用までをわかりやすい説明で学ぶことができます。数式は少ないですが、図とソースコード（Python）がちりばめられており、手を動かして理解を進めることができます。後半部分はTensorFlowを用いた深層学習の基礎を同様に手を動かして学ぶことができます。ただ、TFのバージョンも変わってきているので前半の説明をアテにして読むのも良いと思います。

11.『AIアルゴリズムマーケティング自動化のための機械学習/経済モデル、ベストプラクティス、アーキテクチャ (impress top gear)』

マーケティングへのデータサイエンスの適用に関する珍しい書籍です。ソースコードはついていないですが、業務で使う際のアイデアが手に入ることもあります。一般的な回帰、生存時間分析、オークション、アトリビューション分析、アップリフトモデリング以外にも、情報検索やレコメンデーションやトピックモデルなどマーケティングながら学際的なトピックも扱われています。レコメンドなどで使われる、ランク学習に関して詳しく書かれた書籍をあまり知らないので、この本はその点においてもありがたい本でもあります。

12.『入門統計的因果推論』（朝倉書店）

ほぼ全ての章でグラフィカルなアプローチで因果推論を扱っています。例題も豊富なので、一つ一つ丁寧にやれば理解が捗ります。おそらく、例題の多さを含め一番丁寧にd分離性、do演算子、バックドア基準、フロントドア基準に関する説明をしてくれている本なのかなと思いました。グラフでの因果推論に関して初めての人でも、確率さえ知っていれば読み進めることができるはずです。また、途中で操作変数法の紹介もされ、経済学出身者としては読みやすい。ただ、傾向スコアのくだりや、DIDなどのくだりはあまり出てきません。あと、やってないですが章末の練習問題に対するSolution Manualが提供されているようです。

13.『実践ベイズモデリング -解析技法と認知モデル-』（朝倉書店）

ベイズモデリングを様々な事例に適用する方法がオムニバス形式で記された本です。ワイブル分布や異質性を考慮した二項分布、無制限複数選択形式のアンケートデータに対する手法、トピックモデル、項目反応理論などが扱われています。マーケティングの実務で使える事例が多いように感じました。こちらはサポートサイトでRコードとstanコードが提供されています。あと、appendixにあるプレート表現の見方も参考になります。

14.『機械学習スタートアップシリーズベイズ推論による機械学習入門 (KS情報科学専門書)』

機械学習などで用いるベイズ推論を扱った教科書です。入門とありますが、入門者は書かれた数式をそのまま見ていても頭に入らないのではないでしょうか。手を動かしてなんぼの本だと思います。ノート2冊は絶対に必要です。たぶん、数式の展開を丁寧に記すと倍以上の厚みの本になると思います。各々のモデルに関してグラフィカルモデルが記されているのや、サンプルコードとしてGitHubにJuliaで書かれたソースコードが提供されているのも良いです。

15.『その問題、数理モデルが解決します』（ベレ出版）

物語形式で、様々な問題に対して数理モデリングのアプローチが紹介されています。途中でマッチング理論やゲーム理論やオークションなども登場することから、経済学出身者も喜ぶ内容かもしれません。社会人になってからナッシュ均衡という言葉が書かれた本は中々出会って来なかった。

16.『ヤバい予測学 ― 「何を買うか」から「いつ死ぬか」まであなたの行動はすべて読まれている』（CCCメディアハウス）

2013年と結構古い本ですが、データ分析を様々な事象に対して適用した事例紹介本です。アップリフトモデリングへの言及もあり、こういったものに関して日本は何年も遅れてブームが来るんだなという実感を与えてくれた本でもありました。appendixに分析事例が147個ほどあげられているのも参考になります。

17.『たのしいベイズモデリング2: 事例で拓く研究のフロンティア』（北大路書房）

主にstanを用いたベイズモデリングによる分析事例が1と2で38本もオムニバス形式で載っています。ほとんどの事例で階層ベイズモデルが扱われています。2では若干マーケティングに近い内容の題材も扱われ、データサイエンティストの人にも嬉しい内容かもしれません。もちろんデータとstanとRのコードがサポートサイトで提供されています。

18.『カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)』（共立出版）

状態空間モデルで時系列予測を行うための手法が記されている本です。RのKFASパッケージが全面に渡って扱われています。トレンドを考慮したり、カレンダー効果を追加したり、共変量を追加したりなど様々なアプローチが紹介されコードも伴っているわけですから、業務でも抜群に役に立ちました。

19.『機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)』（SBクリエイティブ）

自分のいる会社で最低限の数学がわかると思われる若いメンバーに買ってもらうように言っている本です。微積分・線形代数だけでなく、カルシュ・キューン・タッカー条件（最適化数学）に関しても扱ってくれているので、ここで出てくる数学がわかれば大体の論文に立ち向かえると思います。さらに、Pythonの基礎もこれで学ぶことができるので一石二鳥な素敵な本ですね。また、最後の方でスクラッチでアルゴリズムを書くパートがあり、こちらも勉強になります。

20.『機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン)』(オライリー・ジャパン)

機械学習における前処理の指針を与えてくれる本です。Pythonのコードが提供されています。例えばですが、「テストデータにだけある、新しい単語は取り除いてしまえばいい」などの細かいアドバイスが何気に嬉しいです。「Effectコーディング」「特徴量ハッシング」「ビンカウンティング」「バックオフ」「leakage-proof統計量」などは読むまで知らないところだったので勉強になりました。

21.『データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング』（オライリージャパン）

データ分析の仕事をする上で最低限必要な知識を幅広く抑えることができる本です。数式は少なく、ところどころ出てくるコードはR言語です。参考文献などがブログだったりするため厳密さがめちゃあるわけではないですが、業務で使う分には問題ないと思います。分類問題において、AUCなどの評価指標だけでなく、予測値自体の探索的分析のすすめなどが書かれており、参考になりました。また、特徴量エンジンとしてのk-NN法の話も面白いと思いました。

[+α]『プログラマのためのGoogle Cloud Platform入門サービスの全体像からクラウドネイティブアプリケーション構築まで』（翔泳社）

Google Cloud Platformを初めて触るデータ分析者にはちょうど良い本です。説明もわかりやすいので、いきなりアカウントを作ってドキュメントを解読するよりかは戸惑いは減るはずです。この本を土台に、GCS・GCEを駆使してML系のAPIを呼び出して使うなどの最低限の操作は私でもできるようになりました。GCPの画面や機能もどんどん変わっていくので書籍を買ってもアレなんですが、歴史的な背景も若干記述されているので、それはそれで勉強になります。ただ、エンジニアにこの本を買うべきか聞いた際にネガティブな意見があったのですが、たぶん現役プログラマからすると簡単過ぎるからなんだろうなと思います。

終わりに

2019年もぼちぼち勉強できましたが、2020年もこれまで同様にノートとペンを大事にする勉強を続けていき、コーディングも分析ももっともっと数をこなして会社や社会に求められるようなデータ分析官を目指していこうと思います。あぁ、英会話などの勉強をする時間を作るのが難しい。

[Python]機械学習などでテキストデータを特徴量にする際のソースコード集

テキストデータの特徴量化について

仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。
（2019/08/18 追記）Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。

アプローチ

テキストデータを特徴量にする際のアプローチとしては、以下の3つが良く使っているものとなります。
・単語ベース
・クラスタ、トピック、分散表現ベース
・文書間の類似度ベース

今回扱うデータ

ひょんなことから、昨年10月くらいに取りためたマンションの施設情報のテキストです。

緑色が印象的な某不動産紹介サイトをクローリングしました。全部で1864件ほどの文書数となります。

加えて、デザイナーズマンションかどうかのフラグを作成しました（17%くらいがデザイナーズマンションの割合）。これでもって、マンションの施設情報からデザイナーズマンションかどうかを分類できるかチャレンジしたいと思います。
ここにデータを置いていますので、興味のある方はご利用ください。

今回扱うモデル

ランダムフォレストです。10foldsクロスバリデーションによるAUCの結果を各手法のスコアとして扱います。

こちらは、任意の手法に関して10foldsクロスバリデーションで実行し、AUCのグラフを生成してくれるソースコードです。主にscikit-learnのサイトに載っているものです。引数のclassifierをsklearnの任意のモデルのインスタンスで渡せば動きます。

def classification_and_roc_analysis(k, classifier, X, y):
    import numpy as np
    from scipy import interp
    import matplotlib.pyplot as plt
    
    from pylab import rcParams
    rcParams['figure.figsize'] = 8,8

    from sklearn.model_selection import StratifiedKFold
    from sklearn.metrics import roc_curve, auc
    from sklearn.ensemble import RandomForestClassifier
    
    # Classification and ROC analysis
    # Run classifier with cross-validation and plot ROC curves
    cv = StratifiedKFold(n_splits=k, random_state = 123)
    classifier = classifier

    tprs = []
    aucs = []
    mean_fpr = np.linspace(0, 1, 100)

    i = 0
    for train, test in cv.split(X, y):
        probas_ = classifier.fit(X[train], y[train]).predict_proba(X[test])
        # Compute ROC curve and area the curve
        fpr, tpr, thresholds = roc_curve(y[test], probas_[:, 1])
        tprs.append(interp(mean_fpr, fpr, tpr))
        tprs[-1][0] = 0.0
        roc_auc = auc(fpr, tpr)
        aucs.append(roc_auc)
        plt.plot(fpr, tpr, lw=1, alpha=0.3,
                 label='ROC fold %d (AUC = %0.2f)' % (i, roc_auc))

        i += 1
    plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='r',
             label='Chance', alpha=.8)

    mean_tpr = np.mean(tprs, axis=0)
    mean_tpr[-1] = 1.0
    mean_auc = auc(mean_fpr, mean_tpr)
    std_auc = np.std(aucs)
    plt.plot(mean_fpr, mean_tpr, color='b',
             label=r'Mean ROC (AUC = %0.2f $\pm$ %0.2f)' % (mean_auc, std_auc),
             lw=2, alpha=.8)

    std_tpr = np.std(tprs, axis=0)
    tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
    tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
    plt.fill_between(mean_fpr, tprs_lower, tprs_upper, color='grey', alpha=.2,
                     label=r'$\pm$ 1 std. dev.')

    plt.xlim([-0.05, 1.05])
    plt.ylim([-0.05, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver operating characteristic example')
    plt.legend(loc="lower right")
    plt.show()

def classification_and_roc_analysis(k, classifier, X, y):

import numpy as np

from scipy import interp

import matplotlib.pyplot as plt

from pylab import rcParams

rcParams['figure.figsize'] = 8,8

from sklearn.model_selection import StratifiedKFold

from sklearn.metrics import roc_curve, auc

from sklearn.ensemble import RandomForestClassifier

# Classification and ROC analysis

# Run classifier with cross-validation and plot ROC curves

cv = StratifiedKFold(n_splits=k, random_state = 123)

classifier = classifier

tprs = []

aucs = []

mean_fpr = np.linspace(0, 1, 100)

i = 0

for train, test in cv.split(X, y):

probas_ = classifier.fit(X[train], y[train]).predict_proba(X[test])

# Compute ROC curve and area the curve

fpr, tpr, thresholds = roc_curve(y[test], probas_[:, 1])

tprs.append(interp(mean_fpr, fpr, tpr))

tprs[-1][0] = 0.0

roc_auc = auc(fpr, tpr)

aucs.append(roc_auc)

plt.plot(fpr, tpr, lw=1, alpha=0.3,

label='ROC fold %d (AUC = %0.2f)' % (i, roc_auc))

i += 1

plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='r',

label='Chance', alpha=.8)

mean_tpr = np.mean(tprs, axis=0)

mean_tpr[-1] = 1.0

mean_auc = auc(mean_fpr, mean_tpr)

std_auc = np.std(aucs)

plt.plot(mean_fpr, mean_tpr, color='b',

label=r'Mean ROC (AUC = %0.2f $\pm$ %0.2f)' % (mean_auc, std_auc),

lw=2, alpha=.8)

std_tpr = np.std(tprs, axis=0)

tprs_upper = np.minimum(mean_tpr + std_tpr, 1)

tprs_lower = np.maximum(mean_tpr - std_tpr, 0)

plt.fill_between(mean_fpr, tprs_lower, tprs_upper, color='grey', alpha=.2,

label=r'$\pm$ 1 std. dev.')

plt.xlim([-0.05, 1.05])

plt.ylim([-0.05, 1.05])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver operating characteristic example')

plt.legend(loc="lower right")

plt.show()

単語ベース

シンプルに単語をそのまま特徴量にするというものですが、文書によっては単語数が多すぎて収集がつかないと思います。そこで単語を簡単に選択できるDocumentFeatureSelectionというパッケージを利用します。

# 事前にインストールしておく
pip install DocumentFeatureSelection
pip install JapaneseTokenizer
pip install neologdn

# 事前にインストールしておく

pip install DocumentFeatureSelection

pip install JapaneseTokenizer

pip install neologdn

このパッケージでは
・TF-IDFベースの特徴量選択
・PMI（Pointwise Mutual Information）ベースの特徴量選択
・SOA（Strength of association）ベースの特徴量選択
・BNS（Bi-Normal Separation）ベースの特徴量選択
を行うことができます。

まずは今回のベースラインとして、単語のカウントベースでの特徴量を扱いたいと思います。
その前に、GitHubに上がっているデータに対して以下のように簡単な前処理をしておきます。

%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sns
import copy
import warnings
warnings.filterwarnings('ignore')

# Data Import
corpus_data = pd.read_csv("designers_apartment.csv")
corpus_data = corpus_data[~corpus_data.text.isna()].reset_index(drop=True)

# 形態素解析
import collections
import MeCab
import mojimoji
from string import digits

remove_digits = str.maketrans('', '', digits)

tagger = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

def nouns_extract(line):
    keyword=[]
    node = tagger.parseToNode(line).next
    while node:
        if node.feature.split(",")[0] == "名詞":
            keyword.append(node.surface)
        node = node.next
    keyword = str(keyword).replace("', '"," ")
    keyword = keyword.replace("\'","")
    keyword = keyword.replace("[","")
    keyword = keyword.replace("]","")
    return keyword

# 全角を半角にする
corpus_data["text_fixed"] =  list(map(lambda text: mojimoji.zen_to_han(text, kana=False) , corpus_data.text))

# 数字を除外する
corpus_data["text_fixed"] =  list(map(lambda text: text.translate(remove_digits) , corpus_data.text_fixed))

# デザイナーズという表現を除外する
corpus_data["text_fixed"] =  corpus_data.text_fixed.str.replace("デザイナーズ", "")

# 形態素解析する
corpus_data["text_wakati"] = list(map(lambda text:nouns_extract(text) , list(corpus_data.text_fixed)))

%matplotlib inline

import pandas as pd

import numpy as np

import seaborn as sns

import copy

import warnings

warnings.filterwarnings('ignore')

# Data Import

corpus_data = pd.read_csv("designers_apartment.csv")

corpus_data = corpus_data[~corpus_data.text.isna()].reset_index(drop=True)

# 形態素解析

import collections

import MeCab

import mojimoji

from string import digits

remove_digits = str.maketrans('', '', digits)

tagger = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")

def nouns_extract(line):

keyword=[]

node = tagger.parseToNode(line).next

while node:

if node.feature.split(",")[0] == "名詞":

keyword.append(node.surface)

node = node.next

keyword = str(keyword).replace("', '"," ")

keyword = keyword.replace("\'","")

keyword = keyword.replace("[","")

keyword = keyword.replace("]","")

return keyword

# 全角を半角にする

corpus_data["text_fixed"] = list(map(lambda text: mojimoji.zen_to_han(text, kana=False) , corpus_data.text))

# 数字を除外する

corpus_data["text_fixed"] = list(map(lambda text: text.translate(remove_digits) , corpus_data.text_fixed))

# デザイナーズという表現を除外する

corpus_data["text_fixed"] = corpus_data.text_fixed.str.replace("デザイナーズ", "")

# 形態素解析する

corpus_data["text_wakati"] = list(map(lambda text:nouns_extract(text) , list(corpus_data.text_fixed)))

ようやくベースラインの予測となります。以下のコードを実行すると、ROCが描かれた図がJupyter上で表示されます。

from sklearn.feature_extraction.text import CountVectorizer

# word count feature
countvector = CountVectorizer(min_df=0.01, max_df=0.90)
matrix = countvector.fit_transform(corpus_data.text_wakati)
countvector.get_feature_names()[:10]

X = matrix
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

from sklearn.feature_extraction.text import CountVectorizer

# word count feature

countvector = CountVectorizer(min_df=0.01, max_df=0.90)

matrix = countvector.fit_transform(corpus_data.text_wakati)

countvector.get_feature_names()[:10]

X = matrix

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

AUC82%というのはベースラインとしてはなかなか強敵なのではないでしょうか。

さて、本題の特徴量選択パッケージの適用をするためのソースコードを以下に記します。

from scipy.sparse import csr_matrix
import JapaneseTokenizer
from DocumentFeatureSelection import interface

# `mecab-config` コマンドが通っているパスを書きます。場所がわからない時は`which mecab-config`で探してみてください。
path_mecab_config='/usr/local/bin'

# 辞書タイプを選びます。"neologd", "all", "ipaddic", "user", ""が選べます。
dictType = "neologd"

pos_condition = [('名詞',)]

mecab_wrapper = JapaneseTokenizer.MecabWrapper(
    dictType=dictType, 
    path_mecab_config=path_mecab_config
)

def tokenize_and_filtering(docs):
    assert isinstance(docs, list)
    tokenized_docs = [
        mecab_wrapper.tokenize(
            sentence=doc.strip('\n'),
            return_list=False
            )
        for doc in docs
    ]
    
    filtered_tokens = [
        mecab_wrapper.filter(
            parsed_sentence=tokenized_obj,
            pos_condition=pos_condition
        ).convert_list_object()
        for tokenized_obj in tokenized_docs
    ]

    return filtered_tokens

# デザイナーズマンションとそうでないマンションでテキストを分ける
processed_designer = tokenize_and_filtering(corpus_data.query(' designer_flag ==1 ').text_fixed.tolist())
processed_normal = tokenize_and_filtering(corpus_data.query(' designer_flag ==0 ').text_fixed.tolist())

input_labeled_docs_dict = {
    'designer': processed_designer,
    'normal': processed_normal
}

# TF-IDF base
tf_idf_scored_object = interface.run_feature_selection(
    input_dict=input_labeled_docs_dict,
    method='tf_idf',
    n_jobs=5
)
tf_idf_scored_df = pd.DataFrame(tf_idf_scored_object.ScoreMatrix2ScoreDictionary())

# PMI base
pmi_scored_object_cython = interface.run_feature_selection(
    input_dict=input_labeled_docs_dict,
    method='pmi',
    use_cython=True
)
pmi_scored_df = pd.DataFrame(pmi_scored_object_cython.ScoreMatrix2ScoreDictionary())

# SOA base
soa_scored_object_cython = interface.run_feature_selection(
    input_dict=input_labeled_docs_dict,
    method='soa',
    use_cython=True
)
soa_scored_df = pd.DataFrame(soa_scored_object_cython.ScoreMatrix2ScoreDictionary())

# BNS base
bns_scored_object = interface.run_feature_selection(
    input_dict=input_labeled_docs_dict,
    method='bns',
    n_jobs=5
)
bns_scored_df = pd.DataFrame(bns_scored_object.ScoreMatrix2ScoreDictionary())

from scipy.sparse import csr_matrix

import JapaneseTokenizer

from DocumentFeatureSelection import interface

# `mecab-config` コマンドが通っているパスを書きます。場所がわからない時は`which mecab-config`で探してみてください。

path_mecab_config='/usr/local/bin'

# 辞書タイプを選びます。"neologd", "all", "ipaddic", "user", ""が選べます。

dictType = "neologd"

pos_condition = [('名詞',)]

mecab_wrapper = JapaneseTokenizer.MecabWrapper(

dictType=dictType,

path_mecab_config=path_mecab_config

)

def tokenize_and_filtering(docs):

assert isinstance(docs, list)

tokenized_docs = [

mecab_wrapper.tokenize(

sentence=doc.strip('\n'),

return_list=False

)

for doc in docs

]

filtered_tokens = [

mecab_wrapper.filter(

parsed_sentence=tokenized_obj,

pos_condition=pos_condition

).convert_list_object()

for tokenized_obj in tokenized_docs

]

return filtered_tokens

# デザイナーズマンションとそうでないマンションでテキストを分ける

processed_designer = tokenize_and_filtering(corpus_data.query(' designer_flag ==1 ').text_fixed.tolist())

processed_normal = tokenize_and_filtering(corpus_data.query(' designer_flag ==0 ').text_fixed.tolist())

input_labeled_docs_dict = {

'designer': processed_designer,

'normal': processed_normal

}

# TF-IDF base

tf_idf_scored_object = interface.run_feature_selection(

input_dict=input_labeled_docs_dict,

method='tf_idf',

n_jobs=5

)

tf_idf_scored_df = pd.DataFrame(tf_idf_scored_object.ScoreMatrix2ScoreDictionary())

# PMI base

pmi_scored_object_cython = interface.run_feature_selection(

input_dict=input_labeled_docs_dict,

method='pmi',

use_cython=True

)

pmi_scored_df = pd.DataFrame(pmi_scored_object_cython.ScoreMatrix2ScoreDictionary())

# SOA base

soa_scored_object_cython = interface.run_feature_selection(

input_dict=input_labeled_docs_dict,

method='soa',

use_cython=True

)

soa_scored_df = pd.DataFrame(soa_scored_object_cython.ScoreMatrix2ScoreDictionary())

# BNS base

bns_scored_object = interface.run_feature_selection(

input_dict=input_labeled_docs_dict,

method='bns',

n_jobs=5

)

bns_scored_df = pd.DataFrame(bns_scored_object.ScoreMatrix2ScoreDictionary())

以上のソースコードを実行すれば、tf_idf_scored_df、pmi_scored_df、soa_scored_df、bns_scored_dfにスコアを付与された単語のリストが手に入ります。

ここでは各スコアに関してアドホックに閾値を設けて、特徴量として利用することにします。

TF-IDFベースの特徴量選択

tfidf_list = tf_idf_scored_df.query(' score > 0.001 ').feature.unique().tolist()
corpus_data["tfidf_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(tfidf_list))) , corpus_data.text_wakati))

# word count feature
countvector = CountVectorizer()
matrix = countvector.fit_transform(corpus_data.tfidf_base_list)

X = matrix
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

tfidf_list = tf_idf_scored_df.query(' score > 0.001 ').feature.unique().tolist()

corpus_data["tfidf_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(tfidf_list))) , corpus_data.text_wakati))

# word count feature

countvector = CountVectorizer()

matrix = countvector.fit_transform(corpus_data.tfidf_base_list)

X = matrix

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

PMIベースの特徴量選択

pmi_list = pmi_scored_df.query(' score > 0.001 ').feature.unique().tolist()
corpus_data["pmi_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(pmi_list))) , corpus_data.text_wakati))

# word count feature
countvector = CountVectorizer()
matrix = countvector.fit_transform(corpus_data.pmi_base_list)

X = matrix
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

pmi_list = pmi_scored_df.query(' score > 0.001 ').feature.unique().tolist()

corpus_data["pmi_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(pmi_list))) , corpus_data.text_wakati))

# word count feature

countvector = CountVectorizer()

matrix = countvector.fit_transform(corpus_data.pmi_base_list)

X = matrix

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

SOAベースの特徴量選択

soa_list = soa_scored_df.query(' score > 0.2 ').feature.unique().tolist()
corpus_data["soa_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(soa_list))) , corpus_data.text_wakati))

# word count feature
countvector = CountVectorizer()
matrix = countvector.fit_transform(corpus_data.soa_base_list)

X = matrix
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

soa_list = soa_scored_df.query(' score > 0.2 ').feature.unique().tolist()

corpus_data["soa_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(soa_list))) , corpus_data.text_wakati))

# word count feature

countvector = CountVectorizer()

matrix = countvector.fit_transform(corpus_data.soa_base_list)

X = matrix

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

BNSベースの特徴量選択

bns_list = bns_scored_df.query('  score > 0.1 ').feature.unique().tolist()
corpus_data["bns_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(bns_list))) , corpus_data.text_wakati))

# word count feature
countvector = CountVectorizer()
matrix = countvector.fit_transform(corpus_data.bns_base_list)

X = matrix
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

bns_list = bns_scored_df.query(' score > 0.1 ').feature.unique().tolist()

corpus_data["bns_base_list"] = list(map(lambda text: " ".join(list(set(text.split(" ") ) & set(bns_list))) , corpus_data.text_wakati))

# word count feature

countvector = CountVectorizer()

matrix = countvector.fit_transform(corpus_data.bns_base_list)

X = matrix

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

クラスタ、トピック、分散表現ベース

続いて、k-meansやLDAやword2vecを用いて特徴量を作成する方法です。今回はk-means、ミニバッチk-means、LDA、FastTextによる分散表現を扱います。

k-means、ミニバッチk-means

from sklearn.feature_extraction.text import CountVectorizer
from sklearn import preprocessing
from sklearn.cluster import  KMeans, MiniBatchKMeans

# word count feature
countvector = CountVectorizer(min_df=0.01, max_df=0.90)
matrix = countvector.fit_transform(corpus_data.text_wakati)

# 標準化
my_scalar = preprocessing.StandardScaler()
my_scalar.fit(pd.DataFrame(matrix.toarray()))
matrix_std = my_scalar.transform(pd.DataFrame(matrix.toarray()))

n_clusters = 15

kmeans = KMeans(n_clusters=n_clusters)
minibatch = MiniBatchKMeans(n_clusters=n_clusters)

kmeans.fit(matrix_std.transpose())
minibatch.fit(matrix_std.transpose())

# k-means
X = kmeans.cluster_centers_.transpose()
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

# ミニバッチk-means
X = minibatch.cluster_centers_.transpose()
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

from sklearn.feature_extraction.text import CountVectorizer

from sklearn import preprocessing

from sklearn.cluster import KMeans, MiniBatchKMeans

# word count feature

countvector = CountVectorizer(min_df=0.01, max_df=0.90)

matrix = countvector.fit_transform(corpus_data.text_wakati)

# 標準化

my_scalar = preprocessing.StandardScaler()

my_scalar.fit(pd.DataFrame(matrix.toarray()))

matrix_std = my_scalar.transform(pd.DataFrame(matrix.toarray()))

n_clusters = 15

kmeans = KMeans(n_clusters=n_clusters)

minibatch = MiniBatchKMeans(n_clusters=n_clusters)

kmeans.fit(matrix_std.transpose())

minibatch.fit(matrix_std.transpose())

# k-means

X = kmeans.cluster_centers_.transpose()

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

# ミニバッチk-means

X = minibatch.cluster_centers_.transpose()

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

LDA

こちらはgensimでLDAを推定し、推定したトピックの割合をデータフレームで返すコードです。

from gensim import corpora, models
import  gensim
import pickle

# データフレームのテキストデータをもとに、gensimで読み込み可能なフォーマットに変換するための関数
def nested_list(strings):
    words = strings.split(" ")
    return words

# トピック割合を格納するためのデータフレームを作成する関数
def making_topic_detaframe(integer, n):
    topic_table = pd.DataFrame(index=n.index)
    for topic_number in range(integer):
        column_name = "topic" + str(topic_number)
        topic_table[column_name] = 0
    return topic_table

# トピック割合を格納する関数
def topic_ratio_extract(corpus, topic_table):
    n_topic = len(topic_table.columns)
    i = 0
    for bow in corpus:
        t = lda.get_document_topics(bow)
        
        for each_topic in t:
            for topic_id in range(n_topic):
                if each_topic[0] == topic_id:
                    topic_table.iloc[i, topic_id]  = each_topic[1]
                
        i = i + 1
    return topic_table
 

corpus_data_filtered = corpus_data.query(' text_wakati !="" ').reset_index(drop=True)
corpus_data_filtered["text_wakati_fixed"] = list(map(lambda text:nested_list(text) ,corpus_data_filtered.text_wakati))

dictionary = gensim.corpora.Dictionary(corpus_data_filtered["text_wakati_fixed"])
dictionary.save_as_text('text.dict')

corpus = [dictionary.doc2bow(doc) for doc in corpus_data_filtered["text_wakati_fixed"]]
gensim.corpora.MmCorpus.serialize('text.mm', corpus)

tfidf = gensim.models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

with open('corpus_tfidf.dump', mode='wb') as f:
    pickle.dump(corpus_tfidf, f)

from gensim import corpora, models

import gensim

import pickle

# データフレームのテキストデータをもとに、gensimで読み込み可能なフォーマットに変換するための関数

def nested_list(strings):

words = strings.split(" ")

return words

# トピック割合を格納するためのデータフレームを作成する関数

def making_topic_detaframe(integer, n):

topic_table = pd.DataFrame(index=n.index)

for topic_number in range(integer):

column_name = "topic" + str(topic_number)

topic_table[column_name] = 0

return topic_table

# トピック割合を格納する関数

def topic_ratio_extract(corpus, topic_table):

n_topic = len(topic_table.columns)

i = 0

for bow in corpus:

t = lda.get_document_topics(bow)

for each_topic in t:

for topic_id in range(n_topic):

if each_topic[0] == topic_id:

topic_table.iloc[i, topic_id] = each_topic[1]

i = i + 1

return topic_table

corpus_data_filtered = corpus_data.query(' text_wakati !="" ').reset_index(drop=True)

corpus_data_filtered["text_wakati_fixed"] = list(map(lambda text:nested_list(text) ,corpus_data_filtered.text_wakati))

dictionary = gensim.corpora.Dictionary(corpus_data_filtered["text_wakati_fixed"])

dictionary.save_as_text('text.dict')

corpus = [dictionary.doc2bow(doc) for doc in corpus_data_filtered["text_wakati_fixed"]]

gensim.corpora.MmCorpus.serialize('text.mm', corpus)

tfidf = gensim.models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

with open('corpus_tfidf.dump', mode='wb') as f:

pickle.dump(corpus_tfidf, f)

トピック数をとりあえず30個くらいに指定して推定したトピックの割合を特徴量として文書分類を行います。そのため、特徴量の数は30個になります。

the_number_of_topic = 30

lda = gensim.models.ldamodel.LdaModel(
                            corpus=corpus,
                            alpha='asymmetric', 
                            eta = 'auto',
                            num_topics=the_number_of_topic,
                            id2word=dictionary,
                            random_state=123
)

# トピックの数に応じたデータフレームを作成
topic_table = making_topic_detaframe(the_number_of_topic, corpus_data_filtered)
# 推定したトピックごとの文書ごとの確率を格納
topic_table = topic_ratio_extract(corpus, topic_table)
# 元データとトピックテーブルを結合
corpus_data_filtered_with_topic = pd.concat([corpus_data_filtered, topic_table], axis=1)
# 実数に変換
corpus_data_filtered_with_topic[list(topic_table.columns)] = corpus_data_filtered_with_topic[list(topic_table.columns)].astype("float")


X = corpus_data_filtered_with_topic.filter(regex="topic").values
y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

the_number_of_topic = 30

lda = gensim.models.ldamodel.LdaModel(

corpus=corpus,

alpha='asymmetric',

eta = 'auto',

num_topics=the_number_of_topic,

id2word=dictionary,

random_state=123

)

# トピックの数に応じたデータフレームを作成

topic_table = making_topic_detaframe(the_number_of_topic, corpus_data_filtered)

# 推定したトピックごとの文書ごとの確率を格納

topic_table = topic_ratio_extract(corpus, topic_table)

# 元データとトピックテーブルを結合

corpus_data_filtered_with_topic = pd.concat([corpus_data_filtered, topic_table], axis=1)

# 実数に変換

corpus_data_filtered_with_topic[list(topic_table.columns)] = corpus_data_filtered_with_topic[list(topic_table.columns)].astype("float")

X = corpus_data_filtered_with_topic.filter(regex="topic").values

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

FastTextによる分散表現

今回はデータ数が少ないことから、学習済みの分散表現を用います。日本語のコーパスに対して、FastTextで推定された分散表現となります。学習済み分散表現はこちらから拝借しました。

import gensim.models.keyedvectors as word2vec_for_txt

# 少し時間がかかる
model_fasttext = word2vec_for_txt.KeyedVectors.load_word2vec_format('model.vec', binary=False)
w2v_fasttext = {w: vec for w, vec in zip(model_fasttext.wv.index2word, model_fasttext.wv.syn0)}

import gensim.models.keyedvectors as word2vec_for_txt

# 少し時間がかかる

model_fasttext = word2vec_for_txt.KeyedVectors.load_word2vec_format('model.vec', binary=False)

w2v_fasttext = {w: vec for w, vec in zip(model_fasttext.wv.index2word, model_fasttext.wv.syn0)}

分散表現は単語に対して計算されるので、単語に対して分散表現を足し合わせたものを特徴量として扱います。ここでは分散表現の合計値、平均値、TF-IDFで重みを付けた平均値の3つのパターンを試します。

合計値ベース

# 合計値ベース
X = [token.split(" ") for token in corpus_data.text_wakati]
X = np.array([ np.sum([w2v_fasttext[w] for w in words if w in w2v_fasttext] \
                        or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

# 合計値ベース

X = [token.split(" ") for token in corpus_data.text_wakati]

X = np.array([ np.sum([w2v_fasttext[w] for w in words if w in w2v_fasttext] \

or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

平均値ベース

# 平均値
X = [token.split(" ") for token in corpus_data.text_wakati]
X = np.array([ np.mean([w2v_fasttext[w] for w in words if w in w2v_fasttext] \
                        or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

# 平均値

X = [token.split(" ") for token in corpus_data.text_wakati]

X = np.array([ np.mean([w2v_fasttext[w] for w in words if w in w2v_fasttext] \

or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

TF-IDFで単語を重みづけた平均値ベース

# TF-IDFベース
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

# TF-IDF値の計算
tfidf = TfidfVectorizer()
tfidf.fit(corpus_data.text_wakati)
max_idf = max(tfidf.idf_)

# TF-IDFの値を重み付けの係数として格納
word2weight = None
word2weight = defaultdict(lambda: max_idf, [(w, tfidf.idf_[i]) for w, i in tfidf.vocabulary_.items()])

# 分散表現の抽出
X = [token.split(" ") for token in corpus_data.text_wakati]
X = np.array([np.mean([w2v_fasttext[w] * word2weight[w] for w in words if w in w2v_fasttext] \
                      or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X ])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape
print(n_features)

random_state = np.random.RandomState(0)
classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve
classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

# TF-IDFベース

from sklearn.feature_extraction.text import TfidfVectorizer

from collections import defaultdict

# TF-IDF値の計算

tfidf = TfidfVectorizer()

tfidf.fit(corpus_data.text_wakati)

max_idf = max(tfidf.idf_)

# TF-IDFの値を重み付けの係数として格納

word2weight = None

word2weight = defaultdict(lambda: max_idf, [(w, tfidf.idf_[i]) for w, i in tfidf.vocabulary_.items()])

# 分散表現の抽出

X = [token.split(" ") for token in corpus_data.text_wakati]

X = np.array([np.mean([w2v_fasttext[w] * word2weight[w] for w in words if w in w2v_fasttext] \

or [np.zeros(next(iter(w2v_fasttext.values())).size)], axis=0) for words in X ])

y = corpus_data.designer_flag.values

n_samples, n_features = X.shape

print(n_features)

random_state = np.random.RandomState(0)

classifier = RandomForestClassifier(random_state=random_state)

# classification and draw roc curve

classification_and_roc_analysis(k=10, classifier=classifier, X=X, y=y)

文書間の類似度ベース

今回は、デザイナーズマンションの定義文に似ているかどうかという観点で類似度ベースの特徴量を作ってみたいと思います。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

designer_definition = "デザイナーズ物件というと、連想されがちなのが「コンクリート打ちっぱなしの外壁」に代表されるスタイリッシュなデザインの建物。\
                                        でも、それだけではありません。全く間仕切りがないワンルーム、螺旋階段が部屋の中にある部屋など、\
                                        普通の物件では考えられない設備やデザインが魅力です。また、キッチンが部屋の真ん中に配置されていたり、\
                                        バスやトイレがガラス張りであったり、洗濯機や電子レンジを収める収納スペースで生活感を出さない構造であったりすることも。\
                                        インテリアや家具までレイアウトされている部屋が多いのも特徴です。こうした一風変わった造りは、\
                                        デザイナーや建築家のこだわりやコンセプトが反映されています。そのため、デザイナーズ物件は建築家やデザインの\
                                        「作品」と言うこともできます。そうした作品に住むことは憧れであり、ある種のステイタスと言えるでしょう。"
designer_definition_wakati = nouns_extract(designer_definition) 


text_list = list(set(corpus_data.text_wakati))
text_list.extend(designer_definition_wakati )

# TF-IDFの計算
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(text_list) # これで更新

# 類似度の計算
corpus_data["cos_sim"] = list(map(lambda number: cosine_similarity(vectorizer.transform([corpus_data.text_wakati[number]]),
                                                                                                                          vectorizer.transform([designer_definition_wakati]))[0][0] ,
                                                                                                                          range(corpus_data.index.size)))

bins = [0.00, 0.01, 0.03,0.05, 0.10,1.0]
labels=["0~1%", "1~3%", "3~5%", "5~10%", "10%~"]
corpus_data["cos_sim_bins"] = pd.cut(corpus_data.cos_sim, bins=bins, labels=labels, include_lowest=True)

df = corpus_data.groupby("cos_sim_bins")[["designer_flag"]].mean().reset_index()
ax = df.designer_flag.plot(xticks=df.index, rot=90, figsize=(10,5))
ax.set_xticklabels(df.cos_sim_bins);
ax.set_ylabel("designer_flag");
ax.set_xlabel("cos_sim_bins");

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics.pairwise import cosine_similarity

designer_definition = "デザイナーズ物件というと、連想されがちなのが「コンクリート打ちっぱなしの外壁」に代表されるスタイリッシュなデザインの建物。\

でも、それだけではありません。全く間仕切りがないワンルーム、螺旋階段が部屋の中にある部屋など、\

普通の物件では考えられない設備やデザインが魅力です。また、キッチンが部屋の真ん中に配置されていたり、\

バスやトイレがガラス張りであったり、洗濯機や電子レンジを収める収納スペースで生活感を出さない構造であったりすることも。\

インテリアや家具までレイアウトされている部屋が多いのも特徴です。こうした一風変わった造りは、\

デザイナーや建築家のこだわりやコンセプトが反映されています。そのため、デザイナーズ物件は建築家やデザインの\

「作品」と言うこともできます。そうした作品に住むことは憧れであり、ある種のステイタスと言えるでしょう。"

designer_definition_wakati = nouns_extract(designer_definition)

text_list = list(set(corpus_data.text_wakati))

text_list.extend(designer_definition_wakati )

# TF-IDFの計算

vectorizer = TfidfVectorizer()

vectorizer.fit_transform(text_list) # これで更新

# 類似度の計算

corpus_data["cos_sim"] = list(map(lambda number: cosine_similarity(vectorizer.transform([corpus_data.text_wakati[number]]),

vectorizer.transform([designer_definition_wakati]))[0][0] ,

range(corpus_data.index.size)))

bins = [0.00, 0.01, 0.03,0.05, 0.10,1.0]

labels=["0~1%", "1~3%", "3~5%", "5~10%", "10%~"]

corpus_data["cos_sim_bins"] = pd.cut(corpus_data.cos_sim, bins=bins, labels=labels, include_lowest=True)

df = corpus_data.groupby("cos_sim_bins")[["designer_flag"]].mean().reset_index()

ax = df.designer_flag.plot(xticks=df.index, rot=90, figsize=(10,5))

ax.set_xticklabels(df.cos_sim_bins);

ax.set_ylabel("designer_flag");

ax.set_xlabel("cos_sim_bins");

今回は変数が一つだけなので、機械学習はせず、デザイナーズマンション割合との関係を図示するにとどめておきます。横軸がデザイナーズマンションの定義と施設情報の類似度で、縦軸がデザイナーズマンション割合です。

どうやら、途中でデザイナーズマンション割合がピークを迎えるようです。

おわりに

最先端の手法は調べれていないですが、テキストデータを特徴量に落とし込む手段を備忘録として残しておきました。今回あげた中では、SOAベースの特徴量選択のAUCが83%と一番高かったですが、ベースラインが82%と僅差でした。そして、分散表現形のものは80%に届いた程度です。余力があれば新しい特徴量の作り方が分かり次第アップデートしようと思います。

追記

“Automate Stacking In Python How to Boost Your Performance While Saving Time”という記事を見つけたので、紹介されているvecstackモジュールを使って今回のモデルに関して簡単にstackingしてみようと思います。
コードに関しては、こちらのGitHubに上げています。試してみた所、AUCは88%になりました。結構上がりましたね。しかもコードはめちゃ短いので楽です。

参考文献

[1]Julian Avila et al(2019), 『Python機械学習ライブラリ scikit-learn活用レシピ80+』, impress top gear
[2]Receiver Operating Characteristic (ROC) with cross validation
[3]@Kensuke-Mitsuzawa(2016), “テキストデータで特徴量選択をする”, Qiita
[4]JapaneseTokenizer 1.6
[5]DocumentFeatureSelection 1.5
[6]自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI)
[7]【Techの道も一歩から】第3回「第11回テキストアナリティクス・シンポジウム」
[8]文書分類タスクでよく利用されるfeature selection

Python/Rもくもく会をプライベートで開催するための参考図書・資料をまとめる

はじめに

社内で定時後に有志で勉強会というか、その場に集まってPythonやRをもくもくと勉強をするもくもく会を開きたいと考えています。目的としては分析スキルの向上や機械学習ができるようになりたいとかいう個々人の願いを叶えることです。
色々なスキルレベルのメンバーが参加することが予想されるので、皆を幸せにするためにもレベルに応じた良い教材が必要だと思いました。
ここでは、レベルに応じて適切な教材などを忘備録として残していきたいと思います。
（私自身、全てのレベルの対象者に適切な教材を網羅しているわけではないので、随時更新していこうと思います。）

受講対象について

受講対象（PythonやRをまともに触ったことがない人）は2軸で分けるとすると以下のようになると思います。

・プログラミング経験あり/経験なし
・数学の心得あり/心得なし

プログラミング経験なし&数学の心得あり（アルキメデス）
理系出身の人がメインだと思います。学部・学科によっては全然扱わないですよね。数的な思考は得意だが、それを活かすスキルが不足しているような人でしょう。眼の前におかれた数学の問題を紙とペンで解くことはできるが、仕事で使えないという感じ。私も偉そうなことは言えないですが、コードが荒れがちなので周りに良い先生がいたほうが良いと思います。
プログラミング経験なし&数学の心得なし（葉っぱ隊）
一番習得に時間がかかると思います。野球やったことないのに、野球選手になりたいという人に皆さんは違和感を感じるでしょう。イメージはそんな感じです。一番時間がかかるからこそ、挫折しないための教材選びが重要かもしれません。スキル的に全裸なので、葉っぱ隊と名付けましょう。
プログラミング経験あり&数学の心得あり（デーサイ候補）
最も頼もしい存在です。教科書をお渡ししておけば勝手に成長すると思います。ある程度経験を積めば分析業務を任せても良いと思います。
プログラミング経験あり&数学の心得なし（進捗ありマン）
各種手法の原理を知るまではそれなりに時間がかかると思いますが、手を動かして何ができるかをすぐに味わえるので、モチベーションを維持しながら学んでいきやすいと思います。コード自体は実行できるので進捗ありマンと名付けてみましょう。

この2軸でPythonとRに関する便利な資料を探したいと思います。
ただし、どの本に関してもどのレベルの人が買っても良いとは思います。ただ、数学の心得がない中で、テイラー展開とか平均値の定理とかラグランジュ未定乗数法などの表現を目にした際に、挫折してしまう可能性があるので、適した書籍から順次広げていくのが良いと思います。なお、今回はPCでもくもくと進めれそうな書籍を選んでいます。紙とペンで進める本も重要なのですが、そのようなかた向けの書籍は取り上げていません。

アルキメデス向けの教材

Python

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)
Pythonの入門的な記述もあり、数学の話もきちんと扱っているので、アルキメデス系の人にはぴったりの本だと思います。コードが荒れがちなアルキメデス系もこの本を写経しながら学べば進捗が良いはずです。
Pythonで学ぶあたらしい統計学の教科書 (AI & TECHNOLOGY)
数式はそれほど出てきませんが、Pythonが少しわかれば統計学に関してもあらかたこの本で上達すると思います。手を動かすことで前には進めると思います。アルキメデス系であれば、これを学習した上で、さらに深く理解するために他の統計学の専門書に手を出すこともできるでしょう。

R

みんなのR 第2版
『Rによるデータサイエンス』と迷ったのですが、プログラムの実行結果がそのまま載っている印象だったので、こちらの本がプログラミング初心者には優しいと判断しました。ほとんど数式は出てこないのですが、一般化線形モデルや時系列解析などもカバーしてくれています。また、データの前処理に関する記述もこちらの本の方が手厚いです。

葉っぱ隊向けの教材

Python

Pythonスタートブック [増補改訂版]
本当にプログラミングがはじめての人向けの本です。まずはプログラミング自体に慣れたほうが良いと思います。
プロゲートのPython入門講座
妻におすすめされた講座です。無料枠でもある程度学びがあるようです。環境を構築しなくても良いという点が非常に葉っぱ隊に適しているとのことです。

R

Rによるやさしい統計学
Rのインストールあるいは統計学の初歩のところから、応用まで幅広く説明している本です。数式はあまり出てきませんがコードが載っているので、手を動かすことができると思います。

読み物

マンガでわかる統計学回帰分析編
初めて統計学に触れた人で、挫折したくない場合の強力な助っ人と言えそうな本です。オーム社なので内容はしっかりしています。

デーサイ候補向けの教材

Python

みんなのPython 第4版
他のプログラミング言語の経験があれば、どのような記述の仕方なのかを掴み取るために効率的な本だと思います。記法やメソッドなどを一通り学べば、それに続くデータ分析の勉強も捗るはずです。私は一番始めに『初めてのPython 第3版』という700ページを超える本を読んでいたのですが、いきなりあれは辛いです。
[第2版]Python 機械学習プログラミング達人データサイエンティストによる理論と実践 (impress top gear)
数式による解説が適宜なされ、Pythonのコードも多く載せられており、ほとんどの手法に関して学ぶことができる本です。

R

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
実ビジネスではロジスティック回帰などを多用する場面が多いので、数学とプログラミングに問題がなければこの本も平行して学べると思います。
データマイニング入門
業務で使いそうなデータマイニングの手法が幅広く紹介されています。一部ではありますが数式もあるので納得もしやすいと思います。
Rによるデータサイエンスデータ解析の基礎から最新手法まで
数式はそこまで多くないですが、様々な手法を扱っている上に、Rのコードも載せられているので、原理を理解しながら、コードも回せる良い本だと思います。ただ、書かれている多くは金先生のWebサイトに掲載されています。
データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング
そんなに数式は出てこないですが、統計学から機械学習まで幅広く扱われています。Rを用いてもくもくと進めることができると思います。あと、特徴量エンジニアリングに関するヒントも書かれていたりするので、長く使える一冊かもしれません。

進捗ありマン向けの教材

R

RStudioではじめるRプログラミング入門
プログラミング経験のある進捗ありマンであれば、R言語の扱い方をまずは知りたいだろうと思います。関数の書き方やヘルプページの使い方、オブジェクトの説明、S3の話などが詳しく書かれています。
新米探偵、データ分析に挑む
R Studioのインストール方法なども載っているので、進捗ありマンなら最初から最後まで実践できると思います。数式もほとんど出てきません。色んな分析事例をRで取り組むことで分析業務のイメージも付いてくると思います。
RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−
R言語について何となくつかめた進捗ありマンがモダンな記法であるtidyverseを効率よく学べる良い本です。データ整形・クロス集計・可視化がモダンな記法で書けるようになると結構楽しいと思います。

Python

Pythonによるデータ分析入門第2版 ―NumPy、pandasを使ったデータ処理
数式などは出てきませんが、Pythonでデータ分析を行う上で重要なモジュールであるpandasを詳しく扱っています。いきなり機械学習などをするよりかはpandasをマスターしてデータの前処理スキルを高めるのが良いかもしれません。進捗もあると思いますし。

今後について

そもそもPythonやRに触れたことがない人にとって、Tokyo.Rの初心者セッションは少し適していないのかなと思ったので、今回は取り上げていないですが、一通り使い方をわかってもらえたら初心者セッションの資料を使ったもくもく会も開きたいと思います。最終的にはKaggle部とかを作るとかになるのかもしれませんが、そこまで行けるか行けないか。

目次

スペクトログラムとは

Pythonでの計算&比較

参考文献

はじめに

目次

データセット

前処理

はじめに

進め方

データの準備

音声波形などの可視化〜チューニングB♭（ベー）〜

音声波形の比較

ピッチの比較

基本周波数（F0）の比較

相関係数の比較

音声波形などの可視化〜練習曲〜

音声波形の比較

ピッチの比較

基本周波数（F0）の比較

相関係数の比較

追記：スペクトログラムの比較

おわりに

参考文献

はじめに

目次

単純なRNNとは

LSTMとは

Bidirectional LSTMとは

Bidirectional LSTMで文書分類

データ

前処理

実行

追記

参考文献

はじめに

1.『ベイズモデリングの世界』（岩波書店）

2.『トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ) 』（コロナ社）

3.『構造的因果モデルの基礎』（共立出版）

4.『現場で使える！PyTorch開発入門 深層学習モデルの作成とアプリケーションへの実装 (AI & TECHNOLOGY)』（翔泳社）

5.『作ってわかる! アンサンブル学習アルゴリズム入門』（シーアンドアール研究所）

6.『数理統計学―基礎から学ぶデータ解析』（内田老鶴圃）

7.『44の例題で学ぶ統計的検定と推定の解き方』（オーム社）

8.『わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する』（技術評論社）

9.『Statistical Rethinking: A Bayesian Course with Examples in R and Stan (Chapman & Hall/CRC Texts in Statistical Science)』

10.『scikit-learnとTensorFlowによる実践機械学習』（オライリージャパン）

11.『AIアルゴリズムマーケティング 自動化のための機械学習/経済モデル、ベストプラクティス、アーキテクチャ (impress top gear)』

12.『入門 統計的因果推論』（朝倉書店）

13.『実践 ベイズモデリング -解析技法と認知モデル-』（朝倉書店）

14.『機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)』

15.『その問題、数理モデルが解決します』（ベレ出版）

16.『ヤバい予測学 ― 「何を買うか」から「いつ死ぬか」まであなたの行動はすべて読まれている』（CCCメディアハウス）

17.『たのしいベイズモデリング2: 事例で拓く研究のフロンティア』（北大路書房）

18.『カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)』（共立出版）

19.『機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)』（SBクリエイティブ）

20.『機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン)』(オライリー・ジャパン)

21.『データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング』（オライリージャパン）

[+α]『プログラマのためのGoogle Cloud Platform入門 サービスの全体像からクラウドネイティブアプリケーション構築まで』（翔泳社）

終わりに

テキストデータの特徴量化について

アプローチ

今回扱うデータ

今回扱うモデル

単語ベース

TF-IDFベースの特徴量選択

PMIベースの特徴量選択

SOAベースの特徴量選択

BNSベースの特徴量選択

クラスタ、トピック、分散表現ベース

k-means、ミニバッチk-means

LDA

FastTextによる分散表現

合計値ベース

平均値ベース

TF-IDFで単語を重みづけた平均値ベース

文書間の類似度ベース

おわりに

追記

参考文献

はじめに

4.『現場で使える！PyTorch開発入門深層学習モデルの作成とアプリケーションへの実装 (AI & TECHNOLOGY)』（翔泳社）

11.『AIアルゴリズムマーケティング自動化のための機械学習/経済モデル、ベストプラクティス、アーキテクチャ (impress top gear)』

12.『入門統計的因果推論』（朝倉書店）

13.『実践ベイズモデリング -解析技法と認知モデル-』（朝倉書店）

14.『機械学習スタートアップシリーズベイズ推論による機械学習入門 (KS情報科学専門書)』

[+α]『プログラマのためのGoogle Cloud Platform入門サービスの全体像からクラウドネイティブアプリケーション構築まで』（翔泳社）