テキストマイニング – ページ 2 – かものはしの分析ブログ

洋楽の歌詞データでDoc2vecを実行してみる

はじめに

仕事で記事間の類似度計算などがあったりするんですが、TF-IDFにしてCOS類似度を計算するなどの方法で行っているのが現状です。そろそろ他の手法にも移行したいので、それに変わる類似度計算の手段としてDoc2vecを試してみたいと思います。

データ

以前より収集している洋楽の歌詞データを用います。Billboardのランキングに登場した楽曲の歌詞データを961曲分集めたものとなります。英語なので、日本語のように形態素解析は不要ですが、ストップワードを除去するなどの処理を施したコーパスを用います。Rのtmパッケージによるストップワードの除去についてはBillboard100位以内の楽曲の歌詞情報にLDAを適用してみたをご覧ください。日本語でのDoc2Vecの適用は参考文献において紹介しています。

類似度計算

TaggedLineDocumentを用いて、doc2vecで扱えるオブジェクトを作成します。TaggedLineDocumentに指定するファイルは主にtxtファイルで、その満たすべき条件は「1行につき1文書」「単語がスペースで区切られている」などです。あとは、doc2vecを実行するだけです。パラメータなどの細かい指定については今後の宿題としたいです。

#ライブラリの読み込み
from gensim.models.doc2vec import LabeledSentence
from collections import namedtuple
import pandas as pd

#データの読み込みとtxtファイルの生成
billboard_list = pd.read_csv("lyrics_data_preprocessed.csv", delimiter=",", encoding='utf-8')
billboard_list.columns = ['title','artist', 'lyrics']
billboard_songs = billboard_list['lyrics']
billboard_songs.to_csv("billboard_data.txt",header=None,index=None)

#1行1ドキュメントとしてdoc2vecで扱えるオブジェクトに変換
sentences = doc2vec.TaggedLineDocument("billboard_data.txt")

#doc2vecの実行
model = models.Doc2Vec(sentences, dm=0, size=300, window=15, alpha=.025,
        min_alpha=.025, min_count=1, sample=1e-6)

#トレーニングの開始
print('\nStart Training')
for epoch in range(20):
    print('Epoch: {}'.format(epoch + 1))
    model.train(sentences)
    model.alpha -= (0.025 - 0.0001) / 19
    model.min_alpha = model.alpha

#ライブラリの読み込み

from gensim.models.doc2vec import LabeledSentence

from collections import namedtuple

import pandas as pd

#データの読み込みとtxtファイルの生成

billboard_list = pd.read_csv("lyrics_data_preprocessed.csv", delimiter=",", encoding='utf-8')

billboard_list.columns = ['title','artist', 'lyrics']

billboard_songs = billboard_list['lyrics']

billboard_songs.to_csv("billboard_data.txt",header=None,index=None)

#1行1ドキュメントとしてdoc2vecで扱えるオブジェクトに変換

sentences = doc2vec.TaggedLineDocument("billboard_data.txt")

#doc2vecの実行

model = models.Doc2Vec(sentences, dm=0, size=300, window=15, alpha=.025,

min_alpha=.025, min_count=1, sample=1e-6)

#トレーニングの開始

print('\nStart Training')

for epoch in range(20):

print('Epoch: {}'.format(epoch + 1))

model.train(sentences)

model.alpha -= (0.025 - 0.0001) / 19

model.min_alpha = model.alpha

類似度の算出

早速、気になる楽曲に関して、類似度の高い楽曲を抽出してみたいと思います。

#推定したモデルの保存
model.save('doc2vec.model')
model = models.Doc2Vec.load('doc2vec.model')

#調べたい楽曲のインデックスの確認
billboard_list[billboard_list['title'].str.contains("Radioactive")]

#推定したモデルの保存

model.save('doc2vec.model')

model = models.Doc2Vec.load('doc2vec.model')

#調べたい楽曲のインデックスの確認

billboard_list[billboard_list['title'].str.contains("Radioactive")]

どうやら、Radioactiveという曲はkings of leonというグループも歌っているようですが、私はimagine dragonsの方の楽曲に関心がありますので、インデックスを409にして歌詞情報の近い楽曲を抽出します。

#最も近い歌詞の楽曲情報を抽出
mostsimilarlyrics = model.docvecs.most_similar(409)
billboard_list['title'][mostsimilarlyrics[0][0]]

'Made In America'

#最も近い歌詞の楽曲情報を抽出

mostsimilarlyrics = model.docvecs.most_similar(409)

billboard_list['title'][mostsimilarlyrics[0][0]]

'Made In America'

どうやら、toby keithのMade In Americaという楽曲が最も近いようです。類似度は35%程度ですが、全然単語が被っていないので本当に近いのか納得がいかないです。

次に、lady gagaのBorn This Wayに近い楽曲を出してみます。Dancing Queenという非常に懐かしい曲が選ばれていますが、類似度は49%と先ほどよりも高いです。queenやgirlやcanやrightなど共通の単語が含まれているので、先ほどの結果よりは近いのかなぁと思います。

正しく推定できているのか不安だったので、類似度が90%と非常に高かった、Just The Way You Areという楽曲の最も近い楽曲を見てみます。

調べたところ、同じ楽曲のカバー版のようです。近いものは、ちゃんと近いと見なせるようです。近いかどうかの基準をどの水準に置くのかは難しい判断ですね。

参考情報

models.doc2vec – Deep learning with paragraph2vec
Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
 Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Billboard100位以内の楽曲の歌詞情報にLDAを適用してみた

目次

・はじめに
・データ収集
・Rによる分析
・LDAの結果
・参考文献

はじめに

前回の投稿でBillboardの週次洋楽ランキングデータをWebスクレイピングで取得し、楽曲の消費サイクルのような順位の挙動を確かめることができました。（某洋楽ヒットチャートの週次ランキングデータをBeautiful Soupで集めてみた）今回は、歌詞の情報を用いて順位データとつなぐことにより、どのような単語の入っている洋楽がBillboardにおいてTop10に入る傾向があるのかをLDAを行うことで確かめたいと思います。

データ収集

残念なことに、Billboardのサイトに歌詞の情報は載っていません。そこで、洋楽の歌詞が取り上げられている某サイトをPython(3系)でWebスクレイピングし、名寄せを頑張って順位データと歌詞データを繋ぎます。

幸いなことに某サイトのURLに規則性があったので、アーティスト名からなるURLを生成し、そのURLをWebスクレイピングして楽曲のリストを集め、今回のBillboardのランキングに入った楽曲のみに絞ります。

#アーティストの楽曲一覧の取得

import urllib
from bs4 import BeautifulSoup
from urllib.request import urlopen
import requests
from urllib.error import HTTPError, URLError
import csv, re, time
from requests.exceptions import ConnectionError

f = open('artist_url_list.csv', 'r')
dataReader = csv.reader(f)

#結果の出力用のデータフレームを作る。
data01 =[] #URL
data02 =[] #曲名
data03 =[] #link

for row in dataReader:
       for url in row:
            time.sleep(10.0) #sleep(秒指定)
            try:
                    r = requests.get(url)
                    soup =  BeautifulSoup(r.content, 'html.parser')
                    
                    for body in soup.findAll("td",{'class':'colfirst'}):
                        for link in body.findAll("a"):
                                data01.append(url)
                                data02.append(''.join(link.findAll(text=True)))
                                data03.append(link.get("href"))
                                data = zip(data01,data02,data03)
                                #CSV出力
                                with open('artistpage_result.csv','wt',errors='backslashreplace') as fout:
                                    writecsv = csv.writer(fout,lineterminator='\n')
                                    writecsv.writerows(data)                                   
                                
                                    
            except HTTPError as e:
                print(e.code)
                
            except URLError:
                print("URLError")

#アーティストの楽曲一覧の取得

import urllib

from bs4 import BeautifulSoup

from urllib.request import urlopen

import requests

from urllib.error import HTTPError, URLError

import csv, re, time

from requests.exceptions import ConnectionError

f = open('artist_url_list.csv', 'r')

dataReader = csv.reader(f)

#結果の出力用のデータフレームを作る。

data01 =[] #URL

data02 =[] #曲名

data03 =[] #link

for row in dataReader:

for url in row:

time.sleep(10.0) #sleep(秒指定)

try:

r = requests.get(url)

soup = BeautifulSoup(r.content, 'html.parser')

for body in soup.findAll("td",{'class':'colfirst'}):

for link in body.findAll("a"):

data01.append(url)

data02.append(''.join(link.findAll(text=True)))

data03.append(link.get("href"))

data = zip(data01,data02,data03)

#CSV出力

with open('artistpage_result.csv','wt',errors='backslashreplace') as fout:

writecsv = csv.writer(fout,lineterminator='\n')

writecsv.writerows(data)

except HTTPError as e:

print(e.code)

except URLError:

print("URLError")

楽曲をランキングに含まれるもののみに絞ったら、歌詞詳細ページを取得します。

#歌詞詳細の歌詞該当部分のみ抽出

import urllib
from bs4 import BeautifulSoup
from urllib.request import urlopen
import requests
from urllib.error import HTTPError, URLError
import csv, re, time
from requests.exceptions import ConnectionError

f = open('song_detail_url.csv', 'r')
dataReader = csv.reader(f)

#結果の出力用のデータフレームを作る。
data01 =[] #URL
data02 =[] #歌詞

for row in dataReader:
       for url in row:
            time.sleep(10.0) #sleep(秒指定)
            try:
                    r = requests.get(url)
                    soup =  BeautifulSoup(r.content, 'html.parser')
                    
                    for body in soup.findAll("div",{'id':'content_h'}):
                                data01.append(url)
                                data02.append(''.join(body.findAll(text=True)))
                                data = zip(data01,data02)
                                #CSV出力
                                with open('lyrics_result.csv','wt',errors='backslashreplace') as fout:
                                    writecsv = csv.writer(fout,lineterminator='\n')
                                    writecsv.writerows(data)                                   
                                
                                    
            except HTTPError as e:
                print(e.code)
                           
            except URLError:
                print("URLError")

#歌詞詳細の歌詞該当部分のみ抽出

import urllib

from bs4 import BeautifulSoup

from urllib.request import urlopen

import requests

from urllib.error import HTTPError, URLError

import csv, re, time

from requests.exceptions import ConnectionError

f = open('song_detail_url.csv', 'r')

dataReader = csv.reader(f)

#結果の出力用のデータフレームを作る。

data01 =[] #URL

data02 =[] #歌詞

for row in dataReader:

for url in row:

time.sleep(10.0) #sleep(秒指定)

try:

r = requests.get(url)

soup = BeautifulSoup(r.content, 'html.parser')

for body in soup.findAll("div",{'id':'content_h'}):

data01.append(url)

data02.append(''.join(body.findAll(text=True)))

data = zip(data01,data02)

#CSV出力

with open('lyrics_result.csv','wt',errors='backslashreplace') as fout:

writecsv = csv.writer(fout,lineterminator='\n')

writecsv.writerows(data)

except HTTPError as e:

print(e.code)

except URLError:

print("URLError")

うまいこと歌詞情報を手に入れることができました。ざっと947曲です。

	url	lyrics
0	http://www.lyricsfreak.com/e/eminem/love+the+w...	Just gonna stand there and watch me burnBut th...
1	http://www.lyricsfreak.com/t/taio+cruz/dynamit...	I came to dance-dance-dance-dance (Yeah)I hate...
2	http://www.lyricsfreak.com/t/taylor+swift/mine...	Oh, oh, ohOh, oh, ohYou were in college, worki...
3	http://www.lyricsfreak.com/e/enrique+iglesias/...	One life, one loveEnrique Iglesias, PitbullY'a...
4	http://www.lyricsfreak.com/b/bob/airplanes_208...	Can we pretend that airplanesIn the night sky ...
5	http://www.lyricsfreak.com/m/mike+posner/coole...	If I could write you a song,And make you fall ...
6	http://www.lyricsfreak.com/j/jason+derulo/ridi...	Yea yeah, yeah, yeah, yeah,I'm feeling like a ...
7	http://www.lyricsfreak.com/t/travie+mccoy/bill...	I wanna be a billionaire so freakin' badBuy al...
8	http://www.lyricsfreak.com/d/drake/find+your+l...	I'm more than just an option (hey, hey, hey) R...
9	http://www.lyricsfreak.com/u/usher/omg_2087748...	Oh my goshBaby let meDid it again, so Imma let...
10	http://www.lyricsfreak.com/b/bob/magic_2087969...	I got the magic in meEvery time I touch that t...
11	http://www.lyricsfreak.com/n/nicki+minaj/your+...	[Chorus]Shawty I'm a only tell you this once, ...
12	http://www.lyricsfreak.com/m/maroon+5/misery_2...	Oh yeahOh yeahSo scared of breaking itThat you...
13	http://www.lyricsfreak.com/t/train/hey+soul+si...	Hey, hey, heyYour lipstick stains on the front...
14	http://www.lyricsfreak.com/b/bruno+mars/just+t...	Oh her eyes, her eyesMake the stars look like ...
15	http://www.lyricsfreak.com/l/lady+gaga/alejand...	I know that we are young,And I know that you m...
16	http://www.lyricsfreak.com/l/la+roux/bulletpro...	Been there, done that, messed aroundI'm having...
17	http://www.lyricsfreak.com/f/flo+rida/club+can...	You know I know howTo make 'em stop and stare ...
18	http://www.lyricsfreak.com/s/shontelle/impossi...	I remember years agoSomeone told me I should t...
19	http://www.lyricsfreak.com/p/paramore/the+only...	When I was youngerI saw my daddy cryAnd curse ...
20	http://www.lyricsfreak.com/u/usher/there+goes+...	Yeah, Right,Usher baby, OKYeah man, rightThere...

url lyrics

0 http://www.lyricsfreak.com/e/eminem/love+the+w... Just gonna stand there and watch me burnBut th...

1 http://www.lyricsfreak.com/t/taio+cruz/dynamit... I came to dance-dance-dance-dance (Yeah)I hate...

2 http://www.lyricsfreak.com/t/taylor+swift/mine... Oh, oh, ohOh, oh, ohYou were in college, worki...

3 http://www.lyricsfreak.com/e/enrique+iglesias/... One life, one loveEnrique Iglesias, PitbullY'a...

4 http://www.lyricsfreak.com/b/bob/airplanes_208... Can we pretend that airplanesIn the night sky ...

5 http://www.lyricsfreak.com/m/mike+posner/coole... If I could write you a song,And make you fall ...

6 http://www.lyricsfreak.com/j/jason+derulo/ridi... Yea yeah, yeah, yeah, yeah,I'm feeling like a ...

7 http://www.lyricsfreak.com/t/travie+mccoy/bill... I wanna be a billionaire so freakin' badBuy al...

8 http://www.lyricsfreak.com/d/drake/find+your+l... I'm more than just an option (hey, hey, hey) R...

9 http://www.lyricsfreak.com/u/usher/omg_2087748... Oh my goshBaby let meDid it again, so Imma let...

10 http://www.lyricsfreak.com/b/bob/magic_2087969... I got the magic in meEvery time I touch that t...

11 http://www.lyricsfreak.com/n/nicki+minaj/your+... [Chorus]Shawty I'm a only tell you this once, ...

12 http://www.lyricsfreak.com/m/maroon+5/misery_2... Oh yeahOh yeahSo scared of breaking itThat you...

13 http://www.lyricsfreak.com/t/train/hey+soul+si... Hey, hey, heyYour lipstick stains on the front...

14 http://www.lyricsfreak.com/b/bruno+mars/just+t... Oh her eyes, her eyesMake the stars look like ...

15 http://www.lyricsfreak.com/l/lady+gaga/alejand... I know that we are young,And I know that you m...

16 http://www.lyricsfreak.com/l/la+roux/bulletpro... Been there, done that, messed aroundI'm having...

17 http://www.lyricsfreak.com/f/flo+rida/club+can... You know I know howTo make 'em stop and stare ...

18 http://www.lyricsfreak.com/s/shontelle/impossi... I remember years agoSomeone told me I should t...

19 http://www.lyricsfreak.com/p/paramore/the+only... When I was youngerI saw my daddy cryAnd curse ...

20 http://www.lyricsfreak.com/u/usher/there+goes+... Yeah, Right,Usher baby, OKYeah man, rightThere...

Rによる分析

ここから、Rにてテキストマイニングを行いたいと思います。まず、tmパッケージを用いて、不要語（stop word）を除去します。具体的にはtheとかyouとかを除外しています。

#歌詞データの読み込み
lyrics_dataset <- read.csv(file = "lyrics_result.csv",as.is = TRUE,header = FALSE)
colnames(lyrics_dataset) <- c("link","lyrics")

library(tm)

#歌詞を小文字にする
document_dataset$lyrics <- tolower(document_dataset$lyrics)

#stop wordを除去する
stopwords_regex = paste(stopwords('en'), collapse = '\\b|\\b')
stopwords_regex = paste0('\\b', stopwords_regex, '\\b')
document_dataset$lyrics <- stringr::str_replace_all(document_dataset$lyrics, stopwords_regex, '')

#歌詞データの読み込み

lyrics_dataset <- read.csv(file = "lyrics_result.csv",as.is = TRUE,header = FALSE)

colnames(lyrics_dataset) <- c("link","lyrics")

library(tm)

#歌詞を小文字にする

document_dataset$lyrics <- tolower(document_dataset$lyrics)

#stop wordを除去する

stopwords_regex = paste(stopwords('en'), collapse = '\\b|\\b')

stopwords_regex = paste0('\\b', stopwords_regex, '\\b')

document_dataset$lyrics <- stringr::str_replace_all(document_dataset$lyrics, stopwords_regex, '')

続いて、LDAを実行できるtopicmodelsパッケージで扱えるようにするために、テキストデータに以下の処理を施します。

#文書単語行列の作成

corpus <- Corpus(VectorSource(document_dataset$lyrics))
inspect(corpus)
dtm <- DocumentTermMatrix(corpus)
findFreqTerms(dtm)

#文書単語行列の作成

corpus <- Corpus(VectorSource(document_dataset$lyrics))

inspect(corpus)

dtm <- DocumentTermMatrix(corpus)

findFreqTerms(dtm)

あとは以下のコードでLDAを実行するだけです。トピック数はアドホックに20としています。研究者の方、いい加減ですみません。

#LDAの実行

library(topicmodels)

nbo_topics <- 20
lda <- LDA(dtm,control=list(verbose=1), k = nbo_topics,method = "Gibbs")

#LDAの実行

library(topicmodels)

nbo_topics <- 20

lda <- LDA(dtm,control=list(verbose=1), k = nbo_topics,method = "Gibbs")

LDAの結果

まずは推定されたトピックごとの上位10単語をみてみます。トピック1はラブソングとかでしょうか。トピック17にパリピっぽい単語が、トピック18にスラングが含まれていますね。

#トピックの上位10単語を確認する
terms_each_topics <- data.frame(terms(lda,10))

1 2	#トピックの上位10単語を確認する terms_each_topics <- data.frame(terms(lda,10))

> terms_each_topics
   Topic.1 Topic.2 Topic.3 Topic.4 Topic.5 Topic.6 Topic.7 Topic.8 Topic.9 Topic.10 Topic.11   Topic.12 Topic.13 Topic.14 Topic.15 Topic.16 Topic.17 Topic.18 Topic.19　Topic.20
1     love    know    feel  better   wanna     hey     one  chorus    back     yeah    gonna      never     like      got      ’m     keep     stop      ain      let      get
2     like     now   heart   world    want    said     ooh     way    time     baby      low       will      new     like   don’t     even     just     like      can     good
3     make    just    life    whoa    take     old    call   verse    know     girl     hear      still     city     back     ’re  getting    hands     shit      say    night
4    touch    need    away     run    rock   every   cause     can    come   little     mean       ever     high    right    young      one      put     fuck      believe      ain
5     know   think    just   light     see     woo  gettin     pre    long     like    sound       eyes     bout     wish      ’s     give    party      got      fly     kind
6   nobody   cause   break  things    kiss    left    born    tell    like     just    shaky     always     ride     hold     ’ll     lose    crazy     hook      fall   really
7     baby    much    real    find    come    told     day     got    best    right     just everything     yeah     boom      que   please     live      gon      made    sleep
8    cause    give  enough    show    make nothing   makes    like    home      get     solo      leave      fun     know   ain’t   youand   lights    nigga      first champion
9     name    mind   every     see    body   daddy    came    used     til      can  tonight       hope     know      one     para     just     play   niggas      words    catch
10  loving  really    find waiting tonight   sweet   stand    made alright     look   wicked       stay      get     come   can’t  without      see    money      lonely      til

> terms_each_topics

Topic.1 Topic.2 Topic.3 Topic.4 Topic.5 Topic.6 Topic.7 Topic.8 Topic.9 Topic.10 Topic.11 Topic.12 Topic.13 Topic.14 Topic.15 Topic.16 Topic.17 Topic.18 Topic.19　Topic.20

1 love know feel better wanna hey one chorus back yeah gonna never like got ’m keep stop ain let get

2 like now heart world want said ooh way time baby low will new like don’t even just like can good

3 make just life whoa take old call verse know girl hear still city back ’re getting hands shit say night

4 touch need away run rock every cause can come little mean ever high right young one put fuck believe ain

5 know think just light see woo gettin pre long like sound eyes bout wish ’s give party got fly kind

6 nobody cause break things kiss left born tell like just shaky always ride hold ’ll lose crazy hook fall really

7 baby much real find come told day got best right just everything yeah boom que please live gon made sleep

8 cause give enough show make nothing makes like home get solo leave fun know ain’t youand lights nigga first champion

9 name mind every see body daddy came used til can tonight hope know one para just play niggas words catch

10 loving really find waiting tonight sweet stand made alright look wicked stay get come can’t without see money lonely til

見ずらいので、行を一つにまとめて、トピックにidを割り振ります。

#トピックの上位10単語をまとめて、トピックにidをふる
topic_keywords <- data.frame(topic_keywords_10=apply(t(terms_each_topics),1,paste,collapse=","))
topic_keywords <- topic_keywords %>% mutate(topic_id=1:n())

#トピックの上位10単語をまとめて、トピックにidをふる

topic_keywords <- data.frame(topic_keywords_10=apply(t(terms_each_topics),1,paste,collapse=","))

topic_keywords <- topic_keywords %>% mutate(topic_id=1:n())

> topic_keywords
                                              topic_keywords_10 topic_id
1       love,like,make,touch,know,nobody,baby,cause,name,loving        1
2          know,now,just,need,think,cause,much,give,mind,really        2
3        feel,heart,life,away,just,break,real,enough,every,find        3
4      better,world,whoa,run,light,things,find,show,see,waiting        4
5          wanna,want,take,rock,see,kiss,come,make,body,tonight        5
6          hey,said,old,every,woo,left,told,nothing,daddy,sweet        6
7           one,ooh,call,cause,gettin,born,day,makes,came,stand        7
8              chorus,way,verse,can,pre,tell,got,like,used,made        8
9           back,time,know,come,long,like,best,home,til,alright        9
10           yeah,baby,girl,little,like,just,right,get,can,look       10
11     gonna,low,hear,mean,sound,shaky,just,solo,tonight,wicked       11
12 never,will,still,ever,eyes,always,everything,leave,hope,stay       12
13               like,new,city,high,bout,ride,yeah,fun,know,get       13
14             got,like,back,right,wish,hold,boom,know,one,come       14
15        ’m,don’t,’re,young,’s,’ll,que,ain’t,para,can’t       15
16   keep,even,getting,one,give,lose,please,youand,just,without       16
17         stop,just,hands,put,party,crazy,live,lights,play,see       17
18           ain,like,shit,fuck,got,hook,gon,nigga,niggas,money       18
19         let,can,say,believe,fly,fall,made,first,words,lonely       19
20      get,good,night,ain,kind,really,sleep,champion,catch,til       20

> topic_keywords

topic_keywords_10 topic_id

1 love,like,make,touch,know,nobody,baby,cause,name,loving 1

2 know,now,just,need,think,cause,much,give,mind,really 2

3 feel,heart,life,away,just,break,real,enough,every,find 3

4 better,world,whoa,run,light,things,find,show,see,waiting 4

5 wanna,want,take,rock,see,kiss,come,make,body,tonight 5

6 hey,said,old,every,woo,left,told,nothing,daddy,sweet 6

7 one,ooh,call,cause,gettin,born,day,makes,came,stand 7

8 chorus,way,verse,can,pre,tell,got,like,used,made 8

9 back,time,know,come,long,like,best,home,til,alright 9

10 yeah,baby,girl,little,like,just,right,get,can,look 10

11 gonna,low,hear,mean,sound,shaky,just,solo,tonight,wicked 11

12 never,will,still,ever,eyes,always,everything,leave,hope,stay 12

13 like,new,city,high,bout,ride,yeah,fun,know,get 13

14 got,like,back,right,wish,hold,boom,know,one,come 14

15 ’m,don’t,’re,young,’s,’ll,que,ain’t,para,can’t 15

16 keep,even,getting,one,give,lose,please,youand,just,without 16

17 stop,just,hands,put,party,crazy,live,lights,play,see 17

18 ain,like,shit,fuck,got,hook,gon,nigga,niggas,money 18

19 let,can,say,believe,fly,fall,made,first,words,lonely 19

20 get,good,night,ain,kind,really,sleep,champion,catch,til 20

最後に、BillboardでTop10に入ったかどうかのデータを作っておき、そのデータと各歌詞を繋ぎ、各歌詞ごとに割りふられた確率が最大のトピックで集計をします。

#上位10位に入ったことがあるかどうかのダミーを作成
top_10_songs <- merge_dataset %>% group_by(link.y) %>% summarise(top_10=sum(top_10))
top_10_songs <- top_10_songs %>% mutate(top_10_dummy=ifelse(top_10>0,1,0))

#割り振られた最大の確率のトピックを抽出し、歌詞データと統合する
topics_each_document <- data.frame(topic_id=topics(lda,1))
topics_each_document <- cbind(link.y=document_dataset$link.y,topics_each_document)

#上位10位ダミーを繋ぎ、トピックの上位10単語の表現も繋ぐ
topics_each_document <- topics_each_document %>% left_join(top_10_songs,by="link.y")
topics_each_document <- topics_each_document %>% left_join(topic_keywords,by="topic_id")

#トピックごとのBillboardのTop10ランクイン割合をもとめる
topics_each_document %>% group_by(topic_keywords_10) %>% summarise(top_10_dummy=mean(top_10_dummy),count=n())

# A tibble: 20 × 3
                                              topic_keywords_10 `mean(top_10_dummy)` count
                                                         <fctr>                <dbl> <int>
1         ’m,don’t,’re,young,’s,’ll,que,ain’t,para,can’t           0.12195122    41
2            ain,like,shit,fuck,got,hook,gon,nigga,niggas,money           0.14705882    68
3           back,time,know,come,long,like,best,home,til,alright           0.21666667    60
4      better,world,whoa,run,light,things,find,show,see,waiting           0.25000000    40
5              chorus,way,verse,can,pre,tell,got,like,used,made           0.14814815    54
6        feel,heart,life,away,just,break,real,enough,every,find           0.10416667    48
7       get,good,night,ain,kind,really,sleep,champion,catch,til           0.22857143    35
8      gonna,low,hear,mean,sound,shaky,just,solo,tonight,wicked           0.22857143    35
9              got,like,back,right,wish,hold,boom,know,one,come           0.13888889    36
10         hey,said,old,every,woo,left,told,nothing,daddy,sweet           0.09756098    41
11   keep,even,getting,one,give,lose,please,youand,just,without           0.18918919    37
12         know,now,just,need,think,cause,much,give,mind,really           0.21333333    75
13         let,can,say,believe,fly,fall,made,first,words,lonely           0.15217391    46
14               like,new,city,high,bout,ride,yeah,fun,know,get           0.14705882    34
15      love,like,make,touch,know,nobody,baby,cause,name,loving           0.17021277    47
16 never,will,still,ever,eyes,always,everything,leave,hope,stay           0.22222222    72
17          one,ooh,call,cause,gettin,born,day,makes,came,stand           0.28205128    39
18         stop,just,hands,put,party,crazy,live,lights,play,see           0.25000000    48
19         wanna,want,take,rock,see,kiss,come,make,body,tonight           0.10810811    37
20           yeah,baby,girl,little,like,just,right,get,can,look           0.14814815    54

#上位10位に入ったことがあるかどうかのダミーを作成

top_10_songs <- merge_dataset %>% group_by(link.y) %>% summarise(top_10=sum(top_10))

top_10_songs <- top_10_songs %>% mutate(top_10_dummy=ifelse(top_10>0,1,0))

#割り振られた最大の確率のトピックを抽出し、歌詞データと統合する

topics_each_document <- data.frame(topic_id=topics(lda,1))

topics_each_document <- cbind(link.y=document_dataset$link.y,topics_each_document)

#上位10位ダミーを繋ぎ、トピックの上位10単語の表現も繋ぐ

topics_each_document <- topics_each_document %>% left_join(top_10_songs,by="link.y")

topics_each_document <- topics_each_document %>% left_join(topic_keywords,by="topic_id")

#トピックごとのBillboardのTop10ランクイン割合をもとめる

topics_each_document %>% group_by(topic_keywords_10) %>% summarise(top_10_dummy=mean(top_10_dummy),count=n())

# A tibble: 20 × 3

topic_keywords_10 `mean(top_10_dummy)` count

1 ’m,don’t,’re,young,’s,’ll,que,ain’t,para,can’t 0.12195122 41

2 ain,like,shit,fuck,got,hook,gon,nigga,niggas,money 0.14705882 68

3 back,time,know,come,long,like,best,home,til,alright 0.21666667 60

4 better,world,whoa,run,light,things,find,show,see,waiting 0.25000000 40

5 chorus,way,verse,can,pre,tell,got,like,used,made 0.14814815 54

6 feel,heart,life,away,just,break,real,enough,every,find 0.10416667 48

7 get,good,night,ain,kind,really,sleep,champion,catch,til 0.22857143 35

8 gonna,low,hear,mean,sound,shaky,just,solo,tonight,wicked 0.22857143 35

9 got,like,back,right,wish,hold,boom,know,one,come 0.13888889 36

10 hey,said,old,every,woo,left,told,nothing,daddy,sweet 0.09756098 41

11 keep,even,getting,one,give,lose,please,youand,just,without 0.18918919 37

12 know,now,just,need,think,cause,much,give,mind,really 0.21333333 75

13 let,can,say,believe,fly,fall,made,first,words,lonely 0.15217391 46

14 like,new,city,high,bout,ride,yeah,fun,know,get 0.14705882 34

15 love,like,make,touch,know,nobody,baby,cause,name,loving 0.17021277 47

16 never,will,still,ever,eyes,always,everything,leave,hope,stay 0.22222222 72

17 one,ooh,call,cause,gettin,born,day,makes,came,stand 0.28205128 39

18 stop,just,hands,put,party,crazy,live,lights,play,see 0.25000000 48

19 wanna,want,take,rock,see,kiss,come,make,body,tonight 0.10810811 37

20 yeah,baby,girl,little,like,just,right,get,can,look 0.14814815 54

#トピックごとのランクイン割合を高い順に棒グラフで描写

library(ggplot2)
ggplot(topics_and_top10, aes(x=reorder(topic_keywords_10,top_10_dummy), y=top_10_dummy)) +
  geom_bar(stat='identity') + coord_flip() + xlab("topics")

#トピックごとのランクイン割合を高い順に棒グラフで描写

library(ggplot2)

ggplot(topics_and_top10, aes(x=reorder(topic_keywords_10,top_10_dummy), y=top_10_dummy)) +

geom_bar(stat='identity') + coord_flip() + xlab("topics")

BillboardのTop10ランクイン割合の高いトピックTop3
「one,ooh,call,cause,gettin,born,day,makes,came,stand」
「better,world,whoa,run,light,things,find,show,see,waiting」・・・明るい感じ？
「stop,just,hands,put,party,crazy,live,lights,play,see」・・・パリピぽい

BillboardのTop10ランクイン割合の低いトピックTop3
「wanna,want,take,rock,see,kiss,come,make,body,tonight」・・・欲求系？
「feel,heart,life,away,just,break,real,enough,every,find」・・・癒し系？
「hey,said,old,every,woo,left,told,nothing,daddy,sweet」

あまり洋楽を聴かないので、得られたトピックの解釈が中々できないのがもどかしいです。ただ、スラングの歌詞を含む歌詞はそんなにランクイン割合が悪いわけではなさそうですね。洋楽をもっと聴いて、前処理などもう少し工夫してリベンジしたいですね。

参考文献

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

モダンなRによるテキスト解析 topicmodels: An R Package for Fitting Topic Models

言語処理学会第23回年次大会〜Webマーケティングで使えそうな発表資料まとめ〜

行きたいけど行けなかった言語処理学会第23回年次大会の発表内容がPDFで見れるということで、発表内容の中でWebマーケティングなどの仕事で役に立つかもしれない12件の研究を独断と偏見でまとめています。

プログラムはこちらのリンクから見れます。
言語処理学会第23回年次大会(NLP2017) プログラム

今回取り上げるのは以下の12件です。

・Wikipediaのカテゴリ構造を特徴ベクトルに用いたRandom Forestによるショートメッセージ分類
・NMFを用いた為替ドル円レートの変動要因分析とAdaboostを用いた予測システム
・Are Deep Learning Methods Better for Twitter Sentiment Analysis?
・化粧品レビューサイトにおけるクチコミの有用性判定
・機械学習を用いたQAサイト質問文のカテゴリの類推
・不満調査データセットの素性ベクトル化
・検索エンジンを用いた記載欠落箇所の補完
・生コーパスからの単語難易度関連指標の予測
・常識から外れた雑談応答の検出
・店舗レビューには何が書かれているか？–調査及びその自動分類–
・トップダウン型共起グラフを用いたブログからの観光地の行動分析
・社内データに基づくイノベータ人財のピックアップ

Wikipediaのカテゴリ構造を特徴ベクトルに用いたRandom Forestによるショートメッセージ分類

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P16-4.pdf

Wikipediaのカテゴリ構造を学習させたナイーブベイズにより特徴ベクトルを生成し、それをTweetに付与して、ランダムフォレストを用いてメッセージ分類をしているようです。直接Tweetのデータを使わないでWikipediaのデータを活用するところにトリックがあるようです。ビジネスにおいて関心のある対象ユーザーのTweetのモニタリングや対象ユーザーの特定に使えるかもしれません。

NMFを用いた為替ドル円レートの変動要因分析とAdaboostを用いた予測システム

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P15-5.pdf

『金融経済月報』や『日本経済展望』のテキストデータに対して、PCAとNMFの2つの手法を用いて特徴抽出を行い、Adaboostを用いて為替レートの予測を行っているようです。為替レートを予測せずとも、テキストデータを用いた市場動向の予測などの参考になるかもしれません。

Are Deep Learning Methods Better for Twitter Sentiment Analysis?

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/C5-1.pdf

Tweetの感情分析で深層学習を用いて、SVMなどと比較している研究のようです。Conclusionを見る限りは、SVMよりも精度が高いとは言えず（ネットワーク構造やデータセットの大きさに依存する）、少ないデータセットなどではSVMの方が依然として精度が高いようです。

化粧品レビューサイトにおけるクチコミの有用性判定

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/C5-4.pdf

@cosmeにおける、Likeの数をクチコミの有用度と定義して、クチコミデータに対してTF-IDFやLDAを用いて構造解析や意味解析などで特徴を抽出し、その特徴を説明変数とした回帰モデル（SVR）を構築しています。構築した回帰モデルを用い、クチコミのLikeの数を推定することを目的としています。

ここでの知見が直接に自社のコンテンツなどのナレッジになるわけではないですが、LDAやSVM（SVR）を駆使しているなど、分析手法の参考にはなると思います。

機械学習を用いたQAサイト質問文のカテゴリの類推

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P9-6.pdf

深層学習（Stacked Denoising Autoencoders(SdA) と Deep Belief　Network(DBN)）を用いて質問文に適したカテゴリを類推する研究です。従来手法のMLPやSVMと比べても精度が高かったようです。ユーザーの欲しい商品や、働きたい職場、住みたい場所などに関しても類推できるとマーケティングなどでの活用もできるかもしれません。

不満調査データセットの素性ベクトル化

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P9-2.pdf

不満に関するデータにタグ付けされた情報やJUMANの付属辞書から得られた意味情報も素性とすることで、不満の検索のしやすさを高める研究のようです。不満のテキストデータから特徴量に変えるまでのプロセスが記されているのが参考になりそうです。研究自体は、形態素解析の精度などにより、まだ課題があるようです。

検索エンジンを用いた記載欠落箇所の補完

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P16-5.pdf
「検索エンジンを用いて記載欠落箇所に適切な情報を埋める研究」とあり、コンテンツマーケティングなどの際に、作成した記事に説明不足な箇所を見つけることができるので、コンテンツの質を担保する上で役に立つかもしれません。

生コーパスからの単語難易度関連指標の予測

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/E5-3.pdf

「均衡コーパスや深いアノテーションを施した言語資源に頼らないことで他言語への適用が容易な単語難易度関連指標の予測手法を提案」
「単語難易度関連指標の予測精度はLDAの各トピックからの単語出現確率を基にした素性を用いることで、従来のようにコーパスからの単語頻度を素性を用いる場合と比べ大幅に向上」
「word2vecのような単語のベクトル表現より、LDAの各トピックからの単語出現確率の方が予測精度の向上に有効」
とあり、文章のリーダビリティをよりカジュアルに計算することが可能になるようです。文章のリーダビリティとWebサイトの直帰率やスクロール率などとの関係を研究してみたいですね。

常識から外れた雑談応答の検出

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P15-3.pdf

「Word2Vecモデルの学習においては、匿名掲示板である「おーぷん2ちゃんねる」から取得した人気記事7959記事を用いている。」と2ちゃんねるの表現から非常識語を見つけるという試みです。自社でUGCを運営している場合は役に立ちそうな研究です。

店舗レビューには何が書かれているか？–調査及びその自動分類–

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/W-3.pdf

「店舗レビュー1,510件（5,266文）に対して人手でアノテーションを行い、このデータに基づいてトピックおよびその評価極性を分類するモデルを構築」と、恐ろしい数の文書を人出で分類したそうです。これもユーザーアンケートなどの研究に使えそうです。

トップダウン型共起グラフを用いたブログからの観光地の行動分析

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P20-3.pdf

「寄り道をする観光地を指定すると、その特徴を可視化する手法の開発を目的」とされています。マーケターであれば、関心のある商材を指定すると、その商材に関する特徴を可視化できるのではないでしょうか。テキストマイニングで言うところの共起グラフによる分析となります。

提案されている手法のステップは以下の通りで、自分の関心のある市場のデータを使えば同様のことができると思われます。
(1) 商材を指定しブログ記事集を取得する。
(2) 単語対の共起スコアを同時に出現した記事数をベースとして算出する。具体的には最低出現数を4回として単語を限定し、Jaccard 係数で共起スコアを算出する。
(3) 単語を頂点、共起スコアの得られた単語対を辺として共起グラフを生成する。
(4) 分析目的に応じて注目する頂点を指定する。
(5) 指定した頂点から1または2の距離で到達可能、かつ共起スコアが一定範囲内という辺および頂点を一定数を限度に残す。

社内データに基づくイノベータ人財のピックアップ

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P12-1.pdf

番外ではありますが、面白そうな取り組みなので紹介します。
社員プロフィールや業務報告（日報）や適性検査や360度調査やアンケートなどのデータをもとに、9種類の指標を定め、一部の指標のスコアリングを単語ベースで行うに際して、スコアリング用の単語を定めるためにWord2Vecを用いています。これからピープルアナリティクスを目指す企業には参考になる情報だと思います。

GensimのHDP(Hierarchical Dirichlet Process)をクラシック音楽情報に対して試してみる

HDP(Hierarchical Dirichlet Process)いわゆる階層ディリクレ過程を実行できるモデルがPythonのGensimライブラリにあるという情報から、あまり実行例も見当たらないので、チャレンジしてみました。

HDP(Hierarchical Dirichlet Process)

HDP(Hierarchical Dirichlet Process)は文書集合全体のトピック数と文書ごとのトピック数の推定を行うことができる手法で、中華料理店フランチャイズという仕組みを用いています。通常のLDAなどでは、分析者が任意のトピック数を決める必要がありましたが、与えられたデータからその数を推定するため、その必要がないというのがHDPを使うことの利点であると思われます。

実行までの流れ

ざっくりですが、
・コーパスの準備・文書の分かち書き（名詞のみ）
・HDPの実行
という流れです。

ちなみに実行環境は
MacBook Pro
OS X Yosemite 10.10.5
2.6 GHz Intel Core i5
メモリ8GBです。

コーパスの準備

今回は、以前手に入れた某辞典サイトのクラシック音楽情報1800件のテキストデータ（1行に1件分の文字列が入っているデータで16MBくらい）があるので、それをコーパスとして使います。参考情報として挙げているブログの助けを借りて、文書単位でMeCabにより形態素解析で分かち書きした結果から、意味を持ちやすい品詞として、「名詞」に該当するもののみを結果として返す以下のPythonスクリプトを用いました。結果はtmep.txtとして出力されます。もっと良いやり方があると思いますが、目的は達成できると思います。ちなみに、MeCab Neologd(ネオログディー)という、固有名詞などに強いシステム辞書を活用してみたかったので、その利用を前提として書いています。MeCab Neologd(ネオログディー)のインストール関連の情報は参考情報にありますので、チャレンジしてみてください。（OSXかUbuntuの方が進めやすいと思います。）

#coding:utf-8
import MeCab
import sys
sys.stdout = open("tmep.txt","w")

def extractKeyword(text):
	u"""textを形態素解析して、名詞のみのリストを返す"""
	tagger = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
	#デフォルトの辞書を用いる場合は tagger = MeCab.Tagger('')	
	encoded_text = text.encode('utf-8')
	node = tagger.parseToNode(encoded_text).next
	keywords = []
	while node:
		if node.feature.split(",")[0] == "名詞":
			keywords.append(node.surface)
		node = node.next
	return keywords

def splitDocument(documents):
	u"""文章集合を受け取り、名詞のみ空白区切りの文章にして返す"""
	splitted_documents = []
	for d in documents:
		keywords = extractKeyword(d)
		splitted_documents.append(' '.join(keywords))
	return splitted_documents


if __name__ == "__main__":
	document_text = open('music_text.txt')
	raw_documents = document_text.readlines()

	# 空白区切りの文字列を入れるリスト
	splitted_documents = splitDocument(raw_documents)

	for d in splitted_documents:
		print d
	print ''


sys.stdout = sys.__stdout__

#coding:utf-8

import MeCab

import sys

sys.stdout = open("tmep.txt","w")

def extractKeyword(text):

u"""textを形態素解析して、名詞のみのリストを返す"""

tagger = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

#デフォルトの辞書を用いる場合は tagger = MeCab.Tagger('')

encoded_text = text.encode('utf-8')

node = tagger.parseToNode(encoded_text).next

keywords = []

while node:

if node.feature.split(",")[0] == "名詞":

keywords.append(node.surface)

node = node.next

return keywords

def splitDocument(documents):

u"""文章集合を受け取り、名詞のみ空白区切りの文章にして返す"""

splitted_documents = []

for d in documents:

keywords = extractKeyword(d)

splitted_documents.append(' '.join(keywords))

return splitted_documents

if __name__ == "__main__":

document_text = open('music_text.txt')

raw_documents = document_text.readlines()

# 空白区切りの文字列を入れるリスト

splitted_documents = splitDocument(raw_documents)

for d in splitted_documents:

print d

print ''

sys.stdout = sys.__stdout__

こちらのスクリプトをターミナルで実行します。(解析するディレクトリ下で実施しています。)

python MeCab_Norm_Extract.py music_text.txt > music_text_wakati_norm_neo.txt

1	python MeCab_Norm_Extract.py music_text.txt > music_text_wakati_norm_neo.txt

HDPの実行

以下のPythonスクリプトで実行しています。

# -*- coding: utf-8 -*-
from gensim import　models,corpora
import pandas

#ドキュメントからLDAなどの分析用コーパスを作成
corpus = gensim.corpora.TextCorpus('music_text_wakati_norm_neo')

#HDPモデルの推定
model = models.hdpmodel.HdpModel(
corpus,
id2word=corpus.dictionary,
alpha=0.1)

#各文書のトピックの重みを保存
topics = [model[c] for c in corpus]
print(topics[0])

#各トピックごとの単語の抽出（topicsの引数を-1にすることで、ありったけのトピックを結果として返してくれます。）
model.print_topics(topics=-1, topn=10)

#文書ごとに割り当てられたトピックの確率をCSVで出力
mixture = [dict(model[x]) for x in corpus]
pandas.DataFrame(mixture).to_csv("topic_for_corpus.csv")

#トピックごとの上位10語をCSVで出力
topicdata =model.print_topics(topics=-1, topn=10)
pandas.DataFrame(topicdata).to_csv("topic_detail.csv")

# -*- coding: utf-8 -*-

from gensim import　models,corpora

import pandas

#ドキュメントからLDAなどの分析用コーパスを作成

corpus = gensim.corpora.TextCorpus('music_text_wakati_norm_neo')

#HDPモデルの推定

model = models.hdpmodel.HdpModel(

corpus,

id2word=corpus.dictionary,

alpha=0.1)

#各文書のトピックの重みを保存

topics = [model[c] for c in corpus]

print(topics[0])

#各トピックごとの単語の抽出（topicsの引数を-1にすることで、ありったけのトピックを結果として返してくれます。）

model.print_topics(topics=-1, topn=10)

#文書ごとに割り当てられたトピックの確率をCSVで出力

mixture = [dict(model[x]) for x in corpus]

pandas.DataFrame(mixture).to_csv("topic_for_corpus.csv")

#トピックごとの上位10語をCSVで出力

topicdata =model.print_topics(topics=-1, topn=10)

pandas.DataFrame(topicdata).to_csv("topic_detail.csv")

HDPの結果について

topic_detail.csvの結果を見たところ、トピックの数が150個もあって、「本当にトピックの数を自動で決めれているのかなぁ」と不安に思ったのですが、実際に各文書に割り当てられているトピックの数は、先ほど出力したtopic_for_corpus.csvで見ると60個でした。そのため、今回、HDPに従って決まったトピック数は60ということになります。さらに不安に思ったので、Stack Over Flowで調べていたんですが、トピックは150個出るけど確率が割り振られていないはずと回答されていました。（ Hierarchical Dirichlet Process Gensim topic number independent of corpus size ）

出現頻度の高い上位10のトピックは以下の通りです。

['topic 0: 0.011*番 + 0.008*楽章 + 0.008*作品 + 0.007*作曲 + 0.006*演奏 + 0.006*日 + 0.006*主題 + 0.006*案内 + 0.006*月 + 0.005*的',
 'topic 1: 0.006*日 + 0.006*月 + 0.006*作品 + 0.005*オペラ + 0.005*案内 + 0.005*作曲 + 0.005*演奏 + 0.004*クラシック音楽 + 0.004*ため + 0.004*幕',
 'topic 2: 0.006*演奏 + 0.006*作品 + 0.006*番 + 0.006*案内 + 0.005*作曲 + 0.005*日 + 0.005*月 + 0.005*クラシック音楽 + 0.004*的 + 0.004*ポータル',
 'topic 3: 0.006*幕 + 0.005*の + 0.004*日 + 0.004*楽章 + 0.004*的 + 0.003*作品 + 0.003*人 + 0.003*伯爵 + 0.003*オペラ + 0.003*演奏',
 'topic 4: 0.009*ワーグナー + 0.007*幕 + 0.005*作品 + 0.005*日 + 0.005*オペラ + 0.005*的 + 0.004*月 + 0.004*作曲 + 0.004*動機 + 0.004*ジークフリート',
 'topic 5: 0.011*カルメン + 0.009*幕 + 0.007*オペラ + 0.004*ホセ + 0.004*作品 + 0.004*ため + 0.003*日 + 0.003*月 + 0.003*ビゼー + 0.003*作曲',
 'topic 6: 0.005*モーツァルト + 0.004*聖歌 + 0.004*ため + 0.004*的 + 0.003*音 + 0.003*人 + 0.003*オペラ + 0.003*の + 0.003*作品 + 0.003*作曲',
 'topic 7: 0.026*番 + 0.017*交響 + 0.006*ため + 0.005*ピアノ協奏曲 + 0.005*作品 + 0.005*案内 + 0.005*協奏曲 + 0.003*ヴァイオリン + 0.003*ヘルプ + 0.003*最近',
 'topic 8: 0.007*オペラ + 0.006*幕 + 0.005*トゥーランドット + 0.004*プッチーニ + 0.004*初演 + 0.003*作曲 + 0.003*作品 + 0.003*日 + 0.003*の + 0.003*月',
 'topic 9: 0.005*作品 + 0.004*パーヴァリ + 0.004*上演 + 0.004*音楽 + 0.004*初演 + 0.004*日 + 0.004*ため + 0.003*幕 + 0.003*月 + 0.003*中',
 'topic 10: 0.007*トスカ + 0.006*幕 + 0.005*オペラ + 0.005*作品 + 0.004*彼 + 0.004*マノン + 0.003*カヴァラドッシ + 0.003*の + 0.003*スカ + 0.003*ルピア']

['topic 0: 0.011*番 + 0.008*楽章 + 0.008*作品 + 0.007*作曲 + 0.006*演奏 + 0.006*日 + 0.006*主題 + 0.006*案内 + 0.006*月 + 0.005*的',

'topic 1: 0.006*日 + 0.006*月 + 0.006*作品 + 0.005*オペラ + 0.005*案内 + 0.005*作曲 + 0.005*演奏 + 0.004*クラシック音楽 + 0.004*ため + 0.004*幕',

'topic 2: 0.006*演奏 + 0.006*作品 + 0.006*番 + 0.006*案内 + 0.005*作曲 + 0.005*日 + 0.005*月 + 0.005*クラシック音楽 + 0.004*的 + 0.004*ポータル',

'topic 3: 0.006*幕 + 0.005*の + 0.004*日 + 0.004*楽章 + 0.004*的 + 0.003*作品 + 0.003*人 + 0.003*伯爵 + 0.003*オペラ + 0.003*演奏',

'topic 4: 0.009*ワーグナー + 0.007*幕 + 0.005*作品 + 0.005*日 + 0.005*オペラ + 0.005*的 + 0.004*月 + 0.004*作曲 + 0.004*動機 + 0.004*ジークフリート',

'topic 5: 0.011*カルメン + 0.009*幕 + 0.007*オペラ + 0.004*ホセ + 0.004*作品 + 0.004*ため + 0.003*日 + 0.003*月 + 0.003*ビゼー + 0.003*作曲',

'topic 6: 0.005*モーツァルト + 0.004*聖歌 + 0.004*ため + 0.004*的 + 0.003*音 + 0.003*人 + 0.003*オペラ + 0.003*の + 0.003*作品 + 0.003*作曲',

'topic 7: 0.026*番 + 0.017*交響 + 0.006*ため + 0.005*ピアノ協奏曲 + 0.005*作品 + 0.005*案内 + 0.005*協奏曲 + 0.003*ヴァイオリン + 0.003*ヘルプ + 0.003*最近',

'topic 8: 0.007*オペラ + 0.006*幕 + 0.005*トゥーランドット + 0.004*プッチーニ + 0.004*初演 + 0.003*作曲 + 0.003*作品 + 0.003*日 + 0.003*の + 0.003*月',

'topic 9: 0.005*作品 + 0.004*パーヴァリ + 0.004*上演 + 0.004*音楽 + 0.004*初演 + 0.004*日 + 0.004*ため + 0.003*幕 + 0.003*月 + 0.003*中',

'topic 10: 0.007*トスカ + 0.006*幕 + 0.005*オペラ + 0.005*作品 + 0.004*彼 + 0.004*マノン + 0.003*カヴァラドッシ + 0.003*の + 0.003*スカ + 0.003*ルピア']

加えて、トピックごとに文書に割り当てられた数を集計してみましたが、topic0が圧倒的に多く、コーパスの特性上、含まれやすい情報がここに集まっているのではないかと思います。幅広いテーマを抽出できるかと期待していたのですが、やたらと個別具体的な「トゥーランドット」や「ワーグナー」や「カルメン」などがトピックの上位単語に上がってきています。実行方法を間違えているかもしれないし、パラメータチューニングなどをもっと頑張れば、幅広いトピックを得ることができるかもしれないので、今後の課題としたいです。

参考情報

・トピックモデルについて
machine_learning_python/topic.md at master · poiuiop/machine_learning_python · GitHub

Word2Vecでクラシックの楽曲情報をコーパスとして類似度を出してみる

あの手この手を使って手に入れた、およそ1800曲に及ぶクラシック音楽の楽曲情報（テキスト）をもとに
、PythonのGensimライブラリーのWord2Vecを使って、任意の単語に関する類似単語を出力してみたいと思います。

まずは、手に入れたコーパスを作業フォルダに置いて、MeCabによる分かち書きを行います。
（最後の引数-bは、処理する文書のサイズが大きい際に調整します。）

mecab -O wakati music_text.txt > music_text_wakati.txt -b 81920

1	mecab -O wakati music_text.txt > music_text_wakati.txt -b 81920

後はGensimパッケージを読み込んで、

# -*- coding: utf-8 -*-
from gensim.models import word2vec

1 2	# -- coding: utf-8 -- from gensim.models import word2vec

Word2Vecを計算させるだけです。

sentences = word2vec.Text8Corpus("music_text_wakati.txt")
model = word2vec.Word2Vec(sentences, size=200)

1 2	sentences = word2vec.Text8Corpus("music_text_wakati.txt") model = word2vec.Word2Vec(sentences, size=200)

（引数のsizeは特徴ベクトルの次元数です。）

早速、トランペットについて、所与のコーパスにおける類似単語を見てみたいと思います。（類似度が最も高い単語の上位10位の結果を返しています。）

for w, d in model.most_similar(u"トランペット"):
	print("%s\t%.4f" % (w, d))
トロンボーン	0.9087
コルネット	0.8880
ホルン	0.8806
ファゴット	0.8357
ティンパニ	0.8107
金管楽器	0.8005
チューバ	0.7984
打楽器	0.7816
ユーフォニアム	0.7358
バスーン	0.7238

for w, d in model.most_similar(u"トランペット"):

print("%s\t%.4f" % (w, d))

トロンボーン 0.9087

コルネット 0.8880

ホルン 0.8806

ファゴット 0.8357

ティンパニ 0.8107

金管楽器 0.8005

チューバ 0.7984

打楽器 0.7816

ユーフォニアム 0.7358

バスーン 0.7238

惜しいですね。
願わくば、コルネットが一番目に来てほしかったです。オケの編成上、どうしてもトロンボーンが一緒の文書で出やすいのだと思います。

続いては、ピアノです。こちらもオルガン・チェンバロは非常に近い楽器だと思うのですが、一番目がヴァイオリンというのはデータ上仕方がないのかもしれません。

for w, d in model.most_similar(u"ピアノ"):
	print("%s\t%.4f" % (w, d))
ヴァイオリン	0.7837
オルガン	0.7217
チェンバロ	0.7210
弦楽	0.6495
チェロ	0.6474
ギター	0.6433
オーケストラ	0.6221
ヴィオラ	0.6188
室内楽	0.6184
合奏	0.6160

for w, d in model.most_similar(u"ピアノ"):

print("%s\t%.4f" % (w, d))

ヴァイオリン 0.7837

オルガン 0.7217

チェンバロ 0.7210

弦楽 0.6495

チェロ 0.6474

ギター 0.6433

オーケストラ 0.6221

ヴィオラ 0.6188

室内楽 0.6184

合奏 0.6160

続いて、ヴァイオリンですが、ヴィオラ・チェロは良いと思うのですが、ピアノやチェンバロなどが上位に来ています。

for w, d in model.most_similar(u"ヴァイオリン"):
	print("%s\t%.4f" % (w, d))
ピアノ	0.7837
ヴィオラ	0.7805
チェンバロ	0.7743
チェロ	0.7571
フルート	0.7018
ギター	0.6551
クラリネット	0.6521
サクソフォーン	0.6520
オーボエ	0.6443
オルガン	0.6375

for w, d in model.most_similar(u"ヴァイオリン"):

print("%s\t%.4f" % (w, d))

ピアノ 0.7837

ヴィオラ 0.7805

チェンバロ 0.7743

チェロ 0.7571

フルート 0.7018

ギター 0.6551

クラリネット 0.6521

サクソフォーン 0.6520

オーボエ 0.6443

オルガン 0.6375

続いて、クレッシェンドですが、似たような意味はあまり観察されていません。ただし、「クライマックス」・「アルペッジョ」などと似たようなシチュエーションで登場しそうな表現な気がします。

for w, d in model.most_similar(u"クレッシェンド"):
	print("%s\t%.4f" % (w, d))
転調	0.7839
高音	0.7785
不協和音	0.7748
高揚	0.7653
クライマックス	0.7610
アルペッジョ	0.7597
静寂	0.7590
ピッツィカート	0.7567
楽節	0.7563
突如	0.7537

for w, d in model.most_similar(u"クレッシェンド"):

print("%s\t%.4f" % (w, d))

転調 0.7839

高音 0.7785

不協和音 0.7748

高揚 0.7653

クライマックス 0.7610

アルペッジョ 0.7597

静寂 0.7590

ピッツィカート 0.7567

楽節 0.7563

突如 0.7537

最後に、アレグロですが、こちらは速さの序列に関しては守られていないようです。やはりコーパス次第ですかね。
プレスト　＞　アレグレット　＞　モデラート　＞　アンダンテ　＞　アダージョ　＞　ラルゴ
この序列が守られるようなWord2Vecの実践例などがあると面白いですが。

for w, d in model.most_similar(u"アレグロ"):
	print("%s\t%.4f" % (w, d))
アンダンテ	0.8903
アダージョ	0.8699
モデラート	0.8246
アレグレット	0.8180
プレスト	0.7785
メヌエット	0.7524
スケルツォ	0.7302
Allegretto	0.7280
Allegro	0.7277
ラルゴ	0.7232

for w, d in model.most_similar(u"アレグロ"):

print("%s\t%.4f" % (w, d))

アンダンテ 0.8903

アダージョ 0.8699

モデラート 0.8246

アレグレット 0.8180

プレスト 0.7785

メヌエット 0.7524

スケルツォ 0.7302

Allegretto 0.7280

Allegro 0.7277

ラルゴ 0.7232

仕事でWord2Vecを使うシーンがあるとしたら、広告文のアイデアを助けたり、語彙力の弱い人の補助的なツールとして使えるかもしれませんが、実用レベルはまだまだ遠い気がします。

おまけ

左手に関しては、最も類似した単語が「右手」という結果になっています。

for w, d in model.most_similar(u"左手"):
	print("%s\t%.4f" % (w, d))
右手	0.9253
両手	0.8508
アルペッジョ	0.8326
跳躍	0.8131
オクターヴ	0.7938
音階	0.7925
和音	0.7866
スタッカート	0.7856
動き	0.7847
オクターブ	0.7792

for w, d in model.most_similar(u"左手"):

print("%s\t%.4f" % (w, d))

右手 0.9253

両手 0.8508

アルペッジョ 0.8326

跳躍 0.8131

オクターヴ 0.7938

音階 0.7925

和音 0.7866

スタッカート 0.7856

動き 0.7847

オクターブ 0.7792

参考文献

models.word2vec – Deep learning with word2vec

岩波データサイエンス Vol．2 岩波データサイエンス刊行委員会　編

LDA（潜在的ディリクレ配分法）まとめ手法の概要と試行まで

【目次】
・トピックモデルとは
・トピックモデルの歴史
・トピックモデルでできること
・トピックモデルを理解するために必要な知識
・トピックモデルの手法について
・トピックモデルの実行方法について（R言語）
・トピックモデルの評価方法について
・Correlated Topic Models (CTM)について
・PAM:Pachinko Allocation Modelについて
・Relational Topic Models(RTM)について
・参考文献

トピックモデルとは

・一つの文書に複数の潜在的なトピック（話題・分野・文体・著者など）、文書ごとのトピック分布、トピックごとの単語分布を仮定して、テキストからトピックを推定するモデル。文書に限らず、様々な離散データに隠された潜在的なトピックを推定するベイジアンモデル。幅広いドメインでの離散データで有効とされている。

トピックモデルの歴史

1998年：pLSA(probabilistic Latent Semantic Analysis)
2003年：LDA(Latent Dirichlet Allocation)
2004年〜：拡張モデル
2007年〜：大規模データのための高速化

トピックモデルでできること

・人を介することなく、大量の文書集合から話題になっているトピックを抽出できる。
・文書データだけでなく、画像処理、推薦システム、ソーシャルネットワーク解析、バイオインフォマティクス、音楽情報処理などにも応用されている。
・確率過程を用いて、ノイズを取り除き、本質的な情報を抽出できる。

トピックモデルを理解するために必要な知識

・確率
　-確率分布
　　-ベルヌーイ分布
　　-カテゴリ分布
　　-ベータ分布・ガンマ分布
　　-ディリクレ分布
・ラグランジュ未定乗数法
・ユニグラム
　-BOW(Bag of words)
　-ユニグラムモデル
・混合ユニグラムモデル
・混合モデル
・EMアルゴリズム
・最尤推定
・ベイズの定理
　-ベイズ推定
　 -ベイズ予測分布
　 -ハイパーパラメータ推定
　 -モデル選択
　 -変分ベイズ推定
　 -ギブスサンプリング

トピックモデルの手法について

推定方法としては以下の三つが提案されている。
・最尤推定
・変分ベイズ推定
・ギブスサンプリング

ギブスサンプリングによる方法

一部のパラメータを積分消去して、トピック集合の事後分布を推定
↓
文書集合とトピック集合の同時分布を導出
↓
単語ごとにトピックをサンプリングする
↓
サンプリングされたトピックからトピック分布と単語分布を推定
↓
周辺同時尤度を最大化させるハイパーパラメータαとβを推定する

※LDAのギブスサンプリングはLDAが共役性に基づいたモデリングであるため効率的な計算が可能とされる。

ハイパーパラメータを適切にデータから学習すれば、MAP推定・変分ベイズ推定・ギブスサンプリングの性能の差は大きく出ないという研究結果があるらしい。（なお、MAP推定だと、クロスバリデーションを行い、尤度を最大化させるハイパーパラメータを見つけなければならない。）

トピックモデルの実行方法について（R言語）

以下のパッケージで実行可能だが、新しい手法などにはまだ対応していない。
lda（CRANのPDF）
topicmodels（CRANのPDF）

以下はtopicmodelsパッケージの実行コードであるが、BOW形式のデータがあれば、実行はすぐにできる。
ただし、パープレキシティなどを計算しながら、ハイパーパラメータのチューニングをする必要がある。

library(topicmodels)
k <- 10 #トピック数
LDA_estimate <- LDA(bagofwords, k, method="Gibbs",control=list(alpha=alpha,verbose=1,
                                                                            iter=10000,burnin=1000,delta=delta))

library(topicmodels)

k <- 10 #トピック数

LDA_estimate <- LDA(bagofwords, k, method="Gibbs",control=list(alpha=alpha,verbose=1,

iter=10000,burnin=1000,delta=delta))

時間があれば、ソースコードを見て自分で書けるようにしたい。
ちなみに、HDP-LDAはPythonのgensimに用意されているようです。(gensimへのリンク)

トピックモデルの評価方法について

パープレキシティ（Perplexity）

-確率モデルの性能を評価する尺度として、テストデータを用いて計算する。
-負の対数尤度から計算できる。
-低いパープレキシティはテストデータを高い精度で予測できる良い確率モデルであることを示す。
-全ての語彙が一葉の確率で出現するモデルのパープレキシティは語彙数Vになり、性能が悪いと考えることができる。
-このパープレキシティが小さくなるようなトピック数やパラメータの設定が必要。

Correlated Topic Models (CTM)について

トピックモデルは「各トピック k の間には相関がない」という前提のもとに成り立つ手法ですが、本当にトピック間に相関はないのでしょうか。「本当は相関のあるトピック」を無理やり「相関のないトピック」に分割している可能性が高いので、相関を加味したモデルが必要です。そこで、トピックの生成割合を決める際に、トピック間の相関を持つように多次元の正規分布を用います。ただし、その代わりに共役的な分布を持たないため、従来のギブスサンプリングではサンプリングが非効率になることから変分ベイズを用いる必要があります。

PAM:Pachinko Allocation Modelについて

CTMは各トピックが同じレベルにあるため、トピック間の階層構造を表すことができません。
自動車にとっての、セダンやトラック、あるいはお酒にとってのワインやビールのようにトピックに関しても階層構造があることは想像に難くありません。トピック間の関係・相関を一般的に表現するモデルで、トピック間の階層構造を基本として、パチンコ玉が落ちるように単語を生成します。パチンコ玉が落ちるというのは、向きが一方行の有向かつ非巡回ノードが連想されます。分布に関しても共役なので、ギブスサンプリングでサンプリングが可能です。
2016/04/24の段階ではまだGensimでモデルの開発はなされていないようです。
Pachinko Allocation Model
ちなみに、論文はこちらです。
Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations

Relational Topic Models(RTM)について

文書の中身だけでなく、文書間のリンクの生成過程も同時に確率モデル化する手法。論文や特許データに対して活用できる。過去の購買行動に応じた、顧客のセグメント解析や商品のレコメンデーションに活用できるかもしれない。

参考文献

『トピックモデル (機械学習プロフェッショナルシリーズ)』
『トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)』
Tokyo Webmining 46th 『トピックモデルことはじめ』
machine_learning_python/topic.md

統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ

テキストマイニングに関する参考文献

テキストマイニングの入門の情報から最新の研究までを集めています。
随時更新します。

学習

自然言語処理を独習したい人のために
http://cl.sd.tmu.ac.jp/prospective/prerequisite

確率的潜在意味解析
http://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node14.html

Probabilistic latent semantic analysis
http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis

PythonでPLSAを実装してみる
http://satomacoto.blogspot.jp/2009/10/pythonplsa.html

RでPLSA(PLSI)
http://sucrose.hatenablog.com/entry/20110604/p1

テキストマイニング環境の構築

RMeCab と RCaBoCha をインストールしてみた
http://antimon2.hatenablog.jp/entry/2012/09/02/214131

RCaBoCha
http://rmecab.jp/wiki/index.php?RCaBoCha

LSIやLDAを手軽に試せるGensimを使った自然言語処理入門
http://yuku-tech.hatenablog.com/entry/20110623/1308810518

gensimに日本語Wikipediaを取り込むためのスクリプト
https://gist.github.com/yuku-t/1040366

研究

特許公報を用いた自然言語処理による業界分析、及びSpotfireによる可視化
http://togotv.dbcls.jp/20101220.html

メンション情報を利用したTwitterユーザープロフィール推定
http://dbsj.org/journal/dbsj_journal_j/dbsj_journal_vol_13_no_1_1_6/
http://dbsj.org/wp-content/uploads/2014/11/DBSJ13-1_P01-06_okutani.pdf.pagespeed.ce.ryqKKFAwd6.pdf

誕生・使用事由によるレシピ検索～生い立ちレシピサーチ～
http://dbsj.org/journal/dbsj_journal_j/dbsj_journal_vol_13_no_1_78_85/
http://dbsj.org/wp-content/uploads/2014/11/DBSJ13-1_P78-85_kadowaki.pdf.pagespeed.ce.A2TxRNdZlm.pdf

特徴トークンに注目した Smith-Waterman アルゴリズムに基づく剽窃ソースコードの自動検出手法
http://www.it.mgmt.waseda.ac.jp/results/student1/2012-M2-Hibi.pdf