データマイニングに関するSlideShareを大量に集めてみた#2

前回の「SlideShareの機械学習に関するスライドを大量に集めてみた」でSlideShareの検索機能に不満のある方が、やはりおられたようなので、他のバージョンも作っていきます。今回はGoogleのsiteコマンド検索( 「データマイニング site:slideshare.net 」)でヒットした520件を対象にWebスクレイピングし、タイトルで検索できるようになっています。前回からの改良点は、URLがリンクになっている点です。(スマホユーザーも嬉しい)
ビュー数順に並んでいますが、TablePressのビュー数でソートするとどうやら整数と認識されていないようで、うまく並び替えができないようです。

たまに企業での分析事例共有などのスライドもあるので、仕事のアイデアも手に入ったりします。書籍になっていなかったりするし、Google検索だけで見つけようとすると大変なので、この試みは当分続けていこうと思います。本文内のテキストを取得してタグ付けしておくのも行う予定です。

[table id=4 /]

SlideShareの機械学習に関するスライドを大量に集めてみた

SlideShareの検索機能に満足できなかったので、Googleのsiteコマンド検索( 「機械学習 site:slideshare.net 」)で集めてき
た、機械学習に関するスライド520件のURLに対して、タイトル・ビュー数・公開日をWebスクレイピングにより取得してみました。

以下の表はビュー数の順番で並んでいます。WordPressのTablepressというプラグインを使っているので、簡単に検索ないし100件表示なども行えます。数の多いものから見ていこうと思います。

(取得用の稚拙なPythonコードは最下部に載っています。)
(URLがリンクになるように改良しました。)

[table id=3 /]

一応、SlideShareのURLのCSVファイル(N行1列のデータ)があれば取得できるPythonコード(2系)を載せておきます。