107国試テキストマイニング_RMeCab
ご無沙汰しております。
国試勉のため、長らくブログを書いておりませんでした(;´Д`)。国試が想像以上に大変でした。。。
国試が終わってからは、一気に解放されたので、「何度寝でもしてやる!」という変な意地が湧き上がり、しばし廃人生活を送っていました(苦笑
もっと廃人謳歌するつもりだったのですが、それにも飽きてしまい、今週からまた統計の勉強を再開です
さて、前回でRの基礎の勉強がひと通り終わったので、今度はアプローチを変えてテキストマイニングを勉強することに
勉強題材はこちら↓
って、そもそもテキストマイニングって何だ?と思って、wikiると以下の説明が
【文字列を対象としたデータマイニングのこと。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法を指す】
ざっくり、文字を解析することみたい!(ざっくりすぎるか?)
ちなみに、日本語の文書を解析するには「RMeCab」というパッケージ(Rで利用できます)が有用とのことなので、こちらからダウンロード
今回は試しに、107回国試のテキストマイニング(問題文ならびに選択肢で使用されている文字の解析)をやってみることにしました。
(まだ今年の国試の問題は厚労省から公開されていないので。。。。)
以下のコードを記入して実行!
library(RMeCab) res<-RMeCabFreq("med107.txt") res01<-res[(res$Info1=="名詞"),] res02<-res01[res01$Freq>6,] res02[rev(order(res02$Freq)),]
RMeCabパッケージの読み込み
→107回国試のテキストファイル(文字ファイル)を読み込み
→名詞のみを抽出
→7回以上出現している単語のみを表示
→抽出された単語を降順に並び替え
という流れです。
でもって、得られた結果がこちら(107国試_テキストマイニング結果をクリックすると見られます。文字エンコード:UTF-8です)
107国試_テキストマイニング結果
名詞以外の雑多な記号も含まれていますが、完璧に名詞のみを判定するのは不可能みたいなので、それは受け入れるとして、結果を見てみるといくつか面白いことが分かりました。
なお、以下は全て単語の出現頻度の話です。
- 男性の方が女性より多い(男性:107回・女性:84回)
→国試は男性の方が出題されやすい? - ステロイド(33回)=抗菌薬(33回)>NSAIDs(7回)→やはりステロイドの問題は多い
- 心電図(32回)・冠動脈(22回)→循環器で不整脈・虚血性心疾患の問題は多い?
- 甲状腺(18回)→内分泌で甲状腺の問題は多い?
- 結核(18回)>肺炎(17回)>肺癌(8回)→呼吸器で結核の問題は多い(呼吸器だけの出題ではないかもしれないが)。確かに107回を解いた時に結核やたらと多いなという印象がありました。
- CT(70回)>エックス線(47回)>MRI(20回)>エコー(12回)>カテーテル(10回)→意外とエコー少ないんですねぇ
- エリテマトーデス(7回)→SLEの問題が多いのか?
矢印の部分はあくまでも単語出現頻度からの推測です。もっと注意深く見たり、グラフ化したりすると分かることも増えるかもしれませんが、今回はこの辺で…
複数ファイル間の比較もできるみたいなので、次回は近年3~5年間の比較をしてみたいと思います。
では、ソチ・オリンピック見ますかねぇ
また~^^
-
前の記事
データ・サイエンティストに学ぶ「分析力」 2013.10.10
-
次の記事
Twitter分析_Vol.1 2014.03.02