107国試テキストマイニング_RMeCab

ご無沙汰しております。

国試勉のため、長らくブログを書いておりませんでした(;´Д`)。国試が想像以上に大変でした。。。


国試が終わってからは、一気に解放されたので、「何度寝でもしてやる!」という変な意地が湧き上がり、しばし廃人生活を送っていました(苦笑


もっと廃人謳歌するつもりだったのですが、それにも飽きてしまい、今週からまた統計の勉強を再開です




さて、前回でRの基礎の勉強がひと通り終わったので、今度はアプローチを変えてテキストマイニングを勉強することに

勉強題材はこちら↓




って、そもそもテキストマイニングって何だ?と思って、wikiると以下の説明が

【文字列を対象としたデータマイニングのこと。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法を指す】


ざっくり、文字を解析することみたい!(ざっくりすぎるか?)




ちなみに、日本語の文書を解析するには「RMeCab」というパッケージ(Rで利用できます)が有用とのことなので、こちらからダウンロード




今回は試しに、107回国試のテキストマイニング(問題文ならびに選択肢で使用されている文字の解析)をやってみることにしました。

(まだ今年の国試の問題は厚労省から公開されていないので。。。。)

以下のコードを記入して実行!

library(RMeCab)
res<-RMeCabFreq("med107.txt")
res01<-res[(res$Info1=="名詞"),]
res02<-res01[res01$Freq>6,]
res02[rev(order(res02$Freq)),]


RMeCabパッケージの読み込み

→107回国試のテキストファイル(文字ファイル)を読み込み

→名詞のみを抽出

→7回以上出現している単語のみを表示

→抽出された単語を降順に並び替え


という流れです。




でもって、得られた結果がこちら(107国試_テキストマイニング結果をクリックすると見られます。文字エンコード:UTF-8です)

107国試_テキストマイニング結果


名詞以外の雑多な記号も含まれていますが、完璧に名詞のみを判定するのは不可能みたいなので、それは受け入れるとして、結果を見てみるといくつか面白いことが分かりました。

なお、以下は全て単語の出現頻度の話です。


  • 男性の方が女性より多い(男性:107回・女性:84回)
    →国試は男性の方が出題されやすい?
  • ステロイド(33回)=抗菌薬(33回)>NSAIDs(7回)→やはりステロイドの問題は多い
  • 心電図(32回)・冠動脈(22回)→循環器で不整脈・虚血性心疾患の問題は多い?
  • 甲状腺(18回)→内分泌で甲状腺の問題は多い?
  •     

  • 結核(18回)>肺炎(17回)>肺癌(8回)→呼吸器で結核の問題は多い(呼吸器だけの出題ではないかもしれないが)。確かに107回を解いた時に結核やたらと多いなという印象がありました。
  • CT(70回)>エックス線(47回)>MRI(20回)>エコー(12回)>カテーテル(10回)→意外とエコー少ないんですねぇ
  • エリテマトーデス(7回)→SLEの問題が多いのか?


矢印の部分はあくまでも単語出現頻度からの推測です。もっと注意深く見たり、グラフ化したりすると分かることも増えるかもしれませんが、今回はこの辺で…


複数ファイル間の比較もできるみたいなので、次回は近年3~5年間の比較をしてみたいと思います。




では、ソチ・オリンピック見ますかねぇ

また~^^