2015/07/07

gismuの母音の頻出度合

http://misonikomilojban.blogspot.jp/2015/07/blog-post_7.html

直前の「字面ダサさ改善記事」を作るに当たって、語末母音の頻出度合を調べたんですが、こしらえたプログラムで色々調べられそうだったので、ついでに記事にします。

まず、gismuの母音のペアですが、こうなります

{'a': {'a': 91, 'e': 58, 'o': 45, 'i': 197, 'u': 123},
 'e': {'a': 48, 'e': 4, 'o': 30, 'i': 72, 'u': 33},
 'o': {'a': 19, 'e': 9, 'o': 17, 'i': 32, 'u': 16},
 'i': {'a': 115, 'e': 55, 'o': 44, 'i': 82, 'u': 64},
 'u': {'a': 67, 'e': 34, 'o': 16, 'i': 69, 'u': 17}}

辞書型で少しみにくいかもですが、たとえば、ボールド体の58は(a,e)を意味しています。
つまり、CaCCe か CCaCe の語形のものの数ですね。

ここからもう少し要約していきます。

まず、語末母音の頻出度合はこうなります。

{'a': 340, 'e': 160, 'o': 152, 'i': 452, 'u': 253}

前記事でも述べた通り、 i > a > u > e > o となります。

一方で、非語末母音の頻出度合はこうなります。

{'a': 514, 'e': 187, 'o': 93, 'i': 360, 'u': 203}

こっちでは、a > i > u > e > o となります。 a がダントツですね…!

で、この2つのリストを足したものが、gismu全体での母音の頻出度合となります。

{'a': 854, 'e': 347, 'o': 245, 'i': 812, 'u': 456}

グラフにするとこんな感じ:



totalでみると a と i はそんな変わらないんですね。ただ、語末と非語末での局在の仕方がそれぞれ反対なので、語末では iが優勢、非語末では a が優勢という結果になっているようです。

一応、こしらえたソースコードも置いておきます。pythonです。

https://github.com/cogas/cogas.github.io/blob/master/article/code/gismu_karsna_kancu.py

0 件のコメント:

コメントを投稿