はじめに
身の回りの単語を自分の日常的な中国語学習に役立てようというコーナーです。
今回は台北のMRT(電車)の駅名とちょっとしたプログラミングやツールを組み合わせて何ができるか考えてみたいと思います。台湾に移住してMRTに乗る度に思っていたことが、「駅名を中国語で言えるようになるだけで結構な量の単語力と発音力がつくんじゃないか」ということ。
言語を学習する上で何をまず身につけていくかの優先順位をつけて学習し、その学習したものを使って上の難易度の事柄を覚えていくと効率よく上達できます。ここでの優先順位はどういった単語を最初に覚えていくべきかで日常的に使われる頻度が高い単語を選べば良いのではないか、ということ。それとその順位はどのように選べばよいのかというと駅名に使われる単語から取ればある程度日常で使われるものが多く含まれるのではないかという仮説のもとに行いました。
駅名を使うと分析用にテキストデータとして簡単に取れるので駅名を集めた次第です。
以前友人に日本語を教えていたときに宇多田ヒカルのFirst Loveの形態素解析をして単語を教えたりしたので、同じように駅名にどんな単語が使われているのかを調べて、簡単に覚えられるようにしようとしてみました。
参考:宇多田ヒカルの First Love を形態素解析してみた
台湾の駅名で使われている単語トップ10
行ったことはこちら。
- 台湾の電車(火車)と地下鉄(MRT)の駅名が載っているサイトから駅名をコピーして、テキストエディタ上で簡単な正規表現で駅名の単語を一文字一列にするようにデータを加工する
- 簡単なPythonプログラムを書き各単語の頻度を数字で出す
- プログラムを走らせるとディクショナリ型で各単語に対応する頻度が表示されるので、それをテキストエディタ上で加工しTableauで読み込み、表を作成する
これだけ。この投稿上と下にある写真のように、Tabluauを使って簡単な視覚化をしてみました。
私のTableauのページで詳細を確認することができ、各単語やバーにカーソルを合わせると頻度やその単語を見ることができます。
頻度別にトップ10の単語を見てみるとこんな感じ。合計単語数は337単語でした。
「大 中 山 南 新 和 安 園 三 東 北 林 院 裏 溪 橋 台 寮 永 子 小 城 平 國 醫 興 公 高 竹 埔 學」が使用されている頻度トップ10の単語になった。「中」が入っているのは孫文を表す「中山」という名前の地名が多いからかと思ったが違いそう。
溪、埔、寮などは日常ではあまり使わない単語だが、それ以外は覚えておいて損はない単語。
形容詞は大、中、新、和、安、小、平、公、興、高がランクイン。日常的によく使う単語。
トップ10入りした数字は三のみ。
主に単語として使用される単語は學。
方角を表す、南、東、北がトップ10ランクイン。
場所を表す単語は山、園、林、溪、橋、台。
院、醫と病院を表す駅名も比較的多かった。
大 | Dà |
中 | zhōng |
山 | shān |
南 | nán |
新 | xīn |
和 | hé |
安 | ān |
園 | yuán |
三 | sān |
東 | dōng |
北 | běi |
林 | lín |
院 | yuàn |
裏 | lǐ |
溪 | xī |
橋 | qiáo |
台 | tái |
寮 | liáo |
永 | yǒng |
子 | zi |
小 | xiǎo |
城 | chéng |
平 | píng |
國 | guó |
醫 | yī |
興 | xìng |
公 | gōng |
高 | gāo |
竹 | zhú |
埔 | bù |
學 | xué |
Pythonでは以下のようなライブラリもあるので機会を見つけて有効活用したい。
- python-pinyin – 指定した簡体字、繁体字をピンイン表記に変換
-
jieba – 指定した簡体字、繁体字の文章を形態素分解
今後やりたいこと
今度はもうちょっと深掘りして得たデータをクイズにしたり何かのアプリケーション上で使用できるようにしたい。
- ウェブから台北MRTの駅名をスクレイピングしデータセットとして保存
- そのデータセットに全てピンインを割り当てる
- そのデータセットからどの漢字が多く使用されているかのランキング付け => 上位の単語から覚えていくと効率的かを考察
- データセット内の漢字の各文字の (stroke count)をリストしてランキング付け => 上位のあんごから覚えていくと効率的かを考察
- 駅名単語リストとして発音を当てる単語クイズを作成
- 駅名単語リストの関連単語(近い意味や近い形の文字)を調べる
- 台湾全土の駅名やバス停名などの地名で繰り返し
今日やったときは駅名を取り出すときはスクリプト書くよりスプレッドシートにコピペしてテキストエディタ上で加工したほうが楽でした。
というわけで今日はここまで。
BRUTUS特別編集 増補版 台湾
日本で台湾語をさらっと学習したいならこの本が結構使える。