毎日2-3時間は中国語とPythonを使ってのウェブサイト作成周りの学習をしているのだが、最初のプロジェクトとしてやろうとしていることをメモしておく。
やりたいこと
- 同僚やその他会話を録音し、GoogleのCloud Speech APIを使って台湾中国語の勉強用コーパスを作る
- 頻度やコンコーダンスとか自然言語処理の学習をしながらクイズ用データに加工
- 加工データをデータベースに入れる
- データベースと繋いで簡単なクイズを走らせるプログラムを書く(本当に簡単なのはできた)
- ブラウザ上でクイズを走らせられるようにウェブサイト作成 (中国語<=>英語で作成)
動機
- 昼食時の同僚の会話に中国語で入りたい
- 中国語学習
- ウェブサイト作成の経験
- 単に言語学習が好き
使うもの
- 録音用無料アプリ
- Google Cloud Speech API
- Audacity (Cloud Speech APIで読み込むためのWAV形式への変換用)
- Python
- Flask
調べ物
- どれくらいの単語数を集めれば「コーパス」と呼んでふさわしくなるか
- 中国語学習の論文読んで参考資料にする
- 中国語版Mecabのような形態素解析用パッケージ
- PythonのORM peeweeとマイクロフレームワークFlask
アウトプット
- Medium上で英語で記事化
- PythonのマイクロフレームワークFlaskを使ってウェブサイト作成
次のステップ
- クイズ結果や単語帳の記録を残したい人はユーザー登録できるようにする
- 中国語を学習したい英語話者と英語を学習したい中国語話者向けの英語クイズ機能もつける
- クイズ機能とは別の録音音声からリスニング学習ができる機能、これは自分向け
- ユーザーが交流できる簡単な超SNS機能 (フォロー、フォロー外し)
- どんな交流をさせたいかを考えないと
- どんな交流をさせれば長く使うか、ユーザーが増えるかを考えないと
- これを活かしてDjangoで別のサイト作成
されどれくらいかかるか。
コメント