研究紹介

コンピューターとの対話による会話の練習と分析に関する新提案

教養教育センター 准教授
Glen Norris

共同研究

金沢大学 准教授
Gary Ross

島根県立大学 准教授
Stephen Henneberry

Introduction(前置き)

SiriやGoogleSpeech などのパーソナルアシスタントの登場により、これらの新しいテクノロジーが一般の人々の意識に浸透してきました。このテクノロジーは合成音声で美容院に予約を入れることができます。しかしながら、現実には依然として、これらとの会話はSF 映画のコンピューターとのような会話しかできません。とは言うものの、合成音声と音声認識(SS / SR)の基盤となるこのテクノロジーは、限界があるということを認識していれば大きな可能性を秘めています。

音声認識テクノロジーの発展は教育にも変革をもたらす

Speech Synthesis Speaking(音声合成による発話)

音声合成とは音声を人工的に生成したものです。最も有名な例は、おそらく、有名な科学者に関連付けられたロボットで、アメリカのアクセントを備えたスティーブンホーキングの音声合成装置が挙げられます。以後、音声合成は大幅に改善されました。

Advantages(利点)

  • すばやく作成:テキストを入力またはコピーして貼り付けるだけです。
  • 複数のアクセントと性別:アイルランド語、インド語、北米語などの声は、女性と男性の両方のバージョンで利用できます。ボタンをクリックするだけで出力できます。
  • スカフフォールディング:声が遅くなる可能性があります。
  • テキストベース:検索可能、保存可能、クリップ可能、注釈可能、フォーク可能

Disadvantages(欠点)

  • 自然性が低い:音声合成は改善され続けていますが、ネイティブ音声のトーン、ストレス、ニュアンスが不足しています。

Limitations and Possibilities(限界と可能性)

合成と認識は、ネイティブと話すことに代わるものではありません。テニスボールマシンが、ラファエルナダルと遊ぶようなものです。コンピューターはたやすく自然な自由形式の会話をすることができません。しかしながら、同じことがマシンにも言えます。マシンは常に危険なバックハンドにボールを投げることができます。適切に設計されたドリルまたはロールプレイにより、生徒は間違いを恐れずに練習することができます。さらに、モバイルテクノロジーと組み合わせると、他の可能性も利用できるようになります。たとえば、ロケーションベースの指示とレポートの機能です。

Speech Recognition Listening(音声認識リスニング)

音声認識は、話し言葉をテキストに変換するコンピューターの機能です。
主要なテクノロジー企業がパーソナルアシスタントを使用するたびに分析できる膨大な量のデータにより、この分野では近年大きな進歩が見られました。

Advantages Transcription(音声転写の利点)

通常、普通に話していてもその言葉は記録されません。SRはスピーチを書き写すので、スピーキングの練習では、内容、エラー、および全体的なスコアについてパターンを分析することができます。

Disadvantages Accuracy(正確さの欠点)

音声認識システムは非常に正確です。しかしながら、非ネイティブスピーカーが話す言葉には悪戦苦闘しています。

Conclusion(結論)

パターン分析の文字起こしは、おそらく音声認識の最も重要な一面です。すべての発話がデータベースに転記されるため、学生の発話パターンの傾向を確認できます。たとえば、ドリルタイプのアクティビティでは、どの単語が最も問題を引き起こすかを発見できます。オープンタイプのアクティビティでは、ストックパターン、フレーズ、さらには構造への過度の依存が発見される可能性があります。理論的には、この分析は何百万もの発話に対して実行できます。これは、将来の研究の一部となる強力な分析ツールです。