音声認識とは
音声認識とは、人の発話内容を解析し文字情報としてテキスト化する技術です。スマートフォンの「音声で入力する」機能や、Amazon社のアレクサ、Google社のGoogleアシスタント、アップル社のSiriにも音声認識が利用されています。
このように、音声認識は今や身近な技術であり多くの人が日常のなかで利用している光景を見ることができます。音声認識の研究は1950年代から進み、1961年にIBMが実験機『Shoebox』を公開しました。ここからは、音声認識にどのような歴史があるのかを解説していきます。
1-1. 音声認識の歴史
音声認識の歴史は、次のようにまとめられます。
- 1960年代……アメリカで開発がスタート。IBMが音声認識の実験機『Shoebox』を公開
- 1990年代……音声認識技術がゲームで活用され始める
- 2010年代以降……深層学習(DNN)の導入が進み、音声認識の性能が大きく向上
- 現在……スマートフォン等で手軽に利用できるように
音声認識の開発は1960年代から始められていましたが、一般家庭にまで普及するほど精度は高くありませんでした。大きな転換点となったのが、2000年代に見られたAIの進歩です。それと同時にコンピュータの性能も高くなり、小型端末が普及したことで音声認識も注目を集めるようになりました。
2011年10月、AppleはiPhone 4SにSiriを搭載すると発表しました。『バーチャルアシスタント』を誰もが利用できるようになります。その後、飛躍的に普及してビジネスシーンでも利用されるようになり、「コールセンターでの応対記録」や「議事録の作成」など、音声認識技術は広く活用されるようになっていきました。
1-2. 音声認識を用いた商品サービス
先ほども少し触れましたが、音声認識を活用した商品やサービスとして次のようなものがあります。
- 自動で議事録を作成してくれる
- 自動で通訳をしてくれる
- 人間の感情を音声から分析してくれる
- コールセンター向けの音声認識サービス
- 音声認識で入力できる電子カルテ
このように、業界を問わずさまざまなシーンで音声認識の実用化が進んでいるのです。
音声認識の仕組み
そもそも音声認識はどのような仕組みになっているのでしょうか。
代表的な方式として、DNN-HMM(ハイブリッド)とEnd-to-Endがあり、用途により使い分けられています。DNN-HMM型では、以下の4つの仕組みが必要となります。
- 仕組み(1)音響分析で音声をデータ化
- 仕組み(2)音響モデルで音声データから音素を抽出
- 仕組み(3)発話辞典と言語モデルで音素を単語に変換
- 仕組み(4)自然な日本語としてテキスト出力
これら4つの仕組みについて、解説していきましょう。
仕組み(1)音響分析で音声をデータ化
まずは入力した音声をデータ化するところから始めます。ここでは、音声を定量的に示した、「特徴量」と呼ばれる数値に変換します。このように、AIが認識しやすい特徴量に音声を変換する作業を『音響分析』と言います。
音響分析では具体的に、音の周波数や強弱、間隔、時系列といった特徴を抽出します。そして、アナログ情報をデジタル信号に変換し、コンピュータが認識しやすいデータに加工します。
仕組み(2)音響モデルで音声データから音素を抽出
次に、音響分析で抽出された特徴量が、どのような「音素」にどれくらい近いかを計算します。『音素』は、言語の音を区別する最小単位(例:母音・子音など)です。コンピュータの学習パターンと音素を照らし合わせ、特徴が近い音素を抽出する作業を行っていくのです。
ここで使われる学習には、大規模な音声データが用いられます。そして特徴量との整合率を計算し、適切な文字とマッチングさせるのです。
仕組み(3)発音辞書と言語モデルで音素を単語に変換
音素列のままでは単語・文にならないため、発音辞書と言語モデルを用いて最も自然な単語列を推定します。発音辞書とは、発音と単語が登録されたデータベースです。発話辞典を使って音素と単語をマッチングさせ、意味のある言葉に変換していきます。
また、言語モデルには、発話辞書で特定した単語と出現頻度を照合し、よく使われる文章に変換される仕組みがあります。ここでは、大量の日本語テキストを統計処理した言語モデルが使用されます。
仕組み(4)自然な日本語としてテキスト出力
以上の処理を経て、日本語として自然な文字列で文章が作成され、テキストとして出力されます。そして、議事録作成や自動翻訳、コールセンターなどで利用されていくのです。
現在はAI(人工知能)の利用で精度向上を実現
音声認識は、AI(人工知能)を搭載させることで精度の向上が実現しました。ここでは、まず『AI』について解説し、続いて『AI搭載型の音声認識の仕組み』についてお伝えしていきます。
3-1. そもそもAIとは
AIとは「Artificial Intelligence」の略称で、人間のような知能を持つコンピュータを指します。人間に特有な知性や知覚を人工的に再現したもので、特にディープラーニング(深層学習)は音声認識に大きな影響を与えました。
ディープラーニングは、大量データから特徴を学習しやすい一方で、学習データの設計や評価が精度に大きく影響します。自動でデータのルールや特徴を抽出し予測分析できるため、AIを搭載することで音声認識の精度が大きく向上しました。
3-2. AI搭載型の音声認識の仕組み
次に、ディープラーニングを用いた音声認識技術について解説します。
従来の手法では、上記で解説したように“統計モデルを用いた音声認識”が実施されていました。しかし、End-to-End方式では、従来分離していた要素を一体化して学習する方式もあります。一方、DNN-HMMも用途により利用されています。
具体的には、たとえば言語モデルで「私は自転車に」とインプットされると、「乗る」「乗らない」といった次に出現されやすい単語を自動で予測します。ディープラーニングは極めて高い精度で大量のデータに含まれる特徴を自動学習するので、多くの音声情報を処理できるようになったのです。
音声認識(AI)でも「できないこと」と注意点
AI音声認識は高精度になっていますが、万能ではありません。限界を理解せずに導入すると、期待外れに終わる可能性があります。
音声認識は確率モデルに基づく技術であり、発話環境や設計次第で精度や活用範囲が大きく変わるためです。
代表的な注意点は以下です。
方言や話し方の癖
方言・被り発話などは精度が下がる傾向があるため、目的に合わせた設計・運用が重要です。- 話者識別の限界
- 文脈理解の不足 音声は文字化できますが、「なぜその発言になったか」という背景理解は人の判断が必要です。
音声認識は人の代替ではなく、人の判断を支援する技術です。だからこそ、活用目的に合わせた設計と運用が欠かせません。
AI音声認識を導入する3つのメリット
AI音声認識をビジネスに導入すると、多くのメリットがあります。ここでは3つを挙げて解説してみましょう。
メリット(1)業務効率化
例えば、AI音声認識を搭載した議事録作成ツールを用いると、業務効率化が実現します。会議中の音声を認識させれば、リアルタイムでテキスト化しますので、人の手間をかけることなく議事録が完成するからです。
議事録作成ツールのなかには、テキスト化した文章をリアルタイムで外国語に翻訳する機能のあるツールもあります。このようなツールを駆使すれば、会議内容の共有スピードが加速化されるはずです。
メリット(2)業務精度の向上
AI搭載の音声認識は非常に精度が高くなってきており、音声を正しく認識して自動でテキスト化してくれます。人間が文字入力をするとどうしてもヒューマンエラーが発生することもありますが、それらを防止することができますので、業務精度の向上も期待できるでしょう。
メリット(3)顧客満足度の向上
コールセンターで録音した通話内容をAI音声認識でテキスト化すれば、問い合わせ内容の抽出やオペレーターの応対品質の改善に活用可能です。お客様から多く寄せられるトラブルや疑問の解決に役立つほか、オペレーターへのフィードバックにも利用でき、結果的に顧客満足度の向上に貢献します。
音声認識導入で失敗しやすいポイント
音声認識導入の失敗原因は、「ツールを入れれば解決する」と考えてしまう点にあります。
音声認識はあくまで“手段”であり、何を改善したいのかという目的設計がないと結果につながらないためです。
よくある失敗例として、次のようなケースが見られます。
文字起こしはされるが、誰も活用していない
- 評価基準が曖昧で、改善につながらない
現場教育やフィードバックに使われない
効果測定ができず、継続判断がつかない
これらはツールの性能ではなく、導入設計と伴走不足が原因です。
音声認識を成果につなげるには、導入前から評価・改善までを見据えた設計が必要です。
AI音声認識の活用事例3選
それでは次に、実際にAI音声認識を活用した事例を3つご紹介しましょう。
事例(1)JALカード:音声認識でコールセンター業務を効率化
株式会社JALカードのコールセンターでは、音声内容をテキスト化する機能がなく、テキスト化が必要な場合は音声を聞きながら書き起こす必要がありました。そこで音声認識でテキスト化できるソリューションを導入したところ、音声内容の書き起こしにおいて大幅な業務効率化が実現しました。
事例(2)東京都港区:議事録の作成を音声認識で自動化
従来は手作業で議事録を作成していましたが、職員から「自動作成ツールを利用したい」という声が多く上っていたと言います。そこで、音声認識を利用した自動の議事録作成ツールを導入。その結果、従来の文字起こし作業に比べ、2〜3倍の早さでテキスト化することに成功しました。
事例(3)名古屋大学:音声認識と自動翻訳で講義動画に日本語字幕を作成
(当時)名古屋大学 数理・データ科学教育研究センター ※2024/10/1に『数理・データ科学・人工知能教育研究センター』へ改組では、英語のレクチャーを日本人向けに教育コンテンツとして利用するため、日本語字幕をレクチャー動画に挿入したところ、受講者にとっても理解しやすい日本語で字幕がつけられることになりました。
応対品質改善につなげるために必要な設計とは
音声認識を応対品質改善に活かすには、「評価」「教育」「改善」を一体で設計することが重要です。
テキスト化された通話内容も、評価軸や改善プロセスがなければ単なるログデータに留まってしまいます。
品質改善につながる設計では、以下の視点が欠かせません。
- 評価基準の明確化 何を「良い応対」とするのかを定義する
定量・定性の組み合わせ
自動評価と人の判断を併用する- 教育・フィードバックへの連動
継続的な改善サイクル
一度きりで終わらせない運用設計
音声認識は、設計次第で応対品質を継続的に高める仕組みになります。そのためには、ツールだけでなく運用全体を設計する視点が欠かせません。
応対品質を改善するならパーソルビジネスプロセスデザインへ
音声認識の仕組みは、AIの発展により精度が向上しています。ビジネスにAI搭載型の音声認識ツールを取り入れることにより、業務効率化や生産性向上などさまざまな恩恵を享受できるはずです。
コールセンターにおいても、音声認識の技術は活用されています。通話内容がテキスト化されれば、オペレーターによる応対品質の改善ポイントを抽出しやすくなるのがメリットです。
しかし、テキスト化できたとしても「どのような基準でテキスト内容を評価すべきか分からない」という担当者も少なくありません。
そこでぜひご利用いただきたいのが、パーソルビジネスプロセスデザインの「応対品質改善サービス」です。パーソルビジネスプロセスデザインでは、評価基準として、HDI国際スタンダードをベースにしています。
オペレーターの公正な評価ができるだけでなく、カスタマーサービスに共通の指標を用いた評価が実現するので、応対品質の向上が期待できるはずです。
また、オペレーターの対応をモニタリングや面談で評価し、個人レベルに合わせた研修までお任せいただけます。さらに、ミステリーコールやさまざまなモニタリング方法で対応をチェックしますので、応対品質でお困りのことがあればパーソルビジネスプロセスデザインまでご相談ください。