DATE/ 2022.08.21

スマホの電話、「本人の声」ではないって本当？

　知っている人からスマホに電話が来たとき「あれ？この人ってこんな声だっけ？」と思うこと、ありませんか。SNS上では「スマホの声は本人の声ではないのではないか」という噂も飛び交っています。

　果たして噂は本当なのでしょうか？　真偽を確かめるべく調べてみました。

スマホの声の正体は「合成音声」

　結論から言うと、スマホの声は本人の声ではない、というのは本当です。では私たちは何の声を聞いているかというと、スマホの中で“本人の声そっくりにつくられた”合成音声なのです。

　スマホで通話をする仕組み上、肉声そのままよりも、合成した音声で届けたほうが通信時のデータ容量を軽くできるため、スムーズに音声通信ができるようになります。逆に肉声そのままで音声を送ろうとすると、送信のためのデータ量が膨大になりすぎて回線が重たくなり、事実上通話不可能なのです。

　それでは、スマホで声が届く仕組みについて詳しく見ていきましょう。

有線、無線はそれぞれ音の届け方が違う

　実は固定電話と携帯電話・スマホでは、音声の届け方に違いがあります。それは有線通信と無線通信の違いでもあります。

　固定電話の場合、使われているのは「波形符号化方式」という通信方式です。原理としては人が声を発する時、声帯がふるえ、声道を通ることで音声（音波）が出るのと同じで、例えるなら「糸電話」のような仕組みになります。有線（声帯・声道）＝糸として考えるとわかりやすいでしょうか。

　いっぽう、携帯電話やスマホのような無線通信の場合は、主に「ハイブリッド符号化方式」という通信方式を使います。話し声は、まずスマホ内でデジタル変換されたあと、「固定コードブック」という“音の辞書”（スマホ内で数学的につくられるもの）から元の声に近い声のパターンが選ばれ、自動合成されます。その音声を電波に乗せ、相手に届けるという仕組みです。さらに受信先のスマホでもまた「届いた声に近い声」に合成され、再生されます。

　この“音の辞書”たる固定コードブックとは、声のパターン、すなわち音の素の組み合わせが入っていて、その数は約43億通りにものぼるそう。また固定コードブックと一緒に「適応コードブック」という音声コードのメモ書きのようなものも参照することで、より元の声に似た声を生成できるのだそうです。

　文章にすると複雑な流れになっていますが、実際はこの「ハイブリッド符号化方式」は「波形符号化方式」よりも通話時のデータ容量が16分の1程度と非常に軽く、回線に負荷がかからないのが大きな特徴です。限られた回線を効率よく使うために開発された技術なんですね。

SNSアプリで使われる音声は？

　現在は電話だけでなく、LINEなどのSNSアプリをはじめとしたさまざまな通信手段が増え、それにもとない無線技術も進化してきています。

　SNSアプリでの音声通話の場合は「ハイブリッド符号化方式」「波形符号化方式」のほか、音楽向けの符号化方式も採用されているそうです。無線でも有線並に大きなデータを送受信できるようになってきており、容量を軽くする必要性が薄れてきているのです。

　スマホ通話音声も、今は容量を軽くするための合成音声がメジャーですが、より原音に近くなっていくのはもちろん、さらに声だけを際立たせる、臨場感を持たせる……など、個人の好みに合わせた音声方式が開発されていくと考えられています。

　スマホの声が本人の声ではない、というのはやはり驚きでしたが、私たちが気づかないうちに音声技術はどんどん進化しているんですね。「つながる」ことがますます重要性を帯びてきている昨今だからこそ、声が届くことの大切さを今一度、振り返ってみてもいいかもしれません。

＜参考サイト＞
・「スマホの声は、本人の声ではない」説は本当？人の声が届く仕組みを解説　（「TIME&SPACE」 KDDI）
https://time-space.kddi.com/feature/tsushin-chikara-sp/20160404/
・携帯電話で話すあなたの声は、実は「勝手につくられた声」だった（「週刊現代」講談社）
https://gendai.ismedia.jp/articles/-/72327