オンラインorデジタルサイネージでのバーチャルヒューマン接客を作ろうとアニメーション実験中。

オンライン接客の音声取得方法の実験

DXが各分野で進むなか、バーチャルヒューマンやアバターでのオンライン接客が進んでいます。

バーチャルヒューマンは制作できアニメーションも制作できるようになったのですが、ChatGPTやデジタルツインオペレートでの口の動きをシンクロさせようと実験を始めました。

すでにアプリなどでも売っていますが、自分で開発しようと始めたら音というものをデジタル信号に取得したあとに壁がありました💦

音声は、振動の幅の強さの周波数Hzでデジタル化されグラフになります、その周波数のどの範囲を取得するかで大きく変わってしまうのです。

取得するサンプリングデーターが多ければ広範囲にいい音が取得できますが、データー量が大きくなります。　一般的には15~22kHzあれば十分と言われ、人の声の最大周波数は4000Hzくらいといわれています。

ただ男女の差や個人差があり重低音、中音域、高音などあるので、どうやって対応するのか研究中です 🤔

写真撮影ノート