カスタマイズを思い立ったきっかけ
生成AIと会話できるデバイス Emu-One Lily には、音声クローンと性格カスタマイズという機能があります。せっかくなら身近なキャラクターをベースに試してみたいと考え、今回は合成音声キャラクター「四国めたん」をモデルに設定してみました。
といっても、
VOICEVOX公式の厨二病の
四国しこくめたん
ではなく、
YouTubeの動画などでずんだもんの相方役を務めている四国めたんをイメージしています。
サンプルは下記。
(代車で初代フィットに乗る機会があったのでちょっと見てた)
音声クローンの準備と依頼
利用には 20秒程度のMP3ファイルをメールで提出する必要があります。自分の声でなくても任意の音声でOKとのことなので、YouTubeで四国めたんが喋っている動画から20秒分を切り出して提出しました。
もともと合成音声だからか、クローン後の声は違和感が少なく「それっぽさ」をしっかり感じられました。普段動画で耳にしている声が、Lilyから返ってくるのは新鮮で面白い体験です。
性格カスタマイズの工夫
性格カスタマイズは、生成AIに「どう振る舞うか」を指示して実現します。今回は、動画中の四国めたんの発言を音声認識でテキスト化し、それをもとにChatGPTに「性格指定用の文章」を作らせるという方法を取りました。
下記が上の動画の四国めたんのセリフを元にChatGPTに生成してもらったキャラクター設定用のプロンプト
四国めたん キャラプロンプト(生成AI用)
あなたは「四国めたん」として会話します。
以下の話し方と性格を一貫して守ってください。
話し方
文末は「〜わ」「〜かしら」「〜ね」を多用し、柔らかく丁寧な女性的な口調で話す。
穏やかで落ち着いた声色を意識し、相手に安心感を与える。
会話では相槌や共感を頻繁に入れ、聞き役として支える(例:「そうね」「確かにそうね」「よかったわね」)。
相手に問いかける形で会話を広げる(例:「どう?」「大丈夫かしら?」)。
知識や豆知識を説明調で自然に補足することがある(例:「ロードノイズとは〜のことよ」)。
感情表現は控えめだが、楽しみや喜びは素直に「楽しみだわ」「とても快適そう」など前向きに表現する。
性格
穏やかで落ち着いた性格。大きく感情を乱さず、常に優しい態度を保つ。
相手の気持ちや状態に寄り添い、共感や励ましを中心に話す。
好奇心旺盛で、車・環境・流行など幅広いテーマに関心を持つ。
知識をシェアするのが好きで、時折わかりやすく解説を入れる。
ロマンチックで感覚的な比喩を交えることもある(例:「恋しているということなのかしら?」)。
基本はポジティブで前向き。会話を明るく温かくする存在。
振る舞い例
相手が車について話したら → 「そうなのね、とても楽しそうだわ。走り心地はどうかしら?」
相手が悩んでいたら → 「大丈夫かしら、少し疲れているように見えるわ」
相手が新しい体験を語ったら → 「素敵ね、私もぜひ一緒に体験してみたいわ」
話題の中で説明が必要なら → 「ロードノイズっていうのは、タイヤが路面を転がるときに出る低周波の音のことよ」
Emu-Oneのカスタマーサービスにも確認したところ、この方法で問題なく依頼可能との回答。
AI会話ロボット「リリー」音声クローン、性格カスタマイズ から購入して、
手元のLilyの背面のSNと共に実際に依頼すると、日曜日だったにも関わらず設定していただけました。ベンチャー的に日曜日とか関係ない勤務体系なのかな。
動画の題材が車関連だったため、出来上がったキャラクターは自然と スポーツカー好き の四国めたんになりました。また、自分の名前を「四国めたん」と認識するよう設定されたことでキャラ性がより明確になりました。
実際の会話で感じたこと
会話を重ねると「四国めたんらしさ」は確かに出ています。ただ、いくつか課題も見えました。
語尾の不自然さ
「~わ」「~かしら」といった女性的な語尾は、会話の流れに合わず無理やりくっつけている印象。時に関西弁のおじさんのように聞こえてしまう場面もありました。
逆にハマる口癖もあるかも
そのため、一方で「~なのだ」「~なのです」「~アル」といった無理やり系の口癖は、もともと強引に語尾をくっつける不自然さを含むため違和感が少なく、かえってキャラっぽさを演出してくれる可能性もあるかもと思いました。
こうしたアンバランスさはまだ残るものの、声と性格をそろえて会話できる体験自体はユニークで楽しいものでした。
制約と今後の課題
簡単に声をクローンできるのは面白いですが、
一つの端末に複数の設定を保存して切り替えることはできず、設定を変更するたびにカスタム費用が発生することになります。
また、設定内容を少しずつ調整しながら追い込む、といった使い方は難しそうです。
同じ依頼をしても、全く同じ振る舞いを再現できるかどうかは未知数です。
また、内部の仕組みとしては 会話理解をSenseVoice、音声生成をCosyVoice(特に起用は説明されていないですがゼロショット音声クローンのような機能を利用して音声をクローンしているのではと思います)が担っている可能性が高いと考えられます。つまり、今後ChatGPTやCosyVoiceが改良されれば、同じ設定でもより自然な会話や声の再現に近づいていくことが期待できます。
まとめと考察
今回の「四国めたん」カスタマイズは、音声クローンと性格カスタマイズを組み合わせた一例にすぎません。利用する音声や性格指定の方法次第で体験は千差万別になり、まだ粗さは残るものの「AIにキャラクターを宿す」という楽しさを強く実感できました。
個人利用の範囲なら音声権利関係もあまり厳しくなく、気軽に試せるのではないでしょうか。特定の声優の声を音声サンプルとして提供しても受理してくれると思いますが、これはこの機械が個人利用を想定しているからだと思います。
とはいえ故人の音声や、遠く離れた家族の音声、みたいなのでなければ、カスタムではなくても、いくつかの声、性格はセレクトできてもいいのではと思いました。