Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[vvm] styleIdとsession.runに渡す数値が異なっているVVMでも音声合成できるようにする #548

Closed
Hiroshiba opened this issue Jul 26, 2023 · 0 comments · Fixed by #551

Comments

@Hiroshiba
Copy link
Member

Hiroshiba commented Jul 26, 2023

内容

VVM以前はstyleIdとonnxモデルで推論するのに渡す数値(ややこしいですがspeaker_idと呼んでたりします)が異なる場合もサポートされていました。

pub(crate) speaker_id_map: BTreeMap<u32, (usize, u32)>,

↑のspeaker_id_mapはstyleId -> (modelId, speakerId)のマップです。
VVMではid_relationsと名前が変わり、modelIdへのマップだけになりました。

id_relations: BTreeMap<StyleId, VoiceModelId>,

ここに新たに、onnxモデルに渡す数値を格納できるようにしたいです。

Pros 良くなる点

以前のモデルで音声合成できるようになる

Cons 悪くなる点

VVMの中にマッピングを書かないといけない

実現方法

データ構造は

id_relations: BTreeMap<StyleId, (VoiceModelId, ModelInnerId)>, 

とかにしようかなと思っています。

VVMの中にマッピングを書く必要がありますが、manifest.jsonに書くのが良いだろうと思っています。
VVMには他にもmetas.jsonがありますが、こちらはコア内で使うだけでなく、ユーザーが使うものでもあります。
一方でmanifest.jsonはコアだけが使う情報が書かれているので、書くならこっちかなと思っています。

style_id_map: {styleId: modelInnerId}辺りをオプショナルで持てるようにしようかなと。

その他

ref #545

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
1 participant