1. Abstract

We present a new Hindi text-to-speech (TTS) dataset and demonstrate its utility for the expressive synthesis of children's audio stories. The dataset comprises narration by a single female speaker who modifies her voice for the different story characters. Annotation for dialogue identification, character labelling, and character attribution are provided, all of which are expected to facilitate the learning of character voice and speaking styles. Experiments are conducted using different versions of the dataset, training a multi-speaker TTS model on single-speaker data. Subjective tests show that the multi-speaker model improves expressiveness and character voice consistency compared to the baseline single-speaker TTS. Objective evaluations show comparable word error rates, better speaker voice consistency, and higher correlations with ground truth emotion attributes for the multi-speaker model. This 16.8 hours of dataset and the experiments contribute to building expressive TTS for Hindi by addressing challenges in narrator voice modulation and character voice consistency in storytelling speech synthesis.

2. Audio Samples

2.1 Narrator only sentence

हेलो बच्चों आज जो कहानी मैं आप सबको सुनाऊंगी उसका शीर्षक है बंदर की बुद्धिमानी | बहुत पुरानी बात है सागर के किनारे एक नारियल का बहुत बड़ा पेड़ था | वह बहुत ऊंचा पेड़ था उसी पेड़ पर चम्पू नाम का एक बंदर रहा करता था

Ground Truth

VITS SS

VITS NC

VITS CL

download (2).wav

download (2).wav

download (2).wav

download (2).wav

2.2 Character only sentence

यह मगरमच्छ भी अकेला है और मैं भी अकेला हूं | क्यों न हम दोनों आपस में दोस्ती ही कर लें | इस प्रकार हमारा भी समय कट जाएगा |यह सोचकर वह बंदर पेड़ से नीचे उतरा और मगरमच्छ के पास जाकर बड़े ही प्यार से बोला | मगरमच्छ भाई यदि तुम्हें एतराज ना हो तो तुम उससे दोस्ती करोगे

Ground Truth

VITS SS

VITS NC

VITS CL

download (12).wav

download (12).wav

download (12).wav

download (12).wav

2.3 Character Voice consistency

Ground Truth

VITS_LJS

VITS_SS

VITS_NC

download (30).wav

download (34).wav

download (30).wav

download (34).wav

download (30).wav

download (34).wav

download (30).wav

download (34).wav

3. Dataset Format

speaker story sent spe cleaned norm audio_filepath duration text text_no_preprocessing text_normalized score start_abs end_abs sid character age gender animal kw emotion
_U4xv3Uwf7 34 तुझे उनके लिए कोई सन्देश भेजना हो, तो बता । C तुझे उनके लिए कोई सन्देश भेजना हो तो बता तुझे उनके लिए कोई सन्देश भेजना हो, तो बता । /workspace/WORK_DIR/en_output/clips/8000_story34_0018.wav 3.899875 तुझे उनके लिए कोई सन्देश भेजना हो तो बता तुझे उनके लिए कोई सन्देश भेजना हो, तो बता । तुझे उनके लिए कोई सन्देश भेजना हो, तो बता । -1.14 2.84 1.1225 34 व्यापारी Adult Male Human
N 34 तोते ने कहा, " N तोते ने कहा तोते ने कहा, " /workspace/WORK_DIR/en_output/clips/8000_story34_0019.wav 1.8599375 तोते ने कहा तोते ने कहा, " तोते ने कहा, " -0.02 0.8725 0.54125 34
Ra3seGeXwy 34 सेठ जी उन सबसे कहना तोता भूखा नहीं है, तोता प्यासा नहीं है , C सेठ जी उन सबसे कहना तोता भूखा नहीं है तोता प्यासा नहीं है सेठ जी उन सबसे कहना तोता भूखा नहीं है, तोता प्यासा नहीं है , /workspace/WORK_DIR/en_output/clips/8000_story34_0020.wav 6.2598125 सेठ जी उन सबसे कहना तोता भूखा नहीं है तोता प्यासा नहीं है सेठ जी उन सबसे कहना तोता भूखा नहीं है, तोता प्यासा नहीं है , सेठ जी उन सबसे कहना तोता भूखा नहीं है, तोता प्यासा नहीं है , -0.16 3.84875 0.885 34 तोतों Child Male Animal हरे रंग, लाल चोंच, गले पर काली पट्टी,
Ra3seGeXwy 34 तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है । C तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है । /workspace/WORK_DIR/en_output/clips/8000_story34_0021.wav 3.6999375 तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है । तोता सोने के पिंजड़े के अंदर आनंद से रह रहा है । -0.23 14.18 1.3075 34 तोतों Child Male Animal हरे रंग, लाल चोंच, गले पर काली पट्टी,
N 34 सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका, N सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका, /workspace/WORK_DIR/en_output/clips/8000_story34_0022.wav 5.239875 सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका, सेठ उगाही कर लौटते समय उसी पेड़ के नीचे आराम करने के लिए रुका, -1.52 1.27625 0.86875 34
N 34 तभी तोतों का एक समूह उस पर टूट पड़ा । वे उसे चोंच से मारने लगे। N तभी तोतों का एक समूह उस पर टूट पड़ा वे उसे चोंच से मारने लगे तभी तोतों का एक समूह उस पर टूट पड़ा । वे उसे चोंच से मारने लगे। /workspace/WORK_DIR/en_output/clips/8000_story34_0023.wav 6.1598125 तभी तोतों का एक समूह उस पर टूट पड़ा वे उसे चोंच से मारने लगे तभी तोतों का एक समूह उस पर टूट पड़ा । वे उसे चोंच से मारने लगे। तभी तोतों का एक समूह उस पर टूट पड़ा । वे उसे चोंच से मारने लगे। -1.14 1.68 0.59125 34
N 34 उनमें से एक तोते ने सेठ से पूछा, " N उनमें से एक तोते ने सेठ से पूछा उनमें से एक तोते ने सेठ से पूछा, " /workspace/WORK_DIR/en_output/clips/8000_story34_0024.wav 3.0199375 उनमें से एक तोते ने सेठ से पूछा उनमें से एक तोते ने सेठ से पूछा, " उनमें से एक तोते ने सेठ से पूछा, " -0.57 1.05375 0.5525 34
9cSPtesTE5 34 सेठ हमारा तोता क्या कर रहा है?" C सेठ हमारा तोता क्या कर रहा है सेठ हमारा तोता क्या कर रहा है?" /workspace/WORK_DIR/en_output/clips/8000_story34_0025.wav 3.1399375 सेठ हमारा तोता क्या कर रहा है सेठ हमारा तोता क्या कर रहा है?" सेठ हमारा तोता क्या कर रहा है?" -0.78 0.64375 0.895 34 तोतों Child Male Animal हरे रंग, लाल चोंच, गले पर काली पट्टी,

4. Subjective Test Instructions

4.1 MOS

Following instructions were given to the listeners before they attempt to rate the audios.