[GH-ISSUE #119] RuntimeError: Calculated padded input size per channel: (4). Kernel size: (5). Kernel size can't be greater than actual input size #83

New issue

Open

opened 2026-03-02 04:06:41 +03:00 by kerem · 0 comments

kerem commented

2026-03-02 04:06:41 +03:00

Owner

Originally created by @cystal-dot on GitHub (May 11, 2025).
Original GitHub issue: https://github.com/FujiwaraChoki/MoneyPrinterV2/issues/119

Text splitted to sentences.
['日本の桜は春の象徴です毎年多くの観光客が桜を見に訪れます桜の花が満開になる瞬間は見る者に感動を与えます日本の文化にとって桜は重要な意味を持つ存在です']
Traceback (most recent call last):
File "/data/repos/MoneyPrinterV2/src/main.py", line 436, in
main()
File "/data/repos/MoneyPrinterV2/src/main.py", line 154, in main
youtube.generate_video(tts)
File "/data/repos/MoneyPrinterV2/src/classes/YouTube.py", line 625, in generate_video
self.generate_script_to_speech(tts_instance)
File "/data/repos/MoneyPrinterV2/src/classes/YouTube.py", line 442, in generate_script_to_speech
tts_instance.synthesize(self.script, path)
File "/data/repos/MoneyPrinterV2/src/classes/Tts.py", line 81, in synthesize
outputs = self.synthesizer.tts(text)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/utils/synthesizer.py", line 398, in tts
outputs = synthesis(
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/utils/synthesis.py", line 221, in synthesis
outputs = run_model_torch(
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/utils/synthesis.py", line 53, in run_model_torch
outputs = _func(
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
return func(*args, **kwargs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/models/tacotron2.py", line 248, in inference
encoder_outputs = self.encoder.inference(embedded_inputs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/layers/tacotron/tacotron2.py", line 108, in inference
o = layer(o)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
return self._call_impl(*args, **kwargs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
return forward_call(*args, **kwargs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/layers/tacotron/tacotron2.py", line 40, in forward
o = self.convolution1d(x)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
return self._call_impl(*args, **kwargs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
return forward_call(*args, **kwargs)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/conv.py", line 375, in forward
return self._conv_forward(input, self.weight, self.bias)
File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/conv.py", line 370, in _conv_forward
return F.conv1d(
RuntimeError: Calculated padded input size per channel: (4). Kernel size: (5). Kernel size can't be greater than actual input size

Originally created by @cystal-dot on GitHub (May 11, 2025). Original GitHub issue: https://github.com/FujiwaraChoki/MoneyPrinterV2/issues/119 > Text splitted to sentences. ['日本の桜は春の象徴です毎年多くの観光客が桜を見に訪れます桜の花が満開になる瞬間は見る者に感動を与えます日本の文化にとって桜は重要な意味を持つ存在です'] Traceback (most recent call last): File "/data/repos/MoneyPrinterV2/src/main.py", line 436, in <module> main() File "/data/repos/MoneyPrinterV2/src/main.py", line 154, in main youtube.generate_video(tts) File "/data/repos/MoneyPrinterV2/src/classes/YouTube.py", line 625, in generate_video self.generate_script_to_speech(tts_instance) File "/data/repos/MoneyPrinterV2/src/classes/YouTube.py", line 442, in generate_script_to_speech tts_instance.synthesize(self.script, path) File "/data/repos/MoneyPrinterV2/src/classes/Tts.py", line 81, in synthesize outputs = self.synthesizer.tts(text) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/utils/synthesizer.py", line 398, in tts outputs = synthesis( File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/utils/synthesis.py", line 221, in synthesis outputs = run_model_torch( File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/utils/synthesis.py", line 53, in run_model_torch outputs = _func( File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context return func(*args, **kwargs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/models/tacotron2.py", line 248, in inference encoder_outputs = self.encoder.inference(embedded_inputs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/layers/tacotron/tacotron2.py", line 108, in inference o = layer(o) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl return self._call_impl(*args, **kwargs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl return forward_call(*args, **kwargs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/TTS/tts/layers/tacotron/tacotron2.py", line 40, in forward o = self.convolution1d(x) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl return self._call_impl(*args, **kwargs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl return forward_call(*args, **kwargs) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/conv.py", line 375, in forward return self._conv_forward(input, self.weight, self.bias) File "/data/repos/MoneyPrinterV2/venv/lib/python3.10/site-packages/torch/nn/modules/conv.py", line 370, in _conv_forward return F.conv1d( RuntimeError: Calculated padded input size per channel: (4). Kernel size: (5). Kernel size can't be greater than actual input size