Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

使用 WhisperX 时间戳对齐功能时爆显存 #158

Open
neavo opened this issue Jun 16, 2024 · 9 comments
Open

使用 WhisperX 时间戳对齐功能时爆显存 #158

neavo opened this issue Jun 16, 2024 · 9 comments

Comments

@neavo
Copy link

neavo commented Jun 16, 2024

如题,任务开始前显存占用大约1.5G,操作开始时显存占用10G左右,然后很快爆显存。。。

难道16G显存不够吗 。。。

显卡是16G的4070 Ti Super,日志如下:

fasterwhispergui.log

@CheshireCC
Copy link
Owner

#157
#157 (comment)

@neavo
Copy link
Author

neavo commented Jun 16, 2024

#157 #157 (comment)

感觉似乎并不是同一个问题? 我这儿感觉好像还没开始工作就爆显存报错了,所有的项目都这样,不是某个特定的视频内容的问题。。。
我再试试看

@neavo
Copy link
Author

neavo commented Jun 16, 2024

81#issuecomment-1915355539

应该不是字幕文本内容的问题,我换了一个一共就10行的字幕文件一样报错,跟这里描述的比较接近

@CheshireCC
Copy link
Owner

#157 #157 (comment)

感觉似乎并不是同一个问题? 我这儿感觉好像还没开始工作就爆显存报错了,所有的项目都这样,不是某个特定的视频内容的问题。。。 我再试试看

所有内容都出现错误的话,能提供一个音频文件给我进行测试吗?

@nnnnn376
Copy link

转写完成后VAD参数有进行过调整吗?如果转写结果不是直接用于对齐,而是手动导入的,且在此过程中修改了VAD参数,可能会导致爆显存,而且多大的显存也不好使,4090+128G内存实测。建议重新进行一次转写,然后再尝试对齐。

@nnnnn376
Copy link

转写完成后VAD参数有进行过调整吗?如果转写结果不是直接用于对齐,而是手动导入的,且在此过程中修改了VAD参数,可能会导致爆显存,而且多大的显存也不好使,4090+128G内存实测。建议重新进行一次转写,然后再尝试对齐。

也可以试试把软件调成英文,似乎成功概率大点,纯玄学

@neavo
Copy link
Author

neavo commented Jun 17, 2024

转写完成后VAD参数有进行过调整吗?如果转写结果不是直接用于对齐,而是手动导入的,且在此过程中修改了VAD参数,可能会导致爆显存,而且多大的显存也不好使,4090+128G内存实测。建议重新进行一次转写,然后再尝试对齐。

也可以试试把软件调成英文,似乎成功概率大点,纯玄学

跟这些玄学关系不大 。。。目前看起来可能跟音频时间的关系比较大

测试样板是一段2小时左右的音频,在我的16G卡上,如果如果其他占用显存的任务,直接对齐,大概一半一半的概率能成功,如果有其他任务占用少量显存,大概率失败,如果有其他任务占用较大量显存,一定失败。。。

超过2小时的音频文件几乎不可能对齐成功,而如果把这段音频文件切割成多个文件,那就可以比较稳定的对齐成功

任务失败时,都可以观察到显存使用持续上升直到撑爆

相对来说16G已经是一个比较大的显存数值了,而且说实话2小时的时长也不算特别长,不知道调用 WhisperX 的方式或者软件这端是否还有优化的空间? @CheshireCC

@nnnnn376
Copy link

nnnnn376 commented Jun 17, 2024

转写完成后VAD参数有进行过调整吗?如果转写结果不是直接用于对齐,而是手动导入的,且在此过程中修改了VAD参数,可能会导致爆显存,而且多大的显存也不好使,4090+128G内存实测。建议重新进行一次转写,然后再尝试对齐。

也可以试试把软件调成英文,似乎成功概率大点,纯玄学

跟这些玄学关系不大 。。。目前看起来可能跟音频时间的关系比较大

测试样板是一段2小时左右的音频,在我的16G卡上,如果如果其他占用显存的任务,直接对齐,大概一半一半的概率能成功,如果有其他任务占用少量显存,大概率失败,如果有其他任务占用较大量显存,一定失败。。。

超过2小时的音频文件几乎不可能对齐成功,而如果把这段音频文件切割成多个文件,那就可以比较稳定的对齐成功

任务失败时,都可以观察到显存使用持续上升直到撑爆

相对来说16G已经是一个比较大的显存数值了,而且说实话2小时的时长也不算特别长,不知道调用 WhisperX 的方式或者软件这端是否还有优化的空间? @CheshireCC

我认为是和参数有关系,如果参数调的不合适就会出现爆显存,你可以吧参数调整调整试试看,我有一个音频(3个多小时)也是一直对齐失败,一直爆显存,我把参数调整了一下又好了,供参考。

VAD
最小语音持续时间 400
最大语音块 450

转写
重复惩罚3.0
禁止重复的ngram的大小 1
关闭单词级时间戳

或者你可以试试这个,这是我调出来的比较好的参数
#159

@CheshireCC
Copy link
Owner

转写完成后VAD参数有进行过调整吗?如果转写结果不是直接用于对齐,而是手动导入的,且在此过程中修改了VAD参数,可能会导致爆显存,而且多大的显存也不好使,4090+128G内存实测。建议重新进行一次转写,然后再尝试对齐。

也可以试试把软件调成英文,似乎成功概率大点,纯玄学

跟这些玄学关系不大 。。。目前看起来可能跟音频时间的关系比较大

测试样板是一段2小时左右的音频,在我的16G卡上,如果如果其他占用显存的任务,直接对齐,大概一半一半的概率能成功,如果有其他任务占用少量显存,大概率失败,如果有其他任务占用较大量显存,一定失败。。。

超过2小时的音频文件几乎不可能对齐成功,而如果把这段音频文件切割成多个文件,那就可以比较稳定的对齐成功

任务失败时,都可以观察到显存使用持续上升直到撑爆

相对来说16G已经是一个比较大的显存数值了,而且说实话2小时的时长也不算特别长,不知道调用 WhisperX 的方式或者软件这端是否还有优化的空间? @CheshireCC

whisperX 可能需要进行一些代码优化,是有可能减少不必要的显存占用的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants