-
Notifications
You must be signed in to change notification settings - Fork 5.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
mpi上跑fluid cpu分布式fluid_machine_translation不稳定出core #9326
Comments
在pserver日志:
其中
看起来是端口被占用了? |
现在在跑mpi作业的时候增加了端口冲突重试的判断,之前是按照类似这种错误log来判断端口冲突的"
请帮忙确认下类似错误
也是端口冲突引起的话,我们会额外加上这个条件来进行重试操作 |
这是gRPC的报错日志,目前端口占用是会出现此类关键字,但不建议用日志内容作为判断条件,因为可能会由于gRPC或者Fluid的版本更新,使日志内容有修改导致判断条件失效。 |
@alexqdh 请问问题解决了吗? |
谢谢,已经加了新的关键字来判断端口冲突了,这块后面我理解解决端口冲突的话需要paddle内部来做自动检测了吧 |
暂时没有这个计划,并且目前大部分的集群调度,类似Kubernetes都做了比较好的端口管理,不会有端口冲突的情况发生。 |
好的,了解了,不过mpi存量用户还是不少的,这块临时只能先按这个方案判断了。 |
在mpi上跑fluid cpu分布式fluid_machine_translation,2节点,不稳定出core,提交6次相同作业,失败2次,成功4次
基于代码commitID: 0e30fae
报错信息:
pserver报错:
The text was updated successfully, but these errors were encountered: