Skip to content
songyue1104 edited this page Dec 20, 2018 · 25 revisions

XDL: 面向高维稀疏场景的工业级深度学习框架

Travis (.org) Travis (.org) Hex.pm

概述

  • 为稀疏场景而生。支持千亿参数,万亿样本的深度模型训练,无论使用CPU训练还是GPU训练,都可以极致的压榨硬件的使用率
  • 工业级分布式训练。原生支持大规模分布式训练,具备完整的分布式容灾语义,系统的水平扩展能力优秀,可以轻松做到上千并发的训练。同时内置了完整的在线学习解决方案,可以自动的进行特征选择和过期淘汰,保证在线服务的模型控制在合理的规模
  • 混合多后端支持。单机内部的稠密计算复用了开源深度学习框架的能力,只需要少量的驱动代码修改,就可以把TensorFlow/MxNet的单机代码运行在XDL上,获得XDL分布式训练与高性能稀疏计算的能力
  • 高效的结构化压缩训练。针对互联网样本的数据特点,提出了结构化压缩训练模式。在多个场景下,相比传统的平铺样本训练模式,样本存储空间、样本IO效率、训练绝对计算量等方面都大幅下降,训练效率可以最大可提升10倍以上
  • 内置阿里妈妈广告推荐场景优秀的算法解决方案

XDL引擎内核

1. 编译安装

  • XDL提供docker镜像和源码编译两种方式进行安装,具体请参考编译安装

2. 集群部署

  • XDL提供了基于yarn+docker的分布式调度工具,完成集群部署后即可提交XDL分布式训练任务,具体请参考集群部署

3. 快速开始

  • 本节描述如何使用XDL进行DeepCtr(Deep+Embeddings)模型训练,具体请参考快速开始

4. 用户指南

XDL算法解决方案

Contribution

欢迎对机器学习有兴趣的同仁一起贡献代码,提交Issues或者Pull Requests,请先查阅: XDL Contribution Guide

FAQ

License

XDL使用Apache-2.0许可

Clone this wiki locally