The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation

Table of content

The Vault Dataset
The Vault toolkit
- Getting Started
- Processing Pipeline
Citing The Vault
Contact Us
License

The Vault Dataset

Data Summary

The Vault dataset is a comprehensive, large-scale, multilingual parallel dataset that features high-quality code-text pairs derived from The Stack, the largest permissively-licensed source code dataset.

We provide The Vault which contains code snippets from 10 popular programming languages such as Java, JavaScript, Python, Ruby, Rust, Golang, C#, C++, C, and PHP. This dataset provides multiple code-snippet levels, metadata, and 11 docstring styles for enhanced usability and versatility.

Name		Name	Last commit message	Last commit date
Latest commit History 241 Commits
assets		assets
data		data
resources		resources
src		src
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation

Table of content

The Vault Dataset

Data Summary

Data Structure

Data Instances

License

FSoft-AI4Code/TheVault

Folders and files

Latest commit

History

Repository files navigation

The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation

Table of content

The Vault Dataset

Data Summary

Data Structure

Data Instances