dvc: Data Version Control

dvc 是一个增强 git 管理大二进制文件能力的工具。

基本使用

初始化 dvc

在一个 git 项目目录中运行

   dvc init
   git commit -m "Initialize DVC"

就自动创建好了 dvc 需要东西。

dvc 是寄生在git中的,其本身不提供版本管理能力,完全依靠 git 。

添加数据

如果有一个大的数据文件 data/data.h5 ,那么就首先将它添加给 dvc, 然后把dvc创建的记录 *.dvc 和自动生成的 .gitignore 一起加到 git 中,之后再用 dvc 上传数据即可

   dvc add data/data.h5
   git add data/data.h5.dvc data/.gitignore
   git commit -m "Add raw data"

dvc的远程库

dvc 支持多种远程库,甚至是本地的远程库

   mkdir -p /tmp/dvcstore
   dvc remote add -d myremote /tmp/dvcstore
   git commit .dvc/config -m "Configure local remote"

保存和同步数据

如果已经配置好了远程库,那么上传和下载数据操作就类似于 git

   dvc pull

   dvc push

评论

Comments powered by Disqus