租借的是autodl的服务器,配置是RTX 4090 / 24G (一开始租的是5090,结果一阵配环境后发现项目指定的pytorch版本不支持,所以只好换一下)
服务器租赁教程参考:https://www.bilibili.com/video/BV16PVDzfEvk?vd_source=0e63ac2dd754b64db4ecb7f2de6ea971 需要上传的文件(可以先无卡模式开机做上传文件和配环境的工作)
dino_wm.zip(我上传的包含源码和dinov2模型修改后的代码) mujoco210-linux-x86_64.tar.gz train/plan任务对应的数据集的压缩包 特殊的环境设置
1 2 3 4 5 6 7 8 9 sudo apt update sudo apt install -y \ libosmesa6-dev \ libgl1-mesa-dev \ libglfw3 \ libglfw3-dev \ patchelf \ gcc \ g++ 数据集/checkpoints下载 https://osf.io/bmw48/files/osfstorage?view_only=a56a296ce3b24cceaf408383a175ce28 下载建议是一个一个zip在浏览器上下载(我尝试整包wget, curl和浏览器下载,均功亏一篑…) 下载在本机后上传到服务器,以及接下来修改路径
主流程 大部分内容和github仓库readme指示的一样,但是有一些地方有调整
创建conda环境:在dino_wm目录下conda env create -f environment.yaml, 然后conda activate dino_wm 安装Mujoco: 服务器大概是连不上的,所以要使用上传的文件,放到root/.mujoco并tar -xzvf mujoco210-linux-x86_64.tar.gz 环境变量设置:vi ~/.bashrc i编辑 esc退出编辑 :wq保存并退出 1 2 3 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/root/.mujoco/mujoco210/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/nvidia export DATASET_DIR=/path/to/data # 比如我把数据集直接扔到了数据盘,所以是"/root/autodl-tmp/dataset" 然后source ~/.bashrc 4. 训练模型指令:
...