跳至主要内容

节点,常用程序计算配置设置

 磁盘大小查询:df -h .

当前文件夹大小:du -sh *

Nova维护后:

建议在 .bashrc 中不要加载特定版本的模块

集群环境更新频繁:HPC 管理员常常会升级/移除旧版本模块,导致你 .bashrc 里的指定版本丢失或与新版本冲突。

不同项目需求不同:有时你想要在不同脚本里加载不同版本的编译器/CUDA/MPI;如果 .bashrc 强制加载某些版本,会干扰别的任务或环境。

模块冲突循环切换:正如你看到的,Lmod 不停地警告“一会儿切回旧版本,一会儿又切回新版本”,说明存在依赖冲突或循环切换。

总结

打开 ~/.bashrc 并注释掉任何显式的 module load 命令(尤其带后缀版本号的模块)。

让 .bashrc 文件只保留必要的通用环境配置(如 PATH、别名alias 等),不要锁定 HPC 模块版本。

在需要使用的场景(交互或作业脚本)中,手动或写脚本来 module purge 并加载合适的版本组合

这样就可以避免每次读取 .bashrc 时的依赖冲突和版本切换警告。

完成上述操作后,重新登录或执行 source ~/.bashrc,应该就不会再提示这些 Lmod 警告了。

总结

你需要先弄清楚:你的 VASP 是用 Intel 还是 OpenMPI 编译的?

Intel 编译 → module load intel/2024.2.0 一条命令就够了;不要同时加载 GCC/CUDA/OpenMPI。

OpenMPI 编译 → module load gcc + cuda + openmpi。

不要把 Intel 和 GCC + OpenMPI 两套环境同时加载;它们不但“有点冲突”,而且没有这个必要。

只要对应好编译环境与运行环境,你的 srun 就可以正常启动 VASP(全部换成mpirun)。

ldd /work/qan/codes/VASP/bin/vasp_std1 可以查看vasp这个程序是什么编译的以及目前是否库完整

Intel 编译 

module purge

module load intel/2024.2.0


OpenMPI 编译

module purge

module load gcc/14.2.0-cuda12-vx6uhdf

module load cuda/12.4.1-cz3ljd3

module load openmpi/4.1.6-cuda12-zp2vjqb


(base) [kluo@condo2017 test1]$ cat ~/.bashrc

# .bashrc


# Source global definitions

if [ -f /etc/bashrc ]; then

        . /etc/bashrc

fi


# Uncomment the following line if you don't like systemctl's auto-paging feature:

# export SYSTEMD_PAGER=


# User specific aliases and functions


export AWS_DEFAULT_REGION=us-west-2 

export PATH=$HOME/.local/bin:$PATH

#export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/shared/hpc/intel/18.3/mkl/lib/intel64


# >>> conda initialize >>>

# !! Contents within this block are managed by 'conda init' !!

__conda_setup="$('/work/qan-free/kluo/anaconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"

if [ $? -eq 0 ]; then

    eval "$__conda_setup"

else

    if [ -f "/work/qan-free/kluo/anaconda3/etc/profile.d/conda.sh" ]; then

        . "/work/qan-free/kluo/anaconda3/etc/profile.d/conda.sh"

    else

        export PATH="/work/qan-free/kluo/anaconda3/bin:$PATH"

    fi

fi

unset __conda_setup

# <<< conda initialize <<<


(base) [kluo@condo2017 test1]$ 

lammps 全部用1就行

Nova建议deepmd train设置

export OMP_NUM_THREADS=16
export TF_INTRA_OP_PARALLELISM_THREADS=16
export TF_INTER_OP_PARALLELISM_THREADS=4
Anvil 建议:
export OMP_NUM_THREADS=1
export TF_INTRA_OP_PARALLELISM_THREADS=1
export TF_INTER_OP_PARALLELISM_THREADS=128

评论

此博客中的热门博文

dpgen数据收集分类续算

dpgen 推荐安装升级方法:删除之前工作目录的dpgen文件夹 Install from source code:  git clone https://github.com/deepmodeling/dpgen && pip install ./dpgen 想收集TL的数据集且按化学成分分类:/work/qan/kluo/NaSPO/run/TransL dpgen collect ./ ./collect -p simplify.json -m 不起作用,只能用 param.json格式 所以单独新建文件夹,构造虚拟的 param.json其中初始数据集地址,直接复制最后一个train的input.json.再用 dpgen collect ./ ./collect -p param.json -m就可以收集初始的数据了,但是这时候没有分类,尽管dpgen collect -m 有这个功能但没有作用。 所以,构建虚拟的simplify任务,记住是精简过程,所以       "labeled" : true ,       "init_pick_number" : 0 ,       "iter_pick_number" : 0 , .....       "training_init_model" : false , 运行之后,第一步就得到了 所有的分类数据集。 Q: /work/qan/kluo/NaSPO/run 最近几轮的准确率上不去,猜测是数据集太大 232334 batch ,而每一代的学习步长 step 只有 50 万,以及不够了。所以出现了:一些模型的准确率一直上不去,就算修改上下限也没有改观。或者一些模型学好了,另一些模型就被遗忘了,很明显是学习步长不够了。 A: 解决办法如下:将现有数据收集分类,分拣出确实学习率低的重写单独重点学习。其次,以后用 dpgen 自动采样产生数据集的时候,时刻关注准确率的变化,一旦上不去了赶紧分家。 D: 1.        收集数据 a.       ...

dpgen simplify 数据精简二次处理

问题: 1.        Carbon 的势能文件无法准确描述石墨层间距 共有 204,200 bch 2.        NaSPO 的势能文件无法压缩 共有 242,423 bch 都可能是 data 太臃肿导致的,所以决定精简用 simplify 命令试试(感觉是重新采样的过程,只是节省了 lammps 的时间用 dp test 代替了,还是需要 fp 过程(也可以注释掉,如果需要新的 VASP 参数可以启用),更适合需要换 fp 参数的计算)。第一次取样是随机的, dp 采样过程有点慢 压缩的 pb 需要 6 小时。 还可以重新 fp 改善数据集 https://tutorials.deepmodeling.com/en/latest/CaseStudies/Transfer-learning/Transfer-learning.html https://docs.deepmodeling.com/projects/dpgen/en/latest/simplify/simplify-jdata.html https://zhuanlan.zhihu.com/p/456504860 http://bohrium-doc.dp.tech/docs/software/DP-GEN_simplify Simplify — DP-GEN documentation 先做,动起来在看 1.        收集所有数据 https://hikunluo.blogspot.com/2022/12/dpgen.html 2.        准备 simplify 的两个 json 文件。      nohup dpgen simplify simplify.json machine.json 1 > log 2 > err &      (base) [kluo@condo2017 SimCarbon]$ cat simplify.json { ...

python相关

 在IDLE中运行pip install pandas是不行的。你需要在命令提示符(Command Prompt)或终端(Terminal)中运行该命令。下面是详细步骤: 使用命令提示符安装 pandas 打开命令提示符: 按 Win + R 键打开运行窗口,输入 cmd,然后按回车键。 或者你可以在开始菜单中搜索“命令提示符”并打开它。 而且运行python脚本的一般步骤: 1. 打开IDLE shell这是个交互窗口 不能直接将脚本内容直接复制到这里,但是应该可以用python +脚本路径运行 2. File -new file-粘贴脚本内容 3.这个窗口上有run