2024/05/20 VASP 加压优化报错: | ZBRENT: fatal error in bracketing | | please rerun with smaller EDIFF, or copy CONTCAR | | to POSCAR and continue | | | | ----> I REFUSE TO CONTINUE WITH THIS SICK JOB ... BYE!!! <----
其实是EDIFFG = 由-0.01 改成-0.02就可以了
2024/04/04
elements = jdata["elements"]
KeyError: 'elements'
2024/01/20
dpgen Simplify dp采样报错: /work/qan/kluo/anaconda3/envs/deepmd221/lib/python3.10/importlib/__init__.py:169: UserWarning: The NumPy module was reloaded (imported a second time). This can in some cases result in small but subtle issues and is discouraged. _bootstrap._exec(spec, module) usage: dp [-h] [--version] {config,transfer,train,freeze,test,compress,doc-train-input,model-devi,convert-from,neighbor-stat,train-nvnmd} ... dp: error: unrecognized arguments: --real_error
对比发现可能是用了deepmd221导致的 改成deepmd227 正常了
2024/1/2
/anvil/projects/x-phy220096/kluo/anaconda3/envs/deepmd227/bin/lmp: line 11: 1742149 Killed /anvil/projects/x-phy220096/kluo/anaconda3/envs/deepmd227/bin/_lmp "$@"
slurmstepd: error: Detected 1 oom_kill event in StepId=4201973.0. Some of the step tasks have been OOM Killed.
srun: error: a977: task 1: Out Of Memory
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
解决办法就是改小核数,128核可以算4ns,64核8ns,现在改成27核应该可以算16ns
官方(RCAC - Knowledge Base: Anvil User Guide: OpenMP job in wholenode queue (purdue.edu))也是这样建议的If an OpenMP program uses a lot of memory and 128 threads use all of the memory of the compute node, use fewer processor cores (OpenMP threads) on that compute node.
2023/12/29
/anvil/projects/x-phy220096/kluo/anaconda3/envs/deepmd221/bin/lmp: line 11: 2894955 Segmentation fault /anvil/projects/x-phy220096/kluo/anaconda3/envs/deepmd221/bin/_lmp "$@"
猜测解决办法是升级deepmd到最新版本2.2.7.,结果并不是,最后发现原因是 region不能和前面的fix脚本连用只能分割使用.
还有一种常见情况就是势文件train版本和lammps(deempmd版本不匹配导致了),保持一直不会出这种错误,有时候不一致也能用,分情况了。Segmentation fault这种报错一般是版本问题。可以重新freeze+compress
但是压缩后的力场还是这个报错 现在猜测可能是少了一个元素的原因:未找到的张量: 错误消息表明模型中指定的张量 spin_attr/ntypes_spin:0 未在图中找到。这可能是因为模型预期第六个元素的张量但未训练该元素。
图结构: 定义机器学习模型的图时,所有预期的输入及其形状需要一致。如果某个元素缺失或未训练,会导致预期张量的匹配失败,从而引发错误。 压缩影响: 压缩模型通常通过修剪冗余部分来减小其大小,但它仍然依赖于基础结构的完整性。如果模型结构包括未训练的元素,在压缩和后续使用过程中可能会导致不一致。所以快速测试一下80w试试.确实解决了
conda create -n deepmd deepmd-kit=*=*cpu libdeepmd=*=*cpu lammps -c https://conda.deepmodeling.com -c defaults
dp compress -i graph.pb -o graph-compress.pb
/work/qan/kluo/TiCdpgen/Run/iter.000298 由于新添加5种元素,导致压缩模型由14.1MB暴涨到161MB,所以下面这种四连用报错,估计单独的应该可以用,最后手动压缩吧
2023/12/26
(base) [kluo@nova run]$ dpgen collect ./ ./collect -p param.json 报错
将这段代码保存为一个文件,比如叫做rename_folders.sh
。然后,你可以通过在命令行中运行以下命令来执行这个脚本:
bashchmod +x rename_folders.sh
./rename_folders.sh
这个脚本做了以下几件事:
- 定义了起始和结束的迭代编号。
- 使用
seq
命令和格式化选项-f
来生成固定宽度的序列号(这里使用%06g
确保序列号是六位数字,例如000021
)。 - 为每个迭代构建了旧文件夹和新文件夹的路径。
- 检查旧文件夹是否存在,如果存在则执行重命名,并打印出一条确认信息。
- 如果旧文件夹不存在,打印出一条错误信息。
在运行这个脚本之前,请确保你在脚本所在的目录下,或者提供脚本中文件夹路径的绝对路径。此外,请确保你对这些文件夹有足够的权限来执行重命名操作。
2023/11/11
lammps计算 浮点异常(核心转储) /work/qan/kluo/anaconda3/envs/deepmd221/bin/lmp: line 11: 22434 Floating point exception(core dumped) /work/qan/kluo/anaconda3/envs/deepmd221/bin/_lmp "$@" /work/qan/kluo/anaconda3/envs/deepmd221/bin/lmp: line 11: 22462 Floating point exception(core dumped) /work/qan/kluo/anaconda3/envs/deepmd221/bin/_lmp "$@" srun: error: nova18-49: tasks 4,22: Exited with exit code 136
通过与chatGPT沟通最后解决办法是用最新版本的deepmd227解决了。
但是在training的时候又碰到新的问题,而且确认是deepmd227带来的,221没问题 packages/typing_extensions.py", line 152, in _check_generic raise TypeError(f"{cls} is not a generic class") TypeError: typing.List[str] is not a generic class
折腾了一圈 还是妥协了 改成221training 227lammps能跑起来就行
总结:版本更新确实能解决一些问题,但是又会有新的问题出现,因为机器的配置特别是库文件都不一样。
真实原因是drags版本太低导致的(需要0.4以上)Deepmd-kit2.2.7 version errors during training · deepmodeling/deepmd-kit · Discussion #2965 (github.com)
pip list | grep dargs查看当前环境的版本
pip install --upgrade dargs 更新
train.log报错显示tensorflow.python.framework.errors_impl.InvalidArgumentError: Assign requires shapes of both tensors to match. lhs shape= [4,832] rhs shape= [4,1008] [[{{node save/Assign_2}}]]
原因是(transfer Learning)初始化旧模型的时候,sel我用的是自动挡"sel": "auto:1.01",这个在新数据集的基础上生存的具体sel 与旧模型的sel不匹配导致的。shape= [4,1008] 代表[元素种类,sel加合*元素种类]=[4, 4*(52+60+36+104)].所以找到旧模型的tran.log 推测出具体的sel(被4整除的最小数),就可以了。
/work/qan-free/kluo/HEMC/dpgen/iter.000185/00.train/000 一直报错 无法继续 raise JSONDecodeError("Expecting value", s, err.value) from None json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) 之前猜测是磁盘空间不够的问题,现在想想 很可能是压缩的模型197.22MB太大导致的,所以果断关闭compress 试试
还有就是可以用很大的timestep(10fs可以试试,只要不报错就行)长时间平衡就好了
File
"/data/gpfs/home/kluo/.local/lib/python3.8/site-packages/dpgen/generator/run.py",
line 691, in expand_matrix_values
for ii in
target_list[cur_idx]:
TypeError: 'int' object is not iterable
Int 是integer
整数的意思 和list of
integer 不一样。
原因是:param等脚本文件里的数据类型没有区分
List of integer 需要[10], 而Integer
不需要。
注意自己模板里定义的变量需要括号[],而外部数据根据手册来,不统一的
File "/data/gpfs/home/kluo/.local/lib/python3.8/site-packages/dpdispatcher/submission.py", line 241, in handle_unexpected_submission_state
raise RuntimeError(
RuntimeError: Meet errors will handle unexpected submission state.
Debug information: remote_root==/data/gpfs/assoc/matersimul/kunluo/dpgentestlmp/work/1f1c9b7b10698827bb7aa53772c3c17b2b7c1c0a.
Debug information: submission_hash==1f1c9b7b10698827bb7aa53772c3c17b2b7c1c0a.
Please check the dirs and scripts in remote_rootThe job information mentioned above may help
这个很可能是节点问题导致任务提上run20s内掉了,可以单独提交简单对应的lmp或者vasp任务验证 如果没问题
就按提示仔细检查所有log文件 有收获 我出现过版本不对应问题 需要激活环境换高版本的,在.bashrc里注释掉老版本重新进入系统
结果发现是加入vdW修正导致的
[BUG] OUTCAR transformation · Issue #347 · deepmodeling/dpdata · GitHub
评论
发表评论