hikun的地下仓库

dpgen数据收集分类续算

dpgen 推荐安装升级方法：删除之前工作目录的dpgen文件夹 Install from source code: git clone https://github.com/deepmodeling/dpgen && pip install ./dpgen 想收集TL的数据集且按化学成分分类：/work/qan/kluo/NaSPO/run/TransL dpgen collect ./ ./collect -p simplify.json -m 不起作用,只能用 param.json格式所以单独新建文件夹，构造虚拟的 param.json其中初始数据集地址，直接复制最后一个train的input.json.再用 dpgen collect ./ ./collect -p param.json -m就可以收集初始的数据了，但是这时候没有分类，尽管dpgen collect -m 有这个功能但没有作用。所以，构建虚拟的simplify任务，记住是精简过程，所以 "labeled" : true , "init_pick_number" : 0 , "iter_pick_number" : 0 , ..... "training_init_model" : false , 运行之后，第一步就得到了所有的分类数据集。 Q: /work/qan/kluo/NaSPO/run 最近几轮的准确率上不去，猜测是数据集太大 232334 batch ，而每一代的学习步长 step 只有 50 万，以及不够了。所以出现了：一些模型的准确率一直上不去，就算修改上下限也没有改观。或者一些模型学好了，另一些模型就被遗忘了，很明显是学习步长不够了。 A: 解决办法如下：将现有数据收集分类，分拣出确实学习率低的重写单独重点学习。其次，以后用 dpgen 自动采样产生数据集的时候，时刻关注准确率的变化，一旦上不去了赶紧分家。 D: 1. 收集数据 a. ...

阅读全文

hikun的地下仓库

搜索此博客

博文

dpgen数据收集分类续算