前言最近做实验时发现对模型架构理解不够深入,理论联系不了实际。在微调时候总会出现由于参数不同导致的错误。所以写下此篇文章,期望能够进一步了解模型每一层的作用。
RoBERTaModel以RoBERTaModel为例,先将加载模型打印出来
2024-12-15