day day up
理解模型维度 理解模型维度
前言最近做实验时发现对模型架构理解不够深入,理论联系不了实际。在微调时候总会出现由于参数不同导致的错误。所以写下此篇文章,期望能够进一步了解模型每一层的作用。 RoBERTaModel以RoBERTaModel为例,先将加载模型打印出来
2024-12-15
Pytorch-Sampler类学习笔记 Pytorch-Sampler类学习笔记
Pytorch-Sampler类学习笔记前言我们在训练神经网络时,如果数据量太大,无法一次性将数据放入到网络中进行训练,所以需要进行分批处理数据读取。这一个问题涉及到如何从数据集中进行读取数据的问题,pytorch框提供了Sampler
2024-12-02
Classification Head学习笔记 Classification Head学习笔记
Classification Head学习笔记前言在自然语言处理(NLP)和计算机视觉(CV)等任务中,classification head 是指在深度学习模型的基础网络上添加的一层网络,用来执行特定的分类任务。其核心作用是将模型的输
2024-12-02
peft学习笔记 peft学习笔记
peft学习笔记第一次使用lora微调,踩的坑已经多到心力憔悴。所以写一篇博客,总结梳理一下我混乱的逻辑。 什么是loraLoRA 的全称是 LoRA: Low-Rank Adaptation of Large Language Mod
2024-12-02
Pytorch-Sampler类学习笔记 Pytorch-Sampler类学习笔记
Pytorch-Sampler类学习笔记前言我们在训练神经网络时,如果数据量太大,无法一次性将数据放入到网络中进行训练,所以需要进行分批处理数据读取。这一个问题涉及到如何从数据集中进行读取数据的问题,pytorch框提供了Sampler
2024-11-28
ML-based-knowledge ML-based-knowledge
ML知识点汇总1.LSTM 原理分析 2.预训练思想有了图像领域预训练的引入,我们在此给出预训练的思想:任务 A 对应的模型 A 的参数不再是随机初始化的,而是通过任务 B 进行预先训练得到模型 B,然后利用模型 B 的参数对模型 A
2024-09-25
科研工具tips 科研工具tips
工具用法总结Online Essay pytorch篇 torch.matmul:用于执行矩阵乘法。它支持多种维度的矩阵运算,包括两个2D矩阵的乘法,以及高维矩阵的乘法(批量矩阵乘法) 该行为取决于张量的维数 如果两个张量都是一维,
2024-09-24