PyTorch Dataloader：自定义Dataset与drop_last参数的深入理解

作者：问答酱2023.12.25 15:11浏览量：32

简介：Dataloader在PyTorch中是用于加载数据集的重要工具，它可以帮助我们方便地处理数据，如切分数据集，打乱数据，以及批处理数据等。在PyTorch中，我们可以通过继承`torch.utils.data.Dataset`类来创建自己的数据集。

Dataloader在PyTorch中是用于加载数据集的重要工具，它可以帮助我们方便地处理数据，如切分数据集，打乱数据，以及批处理数据等。在PyTorch中，我们可以通过继承torch.utils.data.Dataset类来创建自己的数据集。
但是，如果你正在处理一个序列标注问题（例如文本分类、命名实体识别等），你可能希望数据集中每一行都有不同的长度。例如，一个句子中的单词和另一个句子中的单词可能长度不同。在这种情况下，使用默认的DataLoader可能会遇到问题，因为默认情况下，它期望所有的样本都有相同的长度。
这就是torch.utils.data.DataLoader的drop_last参数的用途。当你将drop_last设置为True时，如果数据集中存在长度不同的样本，那么在每个epoch结束时，最后一个批次将被丢弃，以确保所有的批次都有相同的长度。
下面是一个简单的例子，展示了如何创建一个自定义的数据集类，以及如何使用带有drop_last参数的DataLoader：

import torch
from torch.utils.data import Dataset, DataLoader
class MyDataset(Dataset):
def __init__(self, data):
self.data = data
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.data[idx]
# 假设我们有以下数据：
data = [torch.randn(2, 3), torch.randn(2, 6), torch.randn(2, 9)]
dataset = MyDataset(data)
# 使用 DataLoader 并设置 drop_last=True
dataloader = DataLoader(dataset, batch_size=2, shuffle=True, drop_last=True)
# 遍历 dataloader
for batch in dataloader:
print(batch)

在这个例子中，我们的数据集中的样本长度都不同（第一个样本长度为3，第二个样本长度为6，第三个样本长度为9）。当我们使用drop_last=True的DataLoader时，由于存在长度不同的样本，最后一个批次将被丢弃。这意味着每个epoch将只使用两个批次的数据（即前两个样本）。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

PyTorch Dataloader：自定义Dataset与drop_last参数的深入理解

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者