H_ori, W_ori = im.size(2), im.size(3) IndexError: Dimension specified as 2 but tensor has no dimensions
时间: 2024-10-23 11:11:36 浏览: 50
这个错误发生在PyTorch中,当试图访问一个没有特定维度的张量(`im`)时。`size()`方法用于获取张量的尺寸信息,这里的`H_ori`和`W_ori`应该是期望获取宽度(width)和高度(height)。但是,由于`im`可能没有预定义的形状或者没有足够的维度信息,所以当我们尝试通过索引2和3获取宽度和高度时,就会抛出`IndexError`。
解决这个问题前,你需要确认`im`是否是一个四维张量,比如一个批次(batched)的图像,它应该有形状(Batch, Channels, Height, Width)。如果不是,可能是你需要先调整它的形状或使用正确的维度。如果是二维张量,则说明`im`可能只包含了通道和像素值,这时你可以直接获取尺寸:
```python
if len(im.shape) == 4: # 四维张量,包含batch
B, C, H_ori, W_ori = im.size()
else: # 二维张量,只有一个通道和像素
H_ori, W_ori = im.size() # 这里直接取大小即可
```
确保在处理之前对张量的形状有清晰的理解,避免无效的索引操作。
相关问题
def Predict(self, img): """ get class mask of image """ h_ori, w_ori = img.shape[:2] input_size = self.net.input_info["image"].input_data.shape h_resize, w_resize = input_size[-2:] img_pil = Image.fromarray(img) img_resize = img_pil.resize( (w_resize, h_resize), resample=BICUBIC) img_np = np.asarray(img_resize) / 255 # normalize # model input [1, 1, h, w] img_np = np.expand_dims(np.expand_dims(img_np, axis=0), axis=0) input = {'image': img_np} res = self.net.infer(inputs=input) output = res["mask"].squeeze(0) probs = softmax(output) mask = Image.fromarray(np.argmax(probs, axis=0).astype(np.uint8)) mask = mask.resize((w_ori, h_ori), resample=NEAREST) mask_np = np.asarray(mask) return mask_np
这段代码实现了一个神经网络模型对输入的图片进行分割(Semantic Segmentation),返回每个像素点所属的类别。具体来说,该方法的输入是一张图片(img),包含了该图片的高度(h_ori)和宽度(w_ori)。该方法首先将图片进行缩放以符合模型的输入要求(h_resize和w_resize),然后将像素值归一化到 [0, 1] 的范围内。接下来,将归一化后的图片转换为模型的输入格式([1, 1, h, w]),并进行推理,得到模型的输出(output)。然后,将输出进行 softmax 操作,并将每个像素点归类为概率最大的类别。最后,将归类后的结果进行缩放以符合原始图片的大小(h_ori和w_ori),并将其转换为 numpy 数组的形式,作为该方法的返回值(mask_np)。
# coding=utf-8 import cv2 import numpy as np import random import os from argparse import ArgumentParser ALPHA = 5 def build_parser(): parser = ArgumentParser() parser.add_argument('--original', dest='ori', required=True) parser.add_argument('--image', dest='img', required=True) parser.add_argument('--result', dest='res', required=True) parser.add_argument('--alpha', dest='alpha', default=ALPHA) return parser def main(): parser = build_parser() options = parser.parse_args() ori = options.ori img = options.img res = options.res alpha = options.alpha if not os.path.isfile(ori): parser.error("original image %s does not exist." % ori) if not os.path.isfile(img): parser.error("image %s does not exist." % img) decode(ori,img,res,alpha) def decode(ori_path, img_path, res_path, alpha): ori = cv2.imread(ori_path) img = cv2.imread(img_path) ori_f = np.fft.fft2(ori) img_f = np.fft.fft2(img) height, width = ori.shape[0], ori.shape[1] watermark = (ori_f - img_f) / alpha watermark = np.real(watermark) res = np.zeros(watermark.shape) random.seed(height + width) x = range(height/2) y = range(width) random.shuffle(x) random.shuffle(y) for i in range(height/2): for j in range(width): res[x[i]][y[j]] = watermark[i][j] cv2.imwrite(res_path,res,[int(cv2.IMWRITE_JPEG_QUALITY), 100]) if __name__ == '__main__': main()
这段代码是一个 Python 脚本,用于实现 CTF 相关的盲水印技术。它使用 OpenCV 库和 NumPy 库来处理图像和数据,可以将一个原始图像和一个待盲水印的图像作为输入,输出一个包含水印信息的图像。具体来说,它实现了以下步骤:
1. 读取原始图像和待盲水印的图像。
2. 对两个图像进行 FFT 变换,得到频域图像。
3. 从频域图像中计算出水印信息。
4. 将水印信息随机嵌入到一个和原始图像大小一样的图像中。
5. 将嵌入了水印信息的图像保存到指定路径。
其中,alpha 参数是控制水印强度的一个系数,可以通过命令行参数指定。如果执行该脚本时没有指定参数,将使用默认值 ALPHA = 5。
阅读全文