基于深度学习的目标检测 代码

时间: 2023-09-01 11:07:29 浏览: 84
以下是一个基于深度学习的目标检测代码示例,使用的是 TensorFlow 和 Keras 框架。这个代码示例使用的是 Faster R-CNN 模型,可以在 COCO 数据集上进行训练和测试,同时还包括了数据增强和模型评估等功能。 ```python import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers from tensorflow.keras import models from tensorflow.keras import optimizers from tensorflow.keras import backend as K from tensorflow.keras.layers import Input from tensorflow.keras.applications import ResNet50 from tensorflow.keras.layers import Conv2D from tensorflow.keras.layers import MaxPooling2D from tensorflow.keras.layers import Flatten from tensorflow.keras.layers import Dense from tensorflow.keras.layers import Dropout from tensorflow.keras.layers import GlobalAveragePooling2D from tensorflow.keras.layers import GlobalMaxPooling2D from tensorflow.keras.layers import TimeDistributed from tensorflow.keras.layers import AveragePooling2D from tensorflow.keras.layers import BatchNormalization from tensorflow.keras.layers import Activation from tensorflow.keras.layers import Add from tensorflow.keras.layers import ZeroPadding2D from tensorflow.keras.layers import Cropping2D from tensorflow.keras.layers import Lambda from tensorflow.keras.layers import Reshape from tensorflow.keras.layers import Concatenate from tensorflow.keras.layers import Softmax from tensorflow.keras.models import Model from tensorflow.keras.callbacks import TensorBoard, ModelCheckpoint, ReduceLROnPlateau, EarlyStopping from tensorflow.keras.utils import plot_model import numpy as np import os import cv2 import time import argparse from tqdm import tqdm from pycocotools.coco import COCO from pycocotools import mask as maskUtils os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' np.random.seed(42) tf.random.set_seed(42) class Config: NAME = "faster_rcnn" BACKBONE = "resnet50" IMAGE_MIN_DIM = 800 IMAGE_MAX_DIM = 1333 RPN_ANCHOR_SCALES = (32, 64, 128, 256, 512) RPN_ANCHOR_RATIOS = [0.5, 1, 2] RPN_ANCHOR_STRIDE = 16 RPN_NMS_THRESHOLD = 0.7 RPN_TRAIN_ANCHORS_PER_IMAGE = 256 RPN_POSITIVE_RATIO = 0.5 DETECTION_MIN_CONFIDENCE = 0.7 DETECTION_NMS_THRESHOLD = 0.3 DETECTION_MAX_INSTANCES = 100 LEARNING_RATE = 0.001 WEIGHT_DECAY = 0.0001 EPOCHS = 50 BATCH_SIZE = 1 STEPS_PER_EPOCH = 1000 VALIDATION_STEPS = 50 IMAGES_PER_GPU = 1 MEAN_PIXEL = np.array([123.7, 116.8, 103.9]) NUM_CLASSES = 81 # COCO has 80 classes + background class DataGenerator(keras.utils.Sequence): def __init__(self, dataset, config, shuffle=True, augment=True): self.dataset = dataset self.config = config self.shuffle = shuffle self.augment = augment self.image_ids = np.copy(self.dataset.image_ids) self.on_epoch_end() def __len__(self): return int(np.ceil(len(self.dataset.image_ids) / self.config.BATCH_SIZE)) def __getitem__(self, idx): batch_image_ids = self.image_ids[idx * self.config.BATCH_SIZE:(idx + 1) * self.config.BATCH_SIZE] batch_images = [] batch_gt_class_ids = [] batch_gt_boxes = [] for image_id in batch_image_ids: image, gt_class_ids, gt_boxes = load_image_gt(self.dataset, self.config, image_id, augment=self.augment) batch_images.append(image) batch_gt_class_ids.append(gt_class_ids) batch_gt_boxes.append(gt_boxes) batch_images = np.array(batch_images) batch_gt_class_ids = np.array(batch_gt_class_ids) batch_gt_boxes = np.array(batch_gt_boxes) rpn_match, rpn_bbox, rois, roi_gt_class_ids, roi_gt_boxes = build_rpn_targets(batch_images.shape, self.config, batch_gt_class_ids, batch_gt_boxes) inputs = [batch_images, batch_gt_class_ids, batch_gt_boxes, rpn_match, rpn_bbox, rois, roi_gt_class_ids, roi_gt_boxes] outputs = [] return inputs, outputs def on_epoch_end(self): if self.shuffle: np.random.shuffle(self.image_ids) def load_image_gt(dataset, config, image_id, augment=True): image = dataset.load_image(image_id) mask, class_ids = dataset.load_mask(image_id) bbox = maskUtils.toBbox(mask) bbox = np.expand_dims(bbox, axis=-1) class_ids = np.expand_dims(class_ids, axis=-1) gt_boxes = np.concatenate([bbox, class_ids], axis=-1) if augment: image, gt_boxes = augment_image(image, gt_boxes) image, window, scale, padding = resize_image(image, min_dim=config.IMAGE_MIN_DIM, max_dim=config.IMAGE_MAX_DIM, padding=True) gt_boxes[:, :4] = resize_box(gt_boxes[:, :4], scale, padding) gt_class_ids = gt_boxes[:, 4] return image.astype(np.float32) - config.MEAN_PIXEL, gt_class_ids.astype(np.int32), gt_boxes[:, :4].astype(np.float32) def augment_image(image, gt_boxes): if np.random.rand() < 0.5: image = np.fliplr(image) gt_boxes[:, 0] = image.shape[1] - gt_boxes[:, 0] - gt_boxes[:, 2] return image, gt_boxes def resize_image(image, min_dim=None, max_dim=None, padding=False): original_shape = image.shape rows, cols = original_shape[0], original_shape[1] if min_dim: scale = max(1, min_dim / min(rows, cols)) if max_dim: scale = min(scale, max_dim / max(rows, cols)) image = cv2.resize(image, (int(round(cols * scale)), int(round(rows * scale)))) if padding: padded_image = np.zeros((max_dim, max_dim, 3), dtype=np.float32) padded_image[:image.shape[0], :image.shape[1], :] = image window = (0, 0, image.shape[1], image.shape[0]) return padded_image, window, scale, (0, 0, 0, 0) return image, None, scale, None def resize_box(boxes, scale, padding): if padding is not None: boxes[:, 0] += padding[1] # x1 boxes[:, 1] += padding[0] # y1 boxes[:, :4] *= scale return boxes def overlaps(boxes1, boxes2): i_x1 = np.maximum(boxes1[:, 0], boxes2[:, 0]) i_y1 = np.maximum(boxes1[:, 1], boxes2[:, 1]) i_x2 = np.minimum(boxes1[:, 2], boxes2[:, 2]) i_y2 = np.minimum(boxes1[:, 3], boxes2[:, 3]) i_area = np.maximum(i_x2 - i_x1 + 1, 0) * np.maximum(i_y2 - i_y1 + 1, 0) a_area = (boxes1[:, 2] - boxes1[:, 0] + 1) * (boxes1[:, 3] - boxes1[:, 1] + 1) b_area = (boxes2[:, 2] - boxes2[:, 0] + 1) * (boxes2[:, 3] - boxes2[:, 1] + 1) u_area = a_area + b_area - i_area overlaps = i_area / u_area return overlaps def compute_iou(box, boxes, eps=1e-8): iou = overlaps(box[np.newaxis], boxes) return iou def compute_backbone_shapes(config, image_shape): if callable(config.BACKBONE): return config.BACKBONE(image_shape) assert isinstance(config.BACKBONE, str) if config.BACKBONE in ["resnet50", "resnet101"]: if image_shape[0] >= 800: return np.array([[200, 256], [100, 128], [50, 64], [25, 32], [13, 16]]) else: return np.array([[100, 128], [50, 64], [25, 32], [13, 16], [7, 8]]) else: raise ValueError("Invalid backbone name") def generate_anchors(scales, ratios, shape, feature_stride, anchor_stride): scales, ratios = np.meshgrid(np.array(scales), np.array(ratios)) scales, ratios = scales.flatten(), ratios.flatten() heights = scales / np.sqrt(ratios) widths = scales * np.sqrt(ratios) shifts_y = np.arange(0, shape[0], anchor_stride) * feature_stride shifts_x = np.arange(0, shape[1], anchor_stride) * feature_stride shifts_x, shifts_y = np.meshgrid(shifts_x, shifts_y) box_widths, box_centers_x = np.meshgrid(widths, shifts_x) box_heights, box_centers_y = np.meshgrid(heights, shifts_y) box_centers = np.stack([box_centers_y, box_centers_x], axis=2) box_sizes = np.stack([box_heights, box_widths], axis=2) box_centers = np.reshape(box_centers, [-1, 2]) box_sizes = np.reshape(box_sizes, [-1, 2]) boxes = np.concatenate([box_centers - 0.5 * box_sizes, box_centers + 0.5 * box_sizes], axis=1) boxes = np.round(boxes) return boxes def generate_pyramid_anchors(scales, ratios, feature_shapes, feature_strides, anchor_stride): anchors = [] for i in range(len(scales)): anchors.append(generate_anchors(scales[i], ratios, feature_shapes[i], feature_strides[i], anchor_stride)) return np.concatenate(anchors, axis=0) def norm_boxes(boxes, shape): boxes = boxes.astype(np.float32) h, w = shape[:2] scale = np.array([h - 1, w - 1, h - 1, w - 1]) shift = np.array([0, 0, 1, 1]) boxes = np.divide(boxes - shift, scale) boxes = np.maximum(np.minimum(boxes, 1), 0) return boxes def denorm_boxes(boxes, shape): h, w = shape[:2] scale = np.array([h - 1, w - 1, h - 1, w - 1]) shift = np.array([0, 0, 1, 1]) boxes = boxes * scale + shift return boxes.astype(np.int32) def overlaps_graph(boxes1, boxes2): b1 = tf.reshape(tf.tile(tf.expand_dims(boxes1, 1), [1, 1, tf.shape(boxes2)[0]]), [-1, 4]) b2 = tf.tile(boxes2, [tf.shape(boxes1)[0], 1]) b2 = tf.reshape(tf.transpose(b2), [-1, 4]) overlaps = compute_iou(b1, b2) overlaps = tf.reshape(overlaps, [tf.shape(boxes1)[0], tf.shape(boxes2)[0]]) return overlaps def detection_target_graph(proposals, gt_class_ids, gt_boxes, config): proposals = tf.cast(proposals, tf.float32) gt_boxes = tf.cast(gt_boxes, tf.float32) gt_class_ids = tf.cast(gt_class_ids, tf.int64) # Compute overlaps matrix [proposals, gt_boxes] overlaps = overlaps_graph(proposals, gt_boxes) # Compute overlaps with positive anchors roi_iou_max = tf.reduce_max(overlaps, axis=1) positive_roi_bool = (roi_iou_max >= config.RPN_POSITIVE_RATIO) positive_indices = tf.where(positive_roi_bool)[:, 0] # Subsample ROIs. Aim for 33% positive # Positive ROIs positive_count = int(config.RPN_TRAIN_ANCHORS_PER_IMAGE * config.RPN_POSITIVE_RATIO) positive_indices = tf.random.shuffle(positive_indices)[:positive_count] positive_count = tf.shape(positive_indices)[0] # Negative ROIs. Add enough to maintain positive:negative ratio. r = 1.0 / config.RPN_POSITIVE_RATIO negative_count = tf.cast(r * tf.cast(positive_count, tf.float32), tf.int32) - positive_count negative_indices = tf.where(roi_iou_max < config.RPN_POSITIVE_RATIO)[:, 0] negative_count = tf.math.minimum(tf.shape(negative_indices)[0], negative_count) negative_indices = tf.random.shuffle(negative_indices)[:negative_count] # Gather selected ROIs positive_rois = tf.gather(proposals, positive_indices) negative_rois = tf.gather(proposals, negative_indices) # Assign positive ROIs to GT boxes. positive_overlaps = tf.gather(overlaps, positive_indices) roi_gt_box_assignment = tf.cond( tf.greater(tf.shape(positive_overlaps)[1], 0), true_fn=lambda: tf.argmax(positive_overlaps, axis=1), false_fn=lambda: tf.cast(tf.constant([]), tf.int64) ) roi_gt_boxes = tf.gather(gt_boxes, roi_gt_box_assignment) roi_gt_class_ids = tf.gather(gt_class_ids, roi_gt_box_assignment) # Compute bbox refinement for positive ROIs deltas = keras_rcnn.backend.boxutils.bbox_transform(positive_rois, roi_gt_boxes) deltas /= tf.constant(config.BBOX_STD_DEV, dtype=tf.float32) # Append negative ROIs and pad bbox deltas and masks that # are not used for negative ROIs with zeros. rois = tf.concat([positive_rois, negative_rois], axis=0) N = tf.shape(negative_rois)[0] P = tf.math.maximum(config.RPN_TRAIN_ANCHORS_PER_IMAGE - tf.shape(rois)[0], 0) rois = tf.pad(rois, [(0, P), (0, 0)]) roi_gt_boxes = tf.pad(roi_gt_boxes, [(0, N + P), (0, 0)]) roi_gt_class_ids = tf.pad(roi_gt_class_ids, [(0, N + P)]) deltas = tf.pad(deltas, [(0, N + P), (0, 0)]) # Return rois and deltas return rois, roi_gt_class_ids, deltas def build_rpn_targets(image_shape, config, gt_class_ids, gt_boxes): feature_shapes = compute_backbone_shapes(config, image_shape) anchors = generate_pyramid_anchors(config.RPN_ANCHOR_SCALES, config.RPN_ANCHOR_RATIOS, feature_shapes, config.BACKBONE_SHAPES, config.RPN_ANCHOR_STRIDE) rpn_match, rpn_bbox = keras_rcnn.backend.anchor.get_best_anchor(anchors, gt_boxes, config) rpn_match = tf.expand_dims(rpn_match, axis=-1) rpn_bbox = tf.reshape(rpn_bbox, [-1, 4]) rois, roi_gt_class_ids, deltas = tf.py_function(detection_target_graph, [anchors, gt_class_ids, gt_boxes, config], [tf.float32, tf.int64, tf.float32]) rois.set_shape([config.RPN_TRAIN_ANCHORS_PER_IMAGE, 4]) roi_gt_class_ids.set_shape([config.RPN_TRAIN_ANCHORS_PER_IMAGE]) deltas.set_shape([config.RPN_TRAIN_ANCHORS_PER_IMAGE, 4 * config.NUM_CLASSES]) rpn_match.set_shape([None, 1]) rpn_bbox.set_shape([None, 4]) rois = tf.stop_gradient(rois) roi_gt_class_ids = tf.stop_gradient(roi_gt_class_ids) deltas = tf.stop_gradient(deltas) rpn_match = tf.stop_gradient(rpn_match) rpn_bbox = tf.stop_gradient(rpn_bbox) return rpn_match, rpn_bbox, rois, roi_gt_class_ids, deltas def build_rpn_model(config): input_image = Input(shape=[None, None, 3], name="input_image") shared_layers = ResNet50(include_top=False, weights='imagenet', input_tensor=input_image) layer_names = ["conv4_block6_out", "conv5_block3_out", "conv6_relu"] layers = [shared_layers.get_layer(name).output for name in layer_names] output_layers = layers rpn_layers = [] for n, layer in enumerate(output_layers): rpn = Conv2D(512, (3, 3), padding="same", activation="relu", name="rpn_conv%d" % (n + 1))(layer) rpn_class = Conv2D(2 * config.RPN_ANCHOR_SCALES[0], (1, 1), activation="sigmoid", name="rpn_class%d" % (n + 1))(rpn) rpn_bbox = Conv2D(4 * config.RPN_ANCHOR_SCALES[0], (1, 1), activation="linear", name="rpn_bbox%d" % (n + 1))(rpn) rpn_layers.append(rpn_class) rpn_layers.append(rpn_bbox) rpn_class_logits = Concatenate(axis=1, name="rpn_class_logits")(rpn_layers[:len(config.RPN_ANCHOR_SCALES)]) rpn_class = Concatenate(axis=1, name="rpn_class")(rpn_layers[len(config.RPN_ANCHOR_SCALES):]) rpn_bbox = Concatenate(axis=1, name="rpn_bbox")(rpn_layers[len(config.R

相关推荐

最新推荐

recommend-type

【深度学习入门】Paddle实现人脸检测和表情识别(基于TinyYOLO和ResNet18)

【深度学习入门】Paddle实现人脸检测和表情识别是一个典型的计算机视觉任务,涉及到的主要知识点包括深度学习框架PaddlePaddle的使用、TinyYOLO模型在人脸检测中的应用以及ResNet18模型在表情识别中的作用。...
recommend-type

#基于yolov3和深度相机的目标检测框架定位系统总结

YOLOv3是一种基于深度学习的物体检测网络,它能在单个前向传递中检测多个尺度的物体,适用于实时应用。我们可以利用预训练的YOLOv3模型对来自深度相机的图像进行物体检测。模型通常是在TensorFlow、Keras或PyTorch等...
recommend-type

2021年最新互联网深度学习算法岗位面试题,包括计算机视觉、NLP、推荐

【深度学习】 深度学习是现代人工智能领域的重要分支,它主要通过模拟人脑神经网络的工作原理,构建多层非线性变换的模型来处理复杂的输入数据。深度学习模型包括但不限于卷积神经网络(CNN)、循环神经网络(RNN)...
recommend-type

计算机系统基石:深度解析与优化秘籍

深入理解计算机系统(原书第2版)是一本备受推崇的计算机科学教材,由卡耐基梅隆大学计算机学院院长,IEEE和ACM双院院士推荐,被全球超过80所顶级大学选作计算机专业教材。该书被誉为“价值超过等重量黄金”的无价资源,其内容涵盖了计算机系统的核心概念,旨在帮助读者从底层操作和体系结构的角度全面掌握计算机工作原理。 本书的特点在于其起点低但覆盖广泛,特别适合大三或大四的本科生,以及已经完成基础课程如组成原理和体系结构的学习者。它不仅提供了对计算机原理、汇编语言和C语言的深入理解,还包含了诸如数字表示错误、代码优化、处理器和存储器系统、编译器的工作机制、安全漏洞预防、链接错误处理以及Unix系统编程等内容,这些都是提升程序员技能和理解计算机系统内部运作的关键。 通过阅读这本书,读者不仅能掌握系统组件的基本工作原理,还能学习到实用的编程技巧,如避免数字表示错误、优化代码以适应现代硬件、理解和利用过程调用、防止缓冲区溢出带来的安全问题,以及解决链接时的常见问题。这些知识对于提升程序的正确性和性能至关重要,使读者具备分析和解决问题的能力,从而在计算机行业中成为具有深厚技术实力的专家。 《深入理解计算机系统(原书第2版)》是一本既能满足理论学习需求,又能提供实践经验指导的经典之作,无论是对在校学生还是职业程序员,都是提升计算机系统知识水平的理想读物。如果你希望深入探究计算机系统的世界,这本书将是你探索之旅的重要伴侣。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

PHP数据库操作实战:手把手教你掌握数据库操作精髓,提升开发效率

![PHP数据库操作实战:手把手教你掌握数据库操作精髓,提升开发效率](https://img-blog.csdn.net/20180928141511915?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzE0NzU5/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) # 1. PHP数据库操作基础** PHP数据库操作是使用PHP语言与数据库交互的基础,它允许开发者存储、检索和管理数据。本章将介绍PHP数据库操作的基本概念和操作,为后续章节奠定基础。
recommend-type

vue-worker

Vue Worker是一种利用Web Workers技术的 Vue.js 插件,它允许你在浏览器的后台线程中运行JavaScript代码,而不影响主线程的性能。Vue Worker通常用于处理计算密集型任务、异步I/O操作(如文件读取、网络请求等),或者是那些需要长时间运行但不需要立即响应的任务。 通过Vue Worker,你可以创建一个新的Worker实例,并将Vue实例的数据作为消息发送给它。Worker可以在后台执行这些数据相关的操作,然后返回结果到主页面上,实现了真正的非阻塞用户体验。 Vue Worker插件提供了一个简单的API,让你能够轻松地在Vue组件中管理worker实例
recommend-type

《ThinkingInJava》中文版:经典Java学习宝典

《Thinking in Java》中文版是由知名编程作家Bruce Eckel所著的经典之作,这本书被广泛认为是学习Java编程的必读书籍。作为一本面向对象的编程教程,它不仅适合初学者,也对有一定经验的开发者具有启发性。本书的核心目标不是传授Java平台特定的理论,而是教授Java语言本身,着重于其基本语法、高级特性和最佳实践。 在内容上,《Thinking in Java》涵盖了Java 1.2时期的大部分关键特性,包括Swing GUI框架和新集合类库。作者通过清晰的讲解和大量的代码示例,帮助读者深入理解诸如网络编程、多线程处理、虚拟机性能优化以及与其他非Java代码交互等高级概念。书中提供了320个实用的Java程序,超过15000行代码,这些都是理解和掌握Java语言的宝贵资源。 作为一本获奖作品,Thinking in Java曾荣获1995年的Software Development Jolt Award最佳书籍大奖,体现了其在业界的高度认可。Bruce Eckel不仅是一位经验丰富的编程专家,还是C++领域的权威,他拥有20年的编程经历,曾在世界各地教授对象编程,包括C++和Java。他的著作还包括Thinking in C++,该书同样广受好评。 作者不仅是一位技术导师,还是一位教育家,他善于用易于理解的方式阐述复杂的编程概念,使读者能够领略到编程中的“智慧”。与其他Java教材相比,《Thinking in Java》以其成熟、连贯、严谨的风格,赢得了读者的一致赞誉,被誉为最全面且实例恰当的编程指南,是学习Java过程中不可或缺的参考资料。 此外,本书还提供了配套的CD,包含15小时的语音授课,以及可以从Bruce Eckel的官方网站www.BruceEckel.com免费获取的源码和电子版更新,确保读者能够跟随最新的技术发展保持同步。无论你是Java新手还是进阶者,《Thinking in Java》都是一次深入探索Java世界的重要旅程。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

揭秘PHP文本分析:算法与技术大揭秘,助你深入理解文本处理

![揭秘PHP文本分析:算法与技术大揭秘,助你深入理解文本处理](https://img-blog.csdn.net/20180928170702309?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0pheTUzMTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) # 1. PHP文本分析概述 文本分析是利用计算机技术对文本数据进行处理和分析的过程,旨在从文本中提取有价值的信息和知识。PHP作为一种广泛使用的编程语言,提供了丰富的文本分析功能,包括正则表达式、字符串处理函数