research: roi train

2025-03-22 22:57:24 -07:00 · 2025-03-22 22:57:24 -07:00 · 03a25595a2
commit 03a25595a2
parent 9fbc2fb812
2 changed files with 163 additions and 2 deletions
--- a/research/roi-train.py
+++ b/research/roi-train.py
@ -0,0 +1,104 @@
+#!/usr/bin/env python3
+import torch
+import torch.nn as nn
+import torch.optim as optim
+from torch.utils.data import DataLoader, Dataset
+from torchvision import transforms, models
+from PIL import Image
+import os
+from datetime import datetime
+
+class CustomDataset(Dataset):
+    def __init__(self, img_dir, transform=None):
+        self.img_dir = img_dir
+        self.transform = transform
+        self.img_labels = self._load_labels()
+
+    def _load_labels(self):
+        # 假设标签存储在labels.txt文件中，每行格式为：图片名 标签
+        with open(os.path.join(self.img_dir, 'labels.txt'), 'r') as f:
+            lines = f.readlines()
+        return [line.strip().split() for line in lines if line.strip()]
+
+    def __len__(self):
+        return len(self.img_labels)
+
+    def __getitem__(self, idx):
+        img_name, label = self.img_labels[idx]
+        img_path = os.path.join(self.img_dir, img_name)
+        image = Image.open(img_path).convert('RGB')
+        if self.transform:
+            image = self.transform(image)
+        label = int(label)
+        return image, label
+
+# 数据预处理
+transform_train = transforms.Compose([
+    transforms.RandomResizedCrop((128, 64)),  # 随机裁剪
+    transforms.RandomHorizontalFlip(),       # 随机水平翻转
+    transforms.ToTensor(),                   # 转换为Tensor
+    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
+])
+
+transform_val = transforms.Compose([
+    transforms.Resize((128, 64)),            # 调整大小
+    transforms.ToTensor(),                   # 转换为Tensor
+    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
+])
+
+# 加载数据集
+img_dir = os.path.abspath("data/roi/train")
+train_dataset = CustomDataset(img_dir=img_dir, transform=transform_train)
+val_dataset = CustomDataset(img_dir=img_dir, transform=transform_val)
+
+# 创建DataLoader
+train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
+val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
+
+# 加载预训练的ResNet18模型
+model = models.resnet18(pretrained=True)
+
+# 修改最后一层全连接层，使其输出为2（二分类）
+num_ftrs = model.fc.in_features
+model.fc = nn.Linear(num_ftrs, 2)
+
+# 将模型移动到GPU（如果可用）
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+model = model.to(device)
+
+criterion = nn.CrossEntropyLoss()
+optimizer = optim.Adam(model.parameters(), lr=0.001)
+
+num_epochs = 10
+
+for epoch in range(num_epochs):
+    # 训练阶段
+    model.train()
+    running_loss = 0.0
+    for images, labels in train_loader:
+        images, labels = images.to(device), labels.to(device)
+        optimizer.zero_grad()
+        outputs = model(images)
+        loss = criterion(outputs, labels)
+        loss.backward()
+        optimizer.step()
+        running_loss += loss.item()
+
+    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')
+
+    # 验证阶段
+    model.eval()
+    correct = 0
+    total = 0
+    with torch.no_grad():
+        for images, labels in val_loader:
+            images, labels = images.to(device), labels.to(device)
+            outputs = model(images)
+            _, predicted = torch.max(outputs.data, 1)
+            total += labels.size(0)
+            correct += (predicted == labels).sum().item()
+
+    print(f'Validation Accuracy: {100 * correct / total:.2f}%')
+
+dt = datetime.now().strftime("%Y%m%d_%H%M%S")
+torch.save(model.state_dict(), f'data/roi/resnet18_{dt}.pth')
--- a/research/roi.py
+++ b/research/roi.py
@ -2,10 +2,13 @@

 import argparse
 import os
+import shutil
+import numpy as np
 import requests
 import json
 import subprocess
 import cv2
+from collections import defaultdict

 class RoiResearch(object):
    def __init__(self, token=None):
@ -170,13 +173,18 @@ def roi_sim(frame_roi_img, roi_img):
        cv2.destroyAllWindows()
    return siml

+def frame_roi(frame_file):
+    cmd = f'./qrtool frame_roi {frame_file}'
+    subprocess.check_call(cmd, shell=True, cwd=os.path.dirname(os.path.abspath(__file__)) + "/../alg")
+    frame_roi_img = cv2.imread(frame_file + ".roi.jpg")
+    return frame_roi_img
+
 def process_roi_data(id):
    rd = f"data/roi/samples/{id}"
    frame_file = os.path.abspath(f"{rd}/{id}-frame.jpg")
    roi_file = os.path.abspath(f"{rd}/{id}-roi.jpg")
    roi_img = cv2.imread(roi_file)
-    cmd = f'./qrtool frame_roi {frame_file}'
-    subprocess.check_call(cmd, shell=True, cwd=os.path.dirname(os.path.abspath(__file__)) + "/../alg")
+    frame_roi_img = frame_roi(frame_file)
    frame_roi_img = cv2.imread(frame_file + ".roi.jpg")
    size = [128, 128]
    frame_roi_img = cv2.resize(frame_roi_img, size)
@ -190,13 +198,62 @@ def parse_args():
    parser.add_argument("--username", "-u", type=str)
    parser.add_argument("--password", "-p", type=str)
    parser.add_argument("--download", "-d", action='store_true')
+    parser.add_argument("--preprocess", "-P", action='store_true')
    parser.add_argument("--id", "-i", type=int, action='append')
    return parser.parse_args()

+def get_all_samples():
+    return os.listdir("data/roi/samples")
+
+def prepare_to_train(id):
+    rd = f"data/roi/samples/{id}"
+    frame_file = os.path.abspath(f"{rd}/{id}-frame.jpg")
+    roi_file = os.path.abspath(f"{rd}/{id}-roi.jpg")
+    roi_img = cv2.imread(roi_file)
+    frame_roi_img = frame_roi(frame_file)
+    frame_roi_img = cv2.resize(frame_roi_img, (128, 128))
+    roi_img = cv2.resize(roi_img, (128, 128))
+    side_by_side = np.concatenate((frame_roi_img, roi_img), axis=1)
+    side_by_side_file = os.path.abspath(f"{rd}/{id}-side-by-side.jpg")
+    # show_img(side_by_side, "side_by_side")
+    # cv2.waitKey(0)
+    label_file = os.path.abspath(f"{rd}/label.txt")
+    json_file = os.path.abspath(f"{rd}/{id}.json")
+    with open(json_file, "r") as f:
+        data = json.load(f)
+    labels = data['labels']
+    label = 0
+    if 'pos' in labels:
+        label = 1
+    elif 'neg' in labels:   
+        label = 0
+    else:
+        raise Exception("no label found")   
+    side_by_side_file = os.path.abspath(f"data/roi/train/{id}.jpg")
+    cv2.imwrite(side_by_side_file, side_by_side)
+    with open(os.path.abspath(f"data/roi/train/labels.txt"), "a") as f:
+        f.write(f"{id}.jpg {label}\n")
+    return label
+
 def main():
    args = parse_args()
    if args.download:
        get_roi_data(args)
+    if args.preprocess:
+        all_samples = get_all_samples()
+        total = len(all_samples)
+        shutil.rmtree(os.path.abspath("data/roi/train"))
+        os.makedirs(os.path.abspath("data/roi/train"))
+        label_count = defaultdict(int)
+        for i, id in enumerate(all_samples):
+            print(f"preprocessing {id} ({i + 1}/{total})")
+            try:
+                label = prepare_to_train(id)
+                label_count[label] += 1
+            except Exception as e:
+                print(f"error: {e}")
+        print(f"count by label: {label_count}")
+        return
    if args.id:
        for id in args.id:
            process_roi_data(id)