软件杯-地物分类功能

转自AI Studio，原文链接：【官方】第十一届 “中国软件杯”百度遥感赛项：地物分类功能 - 飞桨AI Studio第十一届 “中国软件杯”百度遥感赛项：地物分类功能1 比赛介绍“中国软件杯”大学生软件设计大赛是一项面向中国在校学生的公益性赛事，是2021年全国普通高校大学生竞赛榜单内竞赛。大赛由国家工业和信息化部、教育部、江苏省人民政府共同主办，致力于正确引导我国在校学生积极参加软件科研活动

AI Studio

691人浏览 · 2022-04-29 00:16:59

AI Studio · 2022-04-29 00:16:59 发布

转自AI Studio，原文链接：【官方】第十一届 “中国软件杯”百度遥感赛项：地物分类功能 - 飞桨AI Studio

第十一届 “中国软件杯”百度遥感赛项：地物分类功能

1 比赛介绍

“中国软件杯”大学生软件设计大赛是一项面向中国在校学生的公益性赛事，是2021年全国普通高校大学生竞赛榜单内竞赛。大赛由国家工业和信息化部、教育部、江苏省人民政府共同主办，致力于正确引导我国在校学生积极参加软件科研活动，切实增强自我创新能力和实际动手能力，为我国软件和信息技术服务业培养出更多高端、优秀的人才。2022年，百度飞桨承办了A组和B组两个赛道，本赛题为A组。

比赛官网链接

2 数据集介绍

本项目使用飞桨常规赛：遥感影像地块分割数据集。该赛题由2020 CCF BDCI 遥感影像地块分割赛题优化而来，旨在对遥感影像进行像素级内容解析，对遥感影像中感兴趣的类别进行提取和分类。比赛所用的数据集亦是对BDCI数据集的简化。

数据集链接。

3 数据预处理

In [ ]

# 解压数据集
!unzip -oq -d /home/aistudio/data/data77571/dataset/ /home/aistudio/data/data77571/train_and_label.zip

In [ ]

# 划分训练集/验证集/测试集，并生成文件名列表
# 注意，作为演示，本项目仅使用原数据集的训练集，即用来测试的数据也来自原数据集的训练集

import random
import os.path as osp
from os import listdir

import cv2


# 随机数生成器种子
RNG_SEED = 77571
# 调节此参数控制训练集数据的占比
TRAIN_RATIO = 0.9
# 调节此参数控制验证集数据的占比
VAL_RATIO = 0.05
# 使用的样本个数（选取排序靠前的样本）
NUM_SAMPLES_TO_USE = 10000
# 数据集路径
DATA_DIR = '/home/aistudio/data/data77571/dataset/'

# 分割类别
CLASSES = (
    'cls0',
    'cls1',
    'cls2',
    'cls3',
    'bg'
)


def reset_pixels(name):
    path = osp.join(DATA_DIR, 'lab_train', name)
    im = cv2.imread(path, cv2.IMREAD_GRAYSCALE)
    im[im==255] = CLASSES.index('bg')
    cv2.imwrite(path, im)


def write_rel_paths(phase, names, out_dir):
    """将文件相对路径存储在txt格式文件中"""
    with open(osp.join(out_dir, phase+'.txt'), 'w') as f:
        for name in names:
            f.write(
                ' '.join([
                    osp.join('img_train', name.replace('.png', '.jpg')),
                    osp.join('lab_train', name)
                ])
            )
            f.write('\n')


random.seed(RNG_SEED)

names = listdir(osp.join(DATA_DIR, 'lab_train'))
# 将值为255的无效像素重设为背景类
for name in names:
    reset_pixels(name)
# 对文件名进行排序，以确保多次运行结果一致
names.sort()
if NUM_SAMPLES_TO_USE is not None:
    names = names[:NUM_SAMPLES_TO_USE]
random.shuffle(names)
len_train = int(len(names)*TRAIN_RATIO)
len_val = int(len(names)*VAL_RATIO)
write_rel_paths('train', names[:len_train], DATA_DIR)
write_rel_paths('val', names[len_train:len_train+len_val], DATA_DIR)
write_rel_paths('test', names[len_train+len_val:], DATA_DIR)

# 写入类别信息
with open(osp.join(DATA_DIR, 'labels.txt'), 'w') as f:
    for cls in CLASSES:
        f.write(cls+'\n')

print("数据集划分已完成。")

4 模型训练与测试

4.1 依赖安装

In [ ]

# 安装matplotlib
!pip install matplotlib==3.4 > /dev/null

# 安装PaddleRS（AI Studio上缓存的版本）
!unzip -o -d /home/aistudio/ /home/aistudio/data/data135375/PaddleRS-develop.zip > /dev/null
!mv /home/aistudio/PaddleRS-develop /home/aistudio/PaddleRS
!pip install -e /home/aistudio/PaddleRS > /dev/null
# 因为`sys.path`可能没有及时更新，这里选择手动更新
import sys
sys.path.append('/home/aistudio/PaddleRS')

4.2 模型训练

In [ ]

# 导入需要用到的库

import random
import os.path as osp

import cv2
import numpy as np
import paddle
import paddlers as pdrs
from paddlers import transforms as T
from matplotlib import pyplot as plt
from PIL import Image

In [ ]

# 定义全局变量

# 随机种子
SEED = 77571
# 数据集存放目录
DATA_DIR = '/home/aistudio/data/data77571/dataset/'
# 训练集`file_list`文件路径
TRAIN_FILE_LIST_PATH = '/home/aistudio/data/data77571/dataset/train.txt'
# 验证集`file_list`文件路径
VAL_FILE_LIST_PATH = '/home/aistudio/data/data77571/dataset/val.txt'
# 测试集`file_list`文件路径
TEST_FILE_LIST_PATH = '/home/aistudio/data/data77571/dataset/test.txt'
# 数据集类别信息文件路径
LABEL_LIST_PATH = '/home/aistudio/data/data77571/dataset/labels.txt'
# 实验目录，保存输出的模型权重和结果
EXP_DIR =  '/home/aistudio/exp/'

In [ ]

# 固定随机种子，尽可能使实验结果可复现

random.seed(SEED)
np.random.seed(SEED)
paddle.seed(SEED)

In [ ]

# 构建数据集

# 定义训练和验证时使用的数据变换（数据增强、预处理等）
train_transforms = T.Compose([
    # 将影像缩放到256x256大小
    T.Resize(target_size=256),
    # 以50%的概率实施随机水平翻转
    T.RandomHorizontalFlip(prob=0.5),
    # 将数据归一化到[-1,1]
    T.Normalize(
        mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
])

eval_transforms = T.Compose([
    T.Resize(target_size=256),
    # 验证阶段与训练阶段的数据归一化方式必须相同
    T.Normalize(
        mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
])

# 分别构建训练和验证所用的数据集
train_dataset = pdrs.datasets.SegDataset(
    data_dir=DATA_DIR,
    file_list=TRAIN_FILE_LIST_PATH,
    label_list=LABEL_LIST_PATH,
    transforms=train_transforms,
    num_workers=4,
    shuffle=True
)

val_dataset = pdrs.datasets.SegDataset(
    data_dir=DATA_DIR,
    file_list=VAL_FILE_LIST_PATH,
    label_list=LABEL_LIST_PATH,
    transforms=eval_transforms,
    num_workers=0,
    shuffle=False
)

In [ ]

# 构建DeepLab V3+模型，使用ResNet-50作为backbone
model = pdrs.tasks.DeepLabV3P(
    input_channel=3,
    num_classes=len(train_dataset.labels),
    backbone='ResNet50_vd'
)
model.net_initialize(
    pretrain_weights='CITYSCAPES',
    save_dir=osp.join(EXP_DIR, 'pretrain'),
    resume_checkpoint=None,
    is_backbone_weights=False
)

# 使用focal loss作为损失函数
model.losses = dict(
    types=[pdrs.models.ppseg.models.FocalLoss()],
    coef=[1.0]
)

# 制定定步长学习率衰减策略
lr_scheduler = paddle.optimizer.lr.StepDecay(
    0.001,
    step_size=8000,
    gamma=0.5
)
# 构造Adam优化器
optimizer = paddle.optimizer.Adam(
    learning_rate=lr_scheduler,
    parameters=model.net.parameters()
)

In [ ]

# 执行模型训练
model.train(
    num_epochs=30,
    train_dataset=train_dataset,
    train_batch_size=16,
    eval_dataset=val_dataset,
    optimizer=optimizer,
    save_interval_epochs=3,
    # 每多少次迭代记录一次日志
    log_interval_steps=100,
    save_dir=EXP_DIR,
    # 是否使用early stopping策略，当精度不再改善时提前终止训练
    early_stop=False,
    # 是否启用VisualDL日志功能
    use_vdl=True,
    # 指定从某个检查点继续训练
    resume_checkpoint=None
)

4.3 模型测试

In [ ]

# 构建测试集
test_dataset = pdrs.datasets.SegDataset(
    data_dir=DATA_DIR,
    file_list=TEST_FILE_LIST_PATH,
    label_list=LABEL_LIST_PATH,
    transforms=eval_transforms,
    num_workers=0,
    shuffle=False
)


# 为模型加载历史最佳权重
state_dict = paddle.load(osp.join(EXP_DIR, 'best_model/model.pdparams'))
model.net.set_state_dict(state_dict)

# 执行测试
test_result = model.evaluate(test_dataset)
print(
    "测试集上指标：mIoU为{:.2f}，OAcc为{:.2f}，Kappa系数为{:.2f}".format(
        test_result['miou'], 
        test_result['oacc'],
        test_result['kappa'],
    )
)
print("各类IoU分别为："+', '.join('{:.2f}'.format(iou) for iou in test_result['category_iou']))
print("各类Acc分别为："+', '.join('{:.2f}'.format(acc) for acc in test_result['category_acc']))
print("各类F1分别为："+', '.join('{:.2f}'.format(f1) for f1 in test_result['category_F1-score']))

4.4 预测结果可视化

In [16]

# 预测结果可视化
# 重复运行本单元可以查看不同结果

def show_images_in_row(ims, fig, title='', lut=None):
    n = len(ims)
    fig.suptitle(title)
    axs = fig.subplots(nrows=1, ncols=n)
    for idx, (im, ax) in enumerate(zip(ims, axs)):
        # 去掉刻度线和边框
        ax.spines['top'].set_visible(False)
        ax.spines['right'].set_visible(False)
        ax.spines['bottom'].set_visible(False)
        ax.spines['left'].set_visible(False)
        ax.get_xaxis().set_ticks([])
        ax.get_yaxis().set_ticks([])

        if isinstance(im, str):
            im = cv2.imread(im, cv2.IMREAD_COLOR)
        if lut is not None:
            if im.ndim == 3:
                im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
            im = lut[im]
        else:
            im = cv2.cvtColor(im, cv2.COLOR_BGR2RGB)
        ax.imshow(im)


def get_lut():
    lut = np.zeros((256,3), dtype=np.uint8)
    lut[0] = [255, 0, 0]
    lut[1] = [30, 255, 142]
    lut[2] = [60, 0, 255]
    lut[3] = [255, 222, 0]
    lut[4] = [0, 0, 0]
    return lut


# 需要展示的样本个数
num_imgs_to_show = 4
# 随机抽取样本
chosen_indices = random.choices(range(len(test_dataset)), k=num_imgs_to_show)

# 参考 https://stackoverflow.com/a/68209152
fig = plt.figure(constrained_layout=True)
fig.suptitle("Test Results")

subfigs = fig.subfigures(nrows=3, ncols=1)

# 读取输入影像并显示
im_paths = [test_dataset.file_list[idx]['image'] for idx in chosen_indices]
show_images_in_row(im_paths, subfigs[0], title='Image')

# 获取模型预测输出
with paddle.no_grad():
    model.net.eval()
    preds = []
    for idx in chosen_indices:
        input, _ = test_dataset[idx]
        input = paddle.to_tensor(input).unsqueeze(0)
        logits, *_ = model.net(input)
        pred = paddle.argmax(logits[0], axis=0)
        pred = pred.numpy().astype(np.uint8)
        preds.append(pred)
show_images_in_row(preds, subfigs[1], title='Pred', lut=get_lut())

# 读取真值标签并显示
im_paths = [test_dataset.file_list[idx]['mask'] for idx in chosen_indices]
show_images_in_row(im_paths, subfigs[2], title='GT', lut=get_lut())

# 渲染结果
fig.canvas.draw()
Image.frombytes('RGB', fig.canvas.get_width_height(), fig.canvas.tostring_rgb())

<PIL.Image.Image image mode=RGB size=640x480 at 0x7F3A583A4B10>

5 算法调优建议

由于被标记为“感兴趣地物类别”的像素仅仅占全体样本中非常小的部分，因此原始数据集存在严重的类别分布不均衡问题。如果在模型训练过程中直接忽略未标记的像素（即原始标签中值为255的像素），令这部分像素不参与loss计算与反向传播，则训练得到的模型将无法有效识别背景类。这导致在推理真实影像时，模型给影像中的每个像素分配感兴趣地物类别中的一种，而实际上输入影像中很可能根本不包含这些地物。为了解决这一问题，本项目将原始标签中值为255的像素重新设置为一种新的类别，即背景类，并强制模型学习如何区分前景与背景类。然而，这一做法导致任务变得复杂（因为背景类样本的类内差异极大，且占比极高），使模型性能下降。

综合以上分析，在算法调优过程中。可以尝试的策略包括但不限于：实施数据重采样、使用针对类别不均衡问题设计的损失函数等等。