智慧农业赛题——牛只图像分割竞赛
使用PaddleX套件,Mask RCNN模型,对牛只COCO标注数据进行训练,实现牛只图像分割,对后续牛只体型、健康等评价提供参考。
转载AI Studio项目链接https://aistudio.baidu.com/aistudio/projectdetail/3467172
一、智慧农业赛题——牛只图像分割竞赛
比赛地址:https://www.dcic-china.com/competitions/10021
参考geoyee大佬: https://aistudio.baidu.com/aistudio/projectdetail/3452878
1.赛题简介
赛题名称: 牛只图像分割竞赛
出题单位: 深圳喜为智慧科技有限公司
赛题背景: 牛只图像分割是智慧畜牧中的重要一环,既实现牛只的智能个体识别,还能掌握牛在养殖过程中的生长状况。本赛题旨在用人工智能为畜牧养殖赋能,使用机器代替饲养员对牛只进行个体识别,节约人力成本,同时快速获取牛只的体格信息数据,作为后续牛只体型评价、健康评价等的重要参考依据。
赛题任务: 本赛题以牛只实例分割图像数据作为训练样本,参赛选手需基于训练样本构建模型,对提供的测试集中的牛只图像进行实例分割检测。任务方法不局限于实例分割等方案,训练数据集不局限于提供的数据,可以加入公开的数据集。
2.数据简介
- 此次比赛分为A榜和B榜两个评测集,以及提供200张带标注信息的训练数据,每张训练数据都是包含一个场景下多只牛的图像,并对当前场景中的牛只进行了标注;
- A. A榜提供的测试集:100张标注图像;
- B. B榜提供的测试集:100张标注图像;
3.数据说明
本次比赛标注文件中的类别为1类,为牛只,标注的文件格式为json格式,内容格式参照coco数据集标注格式。一个数据集对应一个图片文件夹一个json文件,json文件格式和A榜B榜json文件格式相同,内容格式具体如下:
1、“image”图片描述信息,包含多张图片的id与图片类型、名称信息。
“image”:[
{“id”: int,#图片id编号
“_id”: str,#图片_id编号
“file_name”: str,#图片路径或名称
“height”: int,#图片高度
“width”: int, #图片宽度
“type”: “jpg”#图片类型
},{…},{…}
]
2、“categories”类别描述信息,包含类别名称和类别id,该数据集仅为一类,为牛只。
“categories”: [
{
“supercategory”: “object”,#父类别
“name”: “cow”,#类别名称
“id”: 1 #类别对应id
}
]
3、“annotations”标注描述信息,包含标注对应的图片标识id,标注的坐标信息等。
“annotations”:[
{
“_id”:str,#对应图片_id编号
“id”:int,#目标标号
“image_id”:int,#对应图片id编号
“iscrowd”:int,#固定值0
“bbox”:list,#目标定位框[x,y,w,h]
“area”:float,#目标面积
“segmentation”:list,#实例分割坐标[x1,y1,x2,y2,…]
“category_id”:int#类别标识id
},{…},{…}
]
4.提交示例
参赛者通过提供的测试数据集图片得出具体的实例分割坐标,提交格式为json文本,utf-8编码,整体为一个数组格式,参考coco的实例分割的输出格式。
[{“image_id”:“images/611e27ff656be64fad34087f.png”,
“category_id”:18,“segmentation”:{“size”:[2560,1440],“counts”:“xxx”},“score”:0.236},{…},…]
二、数据处理
主要是解压缩并查看数据
!unzip -qoa data/data127515/train_dataset.zip -d train
!unzip -qoa data/data127515/test_dataset_A.zip -d test
from PIL import Image
img=Image.open('train/200/images/60ac8ef2b7f3a3763b8340af.jpg')
img
三、环境准备
建议使用PaddleX,虽然都是COCO格式的json,但是实际上PaddleDetection的COCO的格式要求更严格,而PaddleX的COCO格式相对来说没那么严格,不用再进行数据处理。
!pip install paddlex
四、数据集处理
1.数据集划分
按照 8:2划分train和eval
!mv train/200/data.json train/200/annotations.json
!paddlex --split_dataset --format COCO --dataset_dir train/200 --val_value 0.2
!ls train/200
annotations.json images train.json val.json
2.统计mean和std
# 统计mean和std
import os
import cv2
import numpy as np
from tqdm import tqdm
img_list_1440 = []
img_list_576 = []
means = np.zeros(3)
stdevs = np.zeros(3)
imgs_path = "train/200/images"
imgs_name = os.listdir(imgs_path)
for idx, name in tqdm(enumerate(imgs_name)):
if name == ".ipynb_checkpoints":
continue
img = cv2.cvtColor(cv2.imread(os.path.join(imgs_path, name)), cv2.COLOR_BGR2RGB)
img = img[:, :, :, np.newaxis]
if img.shape[0] == 1440:
img_list_1440.append(img)
else:
img_list_576.append(img)
for img_list in [img_list_1440, img_list_576]:
imgs = np.concatenate(img_list, axis=-1)
imgs = imgs.astype(np.float32) / 255.
for i in tqdm(range(3)):
pixels = imgs[:, :, i, :].ravel()
means[i] += float(np.mean(pixels))
stdevs[i] += float(np.std(pixels))
print(means / 2, stdevs / 2)
3.定义数据集
# 准备数据集
import paddlex as pdx
from paddlex import transforms as T
train_transforms = T.Compose([
T.MixupImage(mixup_epoch=-1),
T.RandomDistort(),
T.RandomExpand(im_padding_value=[123.675, 116.28, 103.53]),
T.RandomCrop(),
T.RandomHorizontalFlip(),
T.BatchRandomResize(
target_sizes=[320, 352, 384, 416, 448, 480, 512, 544, 576, 608],
interp="RANDOM"),
T.Normalize(
mean=[0.46157165, 0.46698335, 0.46580717], std=[0.28069802, 0.28096266, 0.28323689])
])
eval_transforms = T.Compose([
T.Resize(
target_size=608, interp="CUBIC"),
T.Normalize(
mean=[0.46157165, 0.46698335, 0.46580717], std=[0.28069802, 0.28096266, 0.28323689])
])
train_dataset = pdx.datasets.CocoDetection(
data_dir="train/200",
ann_file="train/200/train.json",
transforms=train_transforms,
shuffle=True)
eval_dataset = pdx.datasets.CocoDetection(
data_dir="train/200",
ann_file="train/200/val.json",
transforms=eval_transforms)
五、模型训练
使用 Mask RCNN 模型,Mask RCNN沿用了Faster RCNN的思想,特征提取采用ResNet-FPN的架构,另外多加了一个Mask预测分支。集成了物体检测和实例分割两大功能,并且在性能上上也超过了Faster-RCNN。
1.PaddleX模型
模型 | 模型大小 | 预测时间(毫秒) | BoxAP (%) | MaskAP (%) |
---|---|---|---|---|
MaskRCNN-ResNet18-FPN | 189.1MB | - | 33.6 | 30.5 |
MaskRCNN-ResNet50 | 143.9MB | 159.527 | 38.2 | 33.4 |
MaskRCNN-ResNet50-FPN | 177.7MB | 83.567 | 38.7 | 34.7 |
MaskRCNN-ResNet50_vd-FPN | 177.7MB | 97.929 | 39.8 | 35.4 |
MaskRCNN-ResNet101-FPN | 253.6MB | 97.929 | 39.5 | 35.2 |
MaskRCNN-ResNet101_vd-FPN | 253.7MB | 97.647 | 41.4 | 36.8 |
MaskRCNN-HRNet_W18-FPN | 120.7MB | - | 38.7 | 34.7 |
2.PaddleDetection模型
骨架网络 | 网络类型 | 每张GPU图片个数 | 学习率策略 | 推理时间(fps) | Box AP | Mask AP | 下载 | 配置文件 |
---|---|---|---|---|---|---|---|---|
ResNet50 | Mask | 1 | 1x | ---- | 37.4 | 32.8 | 下载链接 | 配置文件 |
ResNet50 | Mask | 1 | 2x | ---- | 39.7 | 34.5 | 下载链接 | 配置文件 |
ResNet50-FPN | Mask | 1 | 1x | ---- | 39.2 | 35.6 | 下载链接 | 配置文件 |
ResNet50-FPN | Mask | 1 | 2x | ---- | 40.5 | 36.7 | 下载链接 | 配置文件 |
ResNet50-vd-FPN | Mask | 1 | 1x | ---- | 40.3 | 36.4 | 下载链接 | 配置文件 |
ResNet50-vd-FPN | Mask | 1 | 2x | ---- | 41.4 | 37.5 | 下载链接 | 配置文件 |
ResNet101-FPN | Mask | 1 | 1x | ---- | 40.6 | 36.6 | 下载链接 | 配置文件 |
ResNet101-vd-FPN | Mask | 1 | 1x | ---- | 42.4 | 38.1 | 下载链接 | 配置文件 |
ResNeXt101-vd-FPN | Mask | 1 | 1x | ---- | 44.0 | 39.5 | 下载链接 | 配置文件 |
ResNeXt101-vd-FPN | Mask | 1 | 2x | ---- | 44.6 | 39.8 | 下载链接 | 配置文件 |
ResNet50-vd-SSLDv2-FPN | Mask | 1 | 1x | ---- | 42.0 | 38.2 | 下载链接 | 配置文件 |
ResNet50-vd-SSLDv2-FPN | Mask | 1 | 2x | ---- | 42.7 | 38.9 | 下载链接 | 配置文件 |
3.模型训练
采取ResNet50_vd作为Backbone,开始训练,训练较为耗时。
import numpy as np
import paddlex as pdx
from paddlex import transforms as T
# 初始化模型并进行训练
num_classes = len(train_dataset.labels)
model = pdx.det.MaskRCNN(
num_classes=num_classes,
backbone="ResNet50_vd")
model.train(
num_epochs=200,
train_dataset=train_dataset,
train_batch_size=20,
eval_dataset=eval_dataset,
pretrain_weights="COCO",
learning_rate=0.005 / 12,
warmup_steps=500,
warmup_start_lr=0.0,
save_interval_epochs=5,
lr_decay_epochs=[85, 135],
save_dir="output/maskrcnn_r50vd",
use_vdl=True)
4.预测并提交
# 预测
import os
import os.path as osp
import json
import numpy as np
import paddlex as pdx
from tqdm import tqdm
from pycocotools import mask as maskUtils
def binary_mask_to_rle(binary_mask):
binary_mask = np.asfortranarray(binary_mask)
rle = maskUtils.encode(binary_mask)
rle["counts"] = str(rle["counts"], encoding="utf-8")
return rle
model = pdx.load_model("output/maskrcnn_r50vd/best_model")
test_path = "test/images/"
test_name = os.listdir(test_path)
res_json = []
for name in tqdm(test_name):
path = osp.join(test_path, name)
if path.split(".")[-1] != "png":
continue
result = model.predict(path)
for res in result:
# print(res)
# print(50*'*')
res_json.append({
"image_id": osp.join("images", name),
"category_id": 1,
"segmentation": binary_mask_to_rle(res["mask"]),
"score": res["score"]
})
# pdx.det.visualize(image_name, result, threshold=0.5, save_dir="./output_picture/maskrcnn_r50vd")
with open("test.json", "w", encoding="utf-8") as f:
e_name, result, threshold=0.5, save_dir="./output_picture/maskrcnn_r50vd")
with open("test.json", "w", encoding="utf-8") as f:
json.dump(res_json, f)
经过80个epoch训练提交结果为0.2左右
更多推荐
所有评论(0)