第十四届中国大学生服务外包创新创业大赛百度赛道-智慧医疗赛题baselin

AI Studio

1814人浏览 · 2022-12-15 12:55:05

AI Studio · 2022-12-15 12:55:05 发布

第十四届中国大学生服务外包创新创业大赛百度赛道-智慧医疗赛题baseline 2

比赛介绍

中国大学生服务外包创新创业大赛是中国高等教育学会全国普通高校学科竞赛排行榜内竞赛，本届赛事，百度飞桨设立了“基于百度飞桨的3D 医疗数据解析平台”的赛道，参赛获奖有助于保研加分。

赛题背景

腹部多器官分割一直是医学图像分析领域最活跃的研究领域之一，其作为一项基础技术，在支持疾病诊断，治疗规划等计算机辅助技术发挥着重要作用。近年来，基于深度学习的方法在该领域中获得了巨大成功，却也暴露出了一个迫切问题: 当前社区缺乏一个大规模、多样性、且符合真正临床场景的综合基准数据集来开发/评估对应的算法。虽然目前已有几个腹部器官分割数据集，它们的标注器官和标注例子数目却相对有限，仍然限制了现代深度模型的力量，也难以对提出的不同方法进行全面和公平的评估。

为了解决上述问题，进一步促进医疗图像分割技术的发展，深圳市大数据研究院、香港中文大学（深圳）、香港大学、中山大学等机构联合深圳市龙岗区人民医院、深圳市龙岗中心医院提出了多模态腹部分割数据集（AMOS），一个大规模，多样性的，收集自真实临床场景下的腹部多器官分割基准数据。

本次竞赛抽取AMOS2022数据集中的部分数据作为训练和评测数据。
注意：本比赛只允许使用提供的数据集。

任务说明

参赛者利用提供的训练数据，实现对腹部多器官图像的器官分割。

数据集介绍

多器官数据集共有15个器官的标注，包括脾脏、右肾、左肾、胆囊、食道、肝、胃、主动脉、下腔静脉、胰腺、右肾上腺、左肾上腺、十二指肠、膀胱、前列腺/子宫。本数据集共包含160个训练数据，40个测试数据。

PaddleSeg介绍

PaddleSeg是基于飞桨PaddlePaddle的端到端图像分割套件，内置45+模型算法及140+预训练模型，支持配置化驱动和API调用开发方式，打通数据标注、模型开发、训练、压缩、部署的全流程，提供语义分割、交互式分割、Matting、全景分割四大分割能力，助力算法在医疗、工业、遥感、娱乐等场景落地应用。

本baseline使用PaddleSeg的MedicaSeg开发，github地址：https://github.com/PaddlePaddle/PaddleSeg

老爷们，动动发财的小手，点点star为我们助力，您的支持就是我们的动力～～

nnunet高精度模型-训练-推理-提交全流程

上一篇baseline使用vnet模型，使用的与处理策略非常简单，预测精度很低，本baseline使用nnunet 的cascade lowres模型，nnunet包含大量的trick，能够获得很高的精度。

本baseline仅包含部分使用内容，完整的nnunet使用方案请参考：
nnunet教程： https://aistudio.baidu.com/aistudio/projectdetail/4884907?contributionType=1

# step 1: 克隆PaddleSeg仓库
%cd ~/
!git clone https://github.com/PaddlePaddle/PaddleSeg.git
%cd ~/PaddleSeg
!git checkout develop    # develop分支目前支持nnformer,transunet,swinunet等多个算法，欢迎体验

# step2: 解压数据到~/PaddleSeg/contrib/MedicalSeg/data/raw_data
!mkdir ~/PaddleSeg/contrib/MedicalSeg/data
!unzip -oq ~/data/data179474/base_train.zip -d ~/PaddleSeg/contrib/MedicalSeg/data/raw_data

# step 3: 删除原本的数据集压缩包，节约内存
!rm -rf ~/data/data179474/base_train.zip

# 删除掉数据集中一个没用的文件夹，否则会报错
!rm -rf ~/PaddleSeg/contrib/MedicalSeg/data/raw_data/.ipynb_checkpoints

# step 4: 安装依赖包
%cd ~/PaddleSeg/contrib/MedicalSeg/
!pip install -r requirements.txt
!pip install medpy

# step 5: nnunet cascade lowres训练，混合精度训练快一些，五折训练，这里使用fold 2，一共有0,1,2,3,4共五个fold。
# 在训练之前，会先对数据进行预处理，如果觉得耗时过久怀疑出错，可以看一下PaddleSeg/contrib/Medicalseg/data目录里面是否有decathlon、preprocessed、cropped 3个文件夹
# 没有这3个文件夹请耐心等待。

# 为什么会报错json文件缺失？
# 预处理的过程不可中断，如果中断可能导致部分文件丢失，可以把decathlon、preprocessed、cropped报错的文件夹删除，重新生成即可。

# 什么是交叉训练？
# 假设有100条数据，使用五折交叉验证训练。可以把数据集分为 ｜20｜20｜20｜20｜20｜，每次训练的时候，把其中一个作为验证集，其他作为训练集，这样可以得到5个模型，他们的验证集不重复。

%cd ~/PaddleSeg/contrib/MedicalSeg/
!python train.py --config ~/configs/nnunet_fold2.yml \
        --log_iters 20 --precision fp16 --nnunet --save_dir output/cascade_lowres/fold2 --save_interval 2000 --use_vdl

# 为了防止内存溢出，请替换cascade预测下一阶段的部分代码
!mv ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/cascade_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/cascade_utils_backup.py 
!cp ~/cascade_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/

# step 6: fold2的数据集划分验证一下精度，运行一下，生成下个命令需要用的json，如果不使用后处理策略可以不运行
# 有的数据很大，可能导致内存溢出，可以切换A100环境预测下一阶段
# 可以除去--predict_next_stage参数，不预测该数据的下一阶段

# predict_next_stage的作用是什么？
# cascade unet分为2阶段，第一阶段会把分辨率降低进行训练，增强模型的感受野。第二阶段会把第一阶段的模型预测结果和原始数据一起作为输入，所以训练low resolution模型后，
# 需要预测下一阶段的输入数据。

# 交叉验证和二阶段训练结合为什么这么难懂？
# 一阶段交叉训练：｜20｜20｜20｜20｜20｜
# 二阶段交叉训练：｜20（concat（原始数据，一阶段预测的结果））｜20（concat（原始数据，一阶段预测的结果））｜20（concat（原始数据，一阶段预测的结果））｜20（concat（原始数据，一阶段预测的结果））｜20（concat（原始数据，一阶段预测的结果））｜
# 为了训练第二阶段，需要使用五个模型预测整个数据集，这样二阶段才能训练。
%cd ~/PaddleSeg/contrib/MedicalSeg/
!python nnunet/single_fold_eval.py --config ~/configs/nnunet_fold2.yml \
        --model_path output/cascade_lowres/fold2/iter_2000/model.pdparams --val_save_folder output/cascade_lowres_val \
        --precision fp16 --predict_next_stage

## 可选步骤：先运行step 7，如果提示内存溢出则运行此命令，替代原本的推理代码
!mv ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/predict_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/predict_utils_old.py 
!cp ~/predict_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/

# step 7: 推理

# 为什么要用json文件？
# nnunet采用了后处理策略对预测结果进行修正，但是后处理策略是否一定会涨点呢？对每个类别，对比使用了后处理和不使用后处理策略的精度，这样就可以决定每个类别是否使用后处理策略。
# 需要后处理涨点的类别存放在json中，这是json的作用。

# 是否一定要该折对应的json？
# 不是，json只是决定某个类别是否使用后处理，即使使用其他折的json，也可以预测，但是后处理的类别可能会错误，这个时候后处理的预测结果不可靠。

# 不希望使用后处理策略怎么办？
# 命令中加上--disable_postprocessing即可

%cd ~/PaddleSeg/contrib/MedicalSeg/
!python nnunet/predict.py --image_folder data/decathlon/imagesTs \
    --output_folder ~/submit \
    --plan_path data/preprocessed/nnUNetPlansv2.1_plans_3D.pkl \
    --model_paths output/cascade_lowres/fold2/iter_30000/model.pdparams \
    --postprocessing_json_path output/cascade_lowres_val/postprocessing.json --model_type cascade_lowres

# step 8: 打包提交，生成submit.zip,在/home/aistudio目录下
!zip -j ~/submit.zip ~/submit/*.nii.gz

nnunet高精度模型推理-提交全流程

使用提供的权重，快速进行推理提交

# step 1: 克隆PaddleSeg仓库--已有请忽略
%cd ~/
!git clone https://github.com/PaddlePaddle/PaddleSeg.git
%cd ~/PaddleSeg
!git checkout develop    # develop分支目前支持nnformer,transunet,swinunet等多个算法，欢迎体验

# step2: 解压数据到~/PaddleSeg/contrib/MedicalSeg/data/raw_data  ---  如果已经运行过数据预处理，请忽略。~/PaddleSeg/contrib/MedicalSeg/data这个目录下是否有decalthon和preprocess这2个文件夹
!mkdir ~/PaddleSeg/contrib/MedicalSeg/data
!unzip -oq ~/data/data179474/base_train.zip -d ~/PaddleSeg/contrib/MedicalSeg/data/raw_data

# step 3: 删除原本的数据集压缩包，节约内存
!rm -rf ~/data/data179474/base_train.zip

# 删除掉数据集中一个没用的文件夹，否则会报错
!rm -rf ~/PaddleSeg/contrib/MedicalSeg/data/raw_data/.ipynb_checkpoints

# step 4: 安装依赖包 --- 已安装请忽略
%cd ~/PaddleSeg/contrib/MedicalSeg/
!pip install -r requirements.txt
!pip install medpy

# step 5: fold2的数据集验证一下精度，这里的目的是触发数据预处理，不然step 6没法推理，如果PaddleSeg/contrib/MedicalSeg/data/decathlon文件夹存在，可以跳过
%cd ~/PaddleSeg/contrib/MedicalSeg/
!python nnunet/single_fold_eval.py --config ~/configs/nnunet_fold2.yml \
        --model_path ~/baseline_model/model.pdparams --val_save_folder output/cascade_lowres_val \
        --precision fp16

## 可选步骤：先运行step 6，如果提示内存溢出则运行此命令，替代原本的推理代码
!mv ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/predict_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/predict_utils_old.py 
!cp ~/predict_utils.py ~/PaddleSeg/contrib/MedicalSeg/nnunet/utils/

# step 6: 使用提供的权重推理，nnunet默认使用tta策略，速度比较慢
%cd ~/PaddleSeg/contrib/MedicalSeg/
!python nnunet/predict.py --image_folder data/decathlon/imagesTs \
    --output_folder ~/submit \
    --plan_path data/preprocessed/nnUNetPlansv2.1_plans_3D.pkl \
    --model_paths ~/baseline_model/model.pdparams \
    --postprocessing_json_path ~/baseline_model/postprocessing.json --model_type cascade_lowres \
    --num_threads_preprocessing 1 --num_threads_nifti_save 1 --precision fp16

# step 7: 打包提交，生成submit.zip,在/home/aistudio目录下
!zip -j ~/submit.zip ~/submit/*.nii.gz

上分策略

本baseline只提供了nnunet cascade lowres的单折模型，并未使用多折模型ensemble以及多模型间ensemble，选手可以自行尝试。

此文章为搬运
原项目链接

百度飞桨AI Studio社区

学大模型，用大模型上飞桨星河社区！每天8点V100G算力免费领！免费领取ERNIE 4.0 100w Token >>>

更多推荐

利用Amazon Bedrock畅玩Claude 3等多种领先模型，抢占AI高地(体验倒计时4小时)

百度飞桨星河社区

RAPTOR：索引树状 RAG，使用树结构来捕捉文本的高级和低级细节

百度飞桨星河社区

MultiHop-RAG：多跳查询的基准检索增强生成

百度飞桨星河社区

所有评论(0)

查看更多评论

AI Studio

@m0_63642362

已为社区贡献1436条内容

第十四届中国大学生服务外包创新创业大赛百度赛道-智慧医疗赛题baselin

AI Studio

第十四届中国大学生服务外包创新创业大赛百度赛道-智慧医疗赛题baseline 2

比赛介绍

赛题背景

任务说明

数据集介绍

PaddleSeg介绍

nnunet高精度模型-训练-推理-提交全流程

nnunet高精度模型 推理-提交全流程

上分策略

所有评论(0)

AI Studio

nnunet高精度模型推理-提交全流程