这是飞桨论文复现挑战赛(第五期)中《XCiT: Cross-Covariance Image Transformers》的冠军代码,GitHub地址为https://github.com/BrilliantYuKaimin/XCiT-PaddlePaddle。官方的PyTorch实现在https://github.com/facebookresearch/xcit



  • xcit_nano_12_p8_224_dist.pdparams是使用飞桨重新训练出的权重,它在ImageNet1k测试集上的准确率为77.28%,超过了官方结果76.3%。
  • regnety_160.pdparams是用于知识蒸馏的教师模型权重,由对应的PyTorch权重转换而来。





对于一个形状为 N × d N\times d N×d 的输入 X \bm X X,其中 N N N表示序列长度,通过三个不同的线性变换我们可以得到三个矩阵
Q = X W q ,   K = X W k ,   V = X W v , \bm Q=\bm X\bm W_{\mathrm q},\ \bm K=\bm X\bm W_{\mathrm k},\ \bm V=\bm X\bm W_{\mathrm v}, Q=XWq, K=XWk, V=XWv,
它们仍是 N × d N\times d N×d 的。原始的注意力机制计算的是
s o f t m a x   ( Q K T / d 1 / 2 ) V , \mathrm{softmax}\,\left(\bm Q\bm K^{\mathrm T}/d^{1/2}\right)\bm V, softmax(QKT/d1/2)V,
V s o f t m a x   ( K T Q / τ ) , \bm V \mathrm{softmax}\,\left(\bm K^{\mathrm T}\bm Q/\tau\right), Vsoftmax(KTQ/τ),
其中 τ \tau τ 是一个与 d 1 / 2 d^{1/2} d1/2 的地位类似的超参数。两者之间的一个显著区别是,计算 Q K T \bm Q\bm K^{\mathrm T} QKT 需要 N 2 d N^2d N2d 次乘法,而计算 K T Q \bm K^{\mathrm T}\bm Q KTQ 需要 N d 2 Nd^2 Nd2 次乘法。由此可见,协方差注意力机制的复杂度关于序列的长度是线性的。

K T Q = W k T X T X W q , \bm K^{\mathrm T}\bm Q=\bm W_{\mathrm k}^{\mathrm T}\bm X^{\mathrm T}\bm X\bm W_{\mathrm q}, KTQ=WkTXTXWq,
而其中 X T X \bm X^{\mathrm T}\bm X XTX 就是 X \bm X X 的行向量的(未归一化的)协方差矩阵。这也是协方差注意力机制名字的由来。



!tar -xf data/data114241/Light_ILSVRC2012_part_0.tar --directory data/
!rm -rf data/data114241/
!tar -xf data/data114746/Light_ILSVRC2012_part_1.tar --directory data/
!rm -rf data/data114746/
!mv data/Light_ILSVRC2012/ data/ILSVRC2012
!cd data/ILSVRC2012/val && bash ~/valprep.sh
# 知识蒸馏
!python PASSL/tools/train.py -c PASSL/configs/xcit/xcit_nano_12_p8_224_dist.yaml
!python PASSL/tools/train.py -c PASSL/configs/xcit/xcit_nano_12_p8_224.yaml \
                             --load xcit_nano_12_p8_224_dist.pdparams \
[03/01 19:47:20] passl INFO: Configs: {'epochs': 400, 'output_dir': 'outputs', 'seed': 0, 'device': 'gpu', 'model': {'name': 'SwinWrapper', 'architecture': {'name': 'XCiT', 'patch_size': 8, 'embed_dim': 128, 'depth': 12, 'num_heads': 4, 'eta': 1.0, 'tokens_norm': False}, 'head': {'name': 'SwinTransformerClsHead', 'in_channels': 128, 'num_classes': 1000}}, 'dataloader': {'train': {'loader': {'num_workers': 8, 'use_shared_memory': True}, 'sampler': {'batch_size': 128, 'shuffle': True, 'drop_last': True}, 'dataset': {'name': 'ImageNet', 'dataroot': 'data/ILSVRC2012/train/', 'return_label': True, 'transforms': [{'name': 'RandomResizedCrop', 'size': 224, 'scale': [0.08, 1.0], 'interpolation': 'bicubic'}, {'name': 'RandomHorizontalFlip'}, {'name': 'AutoAugment', 'config_str': 'rand-m9-mstd0.5-inc1', 'interpolation': 'bicubic', 'img_size': 224}, {'name': 'Transpose'}, {'name': 'Normalize', 'mean': [123.675, 116.28, 103.53], 'std': [58.395, 57.12, 57.375]}, {'name': 'RandomErasing', 'prob': 0.25, 'mode': 'pixel', 'max_count': 1}], 'batch_transforms': [{'name': 'Mixup', 'mixup_alpha': 0.8, 'prob': 1.0, 'switch_prob': 0.5, 'mode': 'batch', 'cutmix_alpha': 1.0}]}}, 'val': {'loader': {'num_workers': 8, 'use_shared_memory': True}, 'sampler': {'batch_size': 128, 'shuffle': False, 'drop_last': False}, 'dataset': {'name': 'ImageNet', 'dataroot': 'data/ILSVRC2012/val', 'return_label': True, 'transforms': [{'name': 'Resize', 'size': 224, 'interpolation': 'bicubic'}, {'name': 'CenterCrop', 'size': 224}, {'name': 'Transpose'}, {'name': 'Normalize', 'mean': [123.675, 116.28, 103.53], 'std': [58.395, 57.12, 57.375]}]}}}, 'lr_scheduler': {'name': 'LinearWarmup', 'learning_rate': {'name': 'CosineAnnealingDecay', 'learning_rate': 0.0005, 'T_max': 400, 'eta_min': 1e-05}, 'warmup_steps': 5, 'start_lr': 1e-06, 'end_lr': 0.0005}, 'optimizer': {'name': 'AdamW', 'beta1': 0.9, 'beta2': 0.999, 'weight_decay': 0.05, 'exclude_from_weight_decay': ['temperature', 'pos_embed', 'cls_token', 'dist_token']}, 'log_config': {'name': 'LogHook', 'interval': 10}, 'checkpoint': {'name': 'CheckpointHook', 'by_epoch': True, 'interval': 1, 'max_keep_ckpts': 50}, 'custom_config': [{'name': 'EvaluateHook'}], 'is_train': False, 'timestamp': '-2022-03-01-19-47'}
[03/01 19:47:20] passl.engine.trainer INFO: train with paddle 2.2.2 on CUDAPlace(0) device
W0301 19:47:20.903514 23036 device_context.cc:447] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W0301 19:47:20.908339 23036 device_context.cc:465] device: 0, cuDNN Version: 7.6.
[03/01 19:47:25] passl.engine.trainer INFO: Number of Parameters is 3.05M.
[03/01 19:47:30] passl.engine.trainer INFO: start evaluate on epoch 1 ..
[03/01 19:47:30] passl.engine.trainer INFO: Evaluate total samples 50000
100%|█████████████████████████████████████████| 391/391 [02:41<00:00,  2.43it/s]
[03/01 19:50:11] passl.engine.trainer INFO: Validate Epoch [1] acc1 (77.276), acc5 (93.248)

