tools/cfgs/waymo_models/cp-pillar/cp-pillar-v0.4_sparsekd.yaml

CLASS_NAMES: ['Vehicle', 'Pedestrian', 'Cyclist']

TEACHER_CKPT: '../output/model_zoo/cp-pillar/cp-pillar_5909.pth'
PRETRAINED_MODEL: '../output/model_zoo/cp-pillar/cp-pillar_5909.pth'


DATA_CONFIG:
    _BASE_CONFIG_: cfgs/dataset_configs/waymo_dataset.yaml

    POINT_CLOUD_RANGE: [-73.6, -73.6, -2, 73.6, 73.6, 4.0]
    DATA_PROCESSOR:
        -   NAME: mask_points_and_boxes_outside_range
            REMOVE_OUTSIDE_BOXES: True

        -   NAME: shuffle_points
            SHUFFLE_ENABLED: {
                'train': True,
                'test': True
            }

        - NAME: transform_points_to_voxels
          VOXEL_SIZE: [ 0.4, 0.4, 6.0 ]
          MAX_POINTS_PER_VOXEL: 28
          MAX_NUMBER_OF_VOXELS: {
              'train': 150000,
              'test': 150000
          }

        - NAME: transform_points_to_voxels_tea
          VOXEL_SIZE: [ 0.32, 0.32, 6.0 ]
          MAX_POINTS_PER_VOXEL: 20
          MAX_NUMBER_OF_VOXELS: {
              'train': 150000,
              'test': 150000
          }

MODEL:
    NAME: CenterPoint

    VFE:
        NAME: PillarVFE
        WITH_DISTANCE: False
        USE_ABSLOTE_XYZ: True
        USE_NORM: True
        NUM_FILTERS: [ 64, 64 ]

    MAP_TO_BEV:
        NAME: PointPillarScatter
        NUM_BEV_FEATURES: 64

    BACKBONE_2D:
        NAME: BaseBEVBackbone
        WIDTH: 1.0

        LAYER_NUMS: [ 3, 5, 5 ]
        LAYER_STRIDES: [ 1, 2, 2 ]
        NUM_FILTERS: [ 64, 128, 256 ]
        UPSAMPLE_STRIDES: [ 1, 2, 4 ]
        NUM_UPSAMPLE_FILTERS: [ 128, 128, 128 ]
        FOCUS: False
        ACT_FN: ReLU

    DENSE_HEAD:
        NAME: CenterHead
        CLASS_AGNOSTIC: False

        CLASS_NAMES_EACH_HEAD: [
            ['Vehicle', 'Pedestrian', 'Cyclist']
        ]

        SHARED_CONV_CHANNEL: 64
        USE_BIAS_BEFORE_NORM: True
        NUM_HM_CONV: 2
        SEPARATE_HEAD_CFG:
            HEAD_ORDER: ['center', 'center_z', 'dim', 'rot']
            HEAD_DICT: {
                'center': {'out_channels': 2, 'num_conv': 2},
                'center_z': {'out_channels': 1, 'num_conv': 2},
                'dim': {'out_channels': 3, 'num_conv': 2},
                'rot': {'out_channels': 2, 'num_conv': 2},
            }

        TARGET_ASSIGNER_CONFIG:
            FEATURE_MAP_STRIDE: 1
            NUM_MAX_OBJS: 500
            GAUSSIAN_OVERLAP: 0.1
            MIN_RADIUS: 2
            SHARPER: False

        LOSS_CONFIG:
            LOSS_WEIGHTS: {
                'cls_weight': 1.0,
                'loc_weight': 2.0,
                'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
            }

        POST_PROCESSING:
            SCORE_THRESH: 0.1
            POST_CENTER_LIMIT_RANGE: [-80, -80, -10.0, 80, 80, 10.0]
            MAX_OBJ_PER_SAMPLE: 500
            NMS_CONFIG:
                NMS_TYPE: nms_gpu
                NMS_THRESH: 0.7
                NMS_PRE_MAXSIZE: 4096
                NMS_POST_MAXSIZE: 500

    POST_PROCESSING:
        RECALL_THRESH_LIST: [0.3, 0.5, 0.7]

        EVAL_METRIC: waymo
        EVAL_CLASSES: {
            'LEVEL_2/AP': [ 'OBJECT_TYPE_TYPE_VEHICLE_LEVEL_2/AP',
                            'OBJECT_TYPE_TYPE_PEDESTRIAN_LEVEL_2/AP',
                            'OBJECT_TYPE_TYPE_CYCLIST_LEVEL_2/AP'
            ],
            'LEVEL_2/APH': [ 'OBJECT_TYPE_TYPE_VEHICLE_LEVEL_2/APH',
                             'OBJECT_TYPE_TYPE_PEDESTRIAN_LEVEL_2/APH',
                             'OBJECT_TYPE_TYPE_CYCLIST_LEVEL_2/APH'
            ]
        }

MODEL_TEACHER:
    NAME: CenterPoint
    IS_TEACHER: True

    VFE:
        NAME: PillarVFE
        WITH_DISTANCE: False
        USE_ABSLOTE_XYZ: True
        USE_NORM: True
        NUM_FILTERS: [ 64, 64 ]

    MAP_TO_BEV:
        NAME: PointPillarScatter
        NUM_BEV_FEATURES: 64

    BACKBONE_2D:
        NAME: BaseBEVBackbone
        LAYER_NUMS: [ 3, 5, 5 ]
        LAYER_STRIDES: [ 1, 2, 2 ]
        NUM_FILTERS: [ 64, 128, 256 ]
        UPSAMPLE_STRIDES: [ 1, 2, 4 ]
        NUM_UPSAMPLE_FILTERS: [ 128, 128, 128 ]
        FOCUS: False
        ACT_FN: ReLU

    DENSE_HEAD:
        NAME: CenterHead
        CLASS_AGNOSTIC: False

        CLASS_NAMES_EACH_HEAD: [
            ['Vehicle', 'Pedestrian', 'Cyclist']
        ]

        SHARED_CONV_CHANNEL: 64
        USE_BIAS_BEFORE_NORM: True
        NUM_HM_CONV: 2
        SEPARATE_HEAD_CFG:
            HEAD_ORDER: ['center', 'center_z', 'dim', 'rot']
            HEAD_DICT: {
                'center': {'out_channels': 2, 'num_conv': 2},
                'center_z': {'out_channels': 1, 'num_conv': 2},
                'dim': {'out_channels': 3, 'num_conv': 2},
                'rot': {'out_channels': 2, 'num_conv': 2},
            }

        TARGET_ASSIGNER_CONFIG:
            FEATURE_MAP_STRIDE: 1
            NUM_MAX_OBJS: 500
            GAUSSIAN_OVERLAP: 0.1
            MIN_RADIUS: 2
            SHARPER: False

        LOSS_CONFIG:
            LOSS_WEIGHTS: {
                'cls_weight': 1.0,
                'loc_weight': 2.0,
                'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
            }

        POST_PROCESSING:
            SCORE_THRESH: 0.1
            POST_CENTER_LIMIT_RANGE: [-80, -80, -10.0, 80, 80, 10.0]
            MAX_OBJ_PER_SAMPLE: 500
            NMS_CONFIG:
                NMS_TYPE: nms_gpu
                NMS_THRESH: 0.7
                NMS_PRE_MAXSIZE: 4096
                NMS_POST_MAXSIZE: 500

    POST_PROCESSING:
        RECALL_THRESH_LIST: [0.3, 0.5, 0.7]

        EVAL_METRIC: waymo
        EVAL_CLASSES: {
            'LEVEL_2/AP': [ 'OBJECT_TYPE_TYPE_VEHICLE_LEVEL_2/AP',
                            'OBJECT_TYPE_TYPE_PEDESTRIAN_LEVEL_2/AP',
                            'OBJECT_TYPE_TYPE_CYCLIST_LEVEL_2/AP'
            ],
            'LEVEL_2/APH': [ 'OBJECT_TYPE_TYPE_VEHICLE_LEVEL_2/APH',
                             'OBJECT_TYPE_TYPE_PEDESTRIAN_LEVEL_2/APH',
                             'OBJECT_TYPE_TYPE_CYCLIST_LEVEL_2/APH'
            ]
        }


OPTIMIZATION:
    BATCH_SIZE_PER_GPU: 2
    NUM_EPOCHS: 30

    OPTIMIZER: adam_onecycle
    LR: 0.003
    WEIGHT_DECAY: 0.01
    MOMENTUM: 0.9

    MOMS: [0.95, 0.85]
    PCT_START: 0.4
    DIV_FACTOR: 10
    DECAY_STEP_LIST: [35, 45]
    LR_DECAY: 0.1
    LR_CLIP: 0.0000001

    LR_WARMUP: False
    WARMUP_EPOCH: 1

    GRAD_NORM_CLIP: 10

    REMAP_PRETRAIN:
        ENABLED: False
        WAY: BN_SCALE
        BN_SCALE:
            ABS: True
        OFA:
            l1_norm: max


KD:
    ENABLED: True
    TEACHER_MODE: train # train or eval
    DIFF_VOXEL: True  # use different voxel size between teacher and student

    MASK:
        SCORE_MASK: False
        FG_MASK: False
        BOX_MASK: False

    LOGIT_KD:
        ENABLED: True
        # decode prediction to bounding boxes or not in logit kd
        MODE: raw_pred # [raw_pred, decoded_boxes, target]
        ALIGN: {
            MODE: interpolate,
            target: teacher,
            mode: bilinear, # nearest, linear, bilinear, bicubic, trilinear, area
            align_corners: True,
            align_channel: False
        }

    FEATURE_KD:
        ENABLED: False

        FEATURE_NAME: spatial_features_2d
        FEATURE_NAME_TEA: spatial_features_2d

        # Align feature map
        ALIGN: {
            ENABLED: False,
            MODE: interpolate,
            target: teacher,

          # interpolate params
            mode: bilinear, # nearest, linear, bilinear, bicubic, trilinear, area
            align_corners: True,
            align_channel: False,

          # conv params
            num_filters: [ 192, 384 ], # [in_channel, out_channel]
            use_norm: True,
            use_act: False,
            kernel_size: 3,
            groups: 1,
        }

        ROI_POOL:
            ENABLED: True
            GRID_SIZE: 7
            DOWNSAMPLE_RATIO: 1

            ROI: gt # ['gt', 'tea', 'stu']
            THRESH: 0.0 # for teacher prediction for student prediction

    LABEL_ASSIGN_KD:
        ENABLED: True
        SCORE_TYPE: cls
        USE_GT: True
        GT_FIRST: False # when concatenate the gt boxes and target predictions,
        # target boxes selection
        SCORE_THRESH: [ 0.6, 0.6, 0.6 ]

    NMS_CONFIG:
        ENABLED: False
        NMS_TYPE: nms_gpu
        NMS_THRESH: 0.7
        NMS_PRE_MAXSIZE: 4096
        NMS_POST_MAXSIZE: 500

KD_LOSS:
    ENABLED: True
    HM_LOSS: {
        type: MSELoss,
        weight: 7.0,
        thresh: 0.0,  # threshold for score PP Logit KD
        fg_mask: True,
        soft_mask: True,
        rank: -1,  # rank PP Logit KD, -1 means not used
    }

    REG_LOSS: {
        type: RegLossCenterNet,
        # for L1 loss only
        code_weights: [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
        weight: 0.0
    }

    FEATURE_LOSS: {
        mode: rois,
        type: MSELoss, # [SmoothL1Loss, MSELoss]
        weight: 0.1,
        # weight mask
        fg_mask: False,
        score_mask: False,
        score_thresh: 0.3
    }