roytseng-tw
diff --git a/‎configs/gn_baselines/e2e_mask_rcnn_R-101-FPN_2x_gn.yaml
+49 b/‎configs/gn_baselines/e2e_mask_rcnn_R-101-FPN_2x_gn.yaml
+49
diff --git a/‎configs/gn_baselines/e2e_mask_rcnn_R-101-FPN_3x_gn.yaml
+49 b/‎configs/gn_baselines/e2e_mask_rcnn_R-101-FPN_3x_gn.yaml
+49
diff --git a/‎configs/gn_baselines/e2e_mask_rcnn_R-50-FPN_2x_gn.yaml
+49 b/‎configs/gn_baselines/e2e_mask_rcnn_R-50-FPN_2x_gn.yaml
+49
diff --git a/‎configs/gn_baselines/e2e_mask_rcnn_R-50-FPN_3x_gn.yaml
+49 b/‎configs/gn_baselines/e2e_mask_rcnn_R-50-FPN_3x_gn.yaml
+49
diff --git a/‎configs/gn_baselines/scratch_e2e_mask_rcnn_R-101-FPN_3x_gn.yaml
+49 b/‎configs/gn_baselines/scratch_e2e_mask_rcnn_R-101-FPN_3x_gn.yaml
+49
diff --git a/‎configs/gn_baselines/scratch_e2e_mask_rcnn_R-50-FPN_3x_gn.yaml
+49 b/‎configs/gn_baselines/scratch_e2e_mask_rcnn_R-50-FPN_3x_gn.yaml
+49
diff --git a/‎lib/core/config.py
+28 b/‎lib/core/config.py
+28
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet101_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 180000
+  STEPS: [0, 120000, 160000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+IMAGENET_PRETRAINED_WEIGHTS: 'data/pretrained_model/R-101-GN.pkl'
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet101_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 270000
+  STEPS: [0, 210000, 250000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+  IMAGENET_PRETRAINED_WEIGHTS: 'data/pretrained_model/R-101-GN.pkl'
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet50_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 180000
+  STEPS: [0, 120000, 160000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+  IMAGENET_PRETRAINED_WEIGHTS: 'data/pretrained_model/R-50-GN.pkl'
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet50_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 270000
+  STEPS: [0, 210000, 250000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+  IMAGENET_PRETRAINED_WEIGHTS: 'data/pretrained_model/R-50-GN.pkl'
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet101_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+  LOAD_IMAGENET_PRETRAINED_WEIGHTS: False
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 270000
+  STEPS: [0, 210000, 250000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -0,0 +1,49 @@
+MODEL:
+  TYPE: generalized_rcnn
+  CONV_BODY: FPN.fpn_ResNet50_conv5_body
+  FASTER_RCNN: True
+  MASK_ON: True
+  LOAD_IMAGENET_PRETRAINED_WEIGHTS: False
+NUM_GPUS: 8
+SOLVER:
+  WEIGHT_DECAY: 0.0001
+  LR_POLICY: steps_with_decay
+  BASE_LR: 0.02
+  GAMMA: 0.1
+  MAX_ITER: 270000
+  STEPS: [0, 210000, 250000]
+FPN:
+  FPN_ON: True
+  MULTILEVEL_ROIS: True
+  MULTILEVEL_RPN: True
+  USE_GN: True  # Note: use GN on the FPN-specific layers
+RESNETS:
+  STRIDE_1X1: False  # default True for MSRA; False for C2 or Torch models
+  TRANS_FUNC: bottleneck_gn_transformation  # Note: this is a GN bottleneck transform
+  STEM_FUNC: basic_gn_stem  # Note: this is a GN stem
+  SHORTCUT_FUNC: basic_gn_shortcut  # Note: this is a GN shortcut
+  USE_GN: True
+FAST_RCNN:
+  ROI_BOX_HEAD: fast_rcnn_heads.roi_Xconv1fc_gn_head  # Note: this is a Conv GN head
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 7
+  ROI_XFORM_SAMPLING_RATIO: 2
+MRCNN:
+  ROI_MASK_HEAD: mask_rcnn_heads.mask_rcnn_fcn_head_v1up4convs_gn  # Note: this is a GN mask head
+  RESOLUTION: 28  # (output mask resolution) default 14
+  ROI_XFORM_METHOD: RoIAlign
+  ROI_XFORM_RESOLUTION: 14  # default 7
+  ROI_XFORM_SAMPLING_RATIO: 2  # default 0
+  DILATION: 1  # default 2
+  CONV_INIT: MSRAFill  # default GaussianFill
+TRAIN:
+  SCALES: (800,)
+  MAX_SIZE: 1333
+  BATCH_SIZE_PER_IM: 512
+  RPN_PRE_NMS_TOP_N: 2000  # Per FPN level
+TEST:
+  SCALE: 800
+  MAX_SIZE: 1333
+  NMS: 0.5
+  RPN_PRE_NMS_TOP_N: 1000  # Per FPN level
+  RPN_POST_NMS_TOP_N: 1000
@@ -579,6 +579,8 @@
 
 # L2 regularization hyperparameter
 __C.SOLVER.WEIGHT_DECAY = 0.0005
+# L2 regularization hyperparameter for GroupNorm's parameters
+__C.SOLVER.WEIGHT_DECAY_GN = 0.0
 
 # Whether to double the learning rate for bias
 __C.SOLVER.BIAS_DOUBLE_LR = True
@@ -621,6 +623,11 @@
 # Hidden layer dimension when using an MLP for the RoI box head
 __C.FAST_RCNN.MLP_HEAD_DIM = 1024
 
+# Hidden Conv layer dimension when using Convs for the RoI box head
+__C.FAST_RCNN.CONV_HEAD_DIM = 256
+# Number of stacked Conv layers in the RoI box head
+__C.FAST_RCNN.NUM_STACKED_CONVS = 4
+
 # RoI transformation function (e.g., RoIPool or RoIAlign)
 # (RoIPoolF is the same as RoIPool; ignore the trailing 'F')
 __C.FAST_RCNN.ROI_XFORM_METHOD = 'RoIPoolF'
@@ -716,6 +723,8 @@
 __C.FPN.RPN_COLLECT_SCALE = 1
 # Use extra FPN levels, as done in the RetinaNet paper
 __C.FPN.EXTRA_CONV_LEVELS = False
+# Use GroupNorm in the FPN-specific layers (lateral, etc.)
+__C.FPN.USE_GN = False
 
 
 # ---------------------------------------------------------------------------- #
@@ -873,6 +882,10 @@
 
 # Residual transformation function
 __C.RESNETS.TRANS_FUNC = 'bottleneck_transformation'
+# ResNet's stem function (conv1 and pool1)
+__C.RESNETS.STEM_FUNC = 'basic_bn_stem'
+# ResNet's shortcut function
+__C.RESNETS.SHORTCUT_FUNC = 'basic_bn_shortcut'
 
 # Apply dilation in stage "res5"
 __C.RESNETS.RES5_DILATION = 1
@@ -887,6 +900,21 @@
 # Otherwise, treat as a relative path to __C.ROOT_DIR
 __C.RESNETS.IMAGENET_PRETRAINED_WEIGHTS = ''
 
+# Use GroupNorm instead of BatchNorm
+__C.RESNETS.USE_GN = False
+
+
+# ---------------------------------------------------------------------------- #
+# GroupNorm options
+# ---------------------------------------------------------------------------- #
+__C.GROUP_NORM = AttrDict()
+# Number of dimensions per group in GroupNorm (-1 if using NUM_GROUPS)
+__C.GROUP_NORM.DIM_PER_GP = -1
+# Number of groups in GroupNorm (-1 if using DIM_PER_GP)
+__C.GROUP_NORM.NUM_GROUPS = 32
+# GroupNorm's small constant in the denominator
+__C.GROUP_NORM.EPSILON = 1e-5
+
 
 # ---------------------------------------------------------------------------- #
 # MISC options