Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining

Chen, Qiang; Wang, Jian; Han, Chuchu; Zhang, Shan; Li, Zexian; Chen, Xiaokang; Chen, Jiahui; Wang, Xiaodi; Han, Shuming; Zhang, Gang; Feng, Haocheng; Yao, Kun; Han, Junyu; Ding, Errui; Wang, Jingdong

Computer Science > Computer Vision and Pattern Recognition

arXiv:2211.03594 (cs)

[Submitted on 7 Nov 2022]

Title:Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining

Authors:Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

View PDF

Abstract:We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard this https URL

Comments:	Tech report, 3 pages. We establishes a new SoTA (64.5 mAP) on the COCO test-dev
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2211.03594 [cs.CV]
	(or arXiv:2211.03594v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2211.03594

Submission history

From: Qiang Chen [view email]
[v1] Mon, 7 Nov 2022 14:33:31 UTC (20 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators