ChatGPT-Powered Hierarchical Comparisons for Image Classification

doi:10.48550/arXiv.2311.00206

ChatGPT-Powered Hierarchical Comparisons for Image Classification

The zero-shot open-vocabulary challenge in image classification is tackled by pretrained vision-language models like CLIP, which benefit from incorporating class-specific knowledge from large language models (LLMs) like ChatGPT. However, biases in CLIP lead to similar descriptions for distinct but related classes, prompting our novel image classification framework via hierarchical comparisons: using LLMs to recursively group classes into hierarchies and classifying images by comparing image-text embeddings at each hierarchy level, resulting in an intuitive, effective, and explainable approach.

Publication:

arXiv e-prints

Pub Date:

October 2023

DOI:

10.48550/arXiv.2311.00206

arXiv:

arXiv:2311.00206

Bibcode:

2023arXiv231100206R

Keywords:

Computer Science - Computer Vision and Pattern Recognition;
Computer Science - Artificial Intelligence

E-Print:

Neurips 2023 Poster

NASA/ADS

ChatGPT-Powered Hierarchical Comparisons for Image Classification

Abstract