| 第四届计图挑战赛赛题一

Jittor赛题一开放域少样本视觉分类赛题

简介

人工智能的快速进展中，视觉语言模型已经成为计算机视觉领域的重要技术。这些模型在多任务处理上表现出色，显示出广泛的应用潜力。但是，在数据标注成本高昂的情况下，面对特定领域的挑战时，它们的表现还需提升。因此，如何在少量数据的支持下提高模型在特定领域的表现，已成为当下研究的热点问题。同时，使用少量数据增强多个领域上的表现，更具有挑战性。

因此，本赛题要求参赛者使用极少的多领域训练样本，探索在大模型时代下模型训练的创新策略，实现对多领域数据组成的测试集准确地分类。

赛题内容

比赛数据集由以下四个子数据集构成（Tsinghua-Dog数据集，Caltech-101数据集，Food-101数据集，动物分类自建数据集），共374个类别。对于每个类别，选手可以从训练集中挑出任意4张图片训练自己的模型，当训练结束后，对测试集的每张图片进行分类，输出每张图片的Top5分类。

安装

| 介绍基本的硬件需求、运行环境、依赖安装方法

运行环境

ubuntu 20.04 LTS
python >= 3.7
jittor >= 1.3.0

安装依赖

执行以下命令安装依赖坏境

pip install jittor
pip install ftfy regex tqdm
python setup.py develop

demo

import jittor as jt
import jclip as clip
from PIL import Image
jt.flags.use_cuda = 1
model, preprocess = clip.load("ViT-B-32.pkl")
image = preprocess(Image.open("CLIP.png")).unsqueeze(0)
text = clip.tokenize(["a diagram", "a dog", "a cat"])
with jt.no_grad():
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).numpy()
print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]

训练集下载

TrainSet.zip: https://cloud.tsinghua.edu.cn/f/7c44b138a6344f4b8fd1/?dl=1 classname.txt: https://cloud.tsinghua.edu.cn/f/418b311c5ae8484f8208/?dl=1 train.txt: https://cloud.tsinghua.edu.cn/f/212edd1e7b3b44f5b301/?dl=1

预训练模型

下载地址：https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt

训练

在Pycharm中直接运行程序训练

致谢

| 对参考的论文、开源库予以致谢部分代码参考了https://github.com/uyzhang/JCLIP。