目录
目录README.md

| 第四届计图挑战赛赛题一

Jittor赛题一开放域少样本视觉分类赛题

简介

人工智能的快速进展中,视觉语言模型已经成为计算机视觉领域的重要技术。这些模型在多任务处理上表现出色,显示出广泛的应用潜力。但是,在数据标注成本高昂的情况下,面对特定领域的挑战时,它们的表现还需提升。因此,如何在少量数据的支持下提高模型在特定领域的表现,已成为当下研究的热点问题。同时,使用少量数据增强多个领域上的表现,更具有挑战性。

因此,本赛题要求参赛者使用极少的多领域训练样本,探索在大模型时代下模型训练的创新策略,实现对多领域数据组成的测试集准确地分类。

赛题内容

比赛数据集由以下四个子数据集构成(Tsinghua-Dog数据集,Caltech-101数据集,Food-101数据集,动物分类自建数据集),共374个类别。对于每个类别,选手可以从训练集中挑出任意4张图片训练自己的模型,当训练结束后,对测试集的每张图片进行分类,输出每张图片的Top5分类。

安装

| 介绍基本的硬件需求、运行环境、依赖安装方法

运行环境

  • ubuntu 20.04 LTS
  • python >= 3.7
  • jittor >= 1.3.0

安装依赖

执行以下命令安装 依赖坏境

pip install jittor
pip install ftfy regex tqdm
python setup.py develop

demo

import jittor as jt
import jclip as clip
from PIL import Image
jt.flags.use_cuda = 1
model, preprocess = clip.load("ViT-B-32.pkl")
image = preprocess(Image.open("CLIP.png")).unsqueeze(0)
text = clip.tokenize(["a diagram", "a dog", "a cat"])
with jt.no_grad():
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).numpy()
print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]

训练集下载

TrainSet.zip: https://cloud.tsinghua.edu.cn/f/7c44b138a6344f4b8fd1/?dl=1 classname.txt: https://cloud.tsinghua.edu.cn/f/418b311c5ae8484f8208/?dl=1 train.txt: https://cloud.tsinghua.edu.cn/f/212edd1e7b3b44f5b301/?dl=1

预训练模型

下载地址:https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt

训练

在Pycharm中直接运行程序训练

致谢

| 对参考的论文、开源库予以致谢 部分代码参考了https://github.com/uyzhang/JCLIP。

关于
77.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号