ADD file via upload
| 第四届计图挑战赛赛题一
人工智能的快速进展中,视觉语言模型已经成为计算机视觉领域的重要技术。这些模型在多任务处理上表现出色,显示出广泛的应用潜力。但是,在数据标注成本高昂的情况下,面对特定领域的挑战时,它们的表现还需提升。因此,如何在少量数据的支持下提高模型在特定领域的表现,已成为当下研究的热点问题。同时,使用少量数据增强多个领域上的表现,更具有挑战性。
因此,本赛题要求参赛者使用极少的多领域训练样本,探索在大模型时代下模型训练的创新策略,实现对多领域数据组成的测试集准确地分类。
比赛数据集由以下四个子数据集构成(Tsinghua-Dog数据集,Caltech-101数据集,Food-101数据集,动物分类自建数据集),共374个类别。对于每个类别,选手可以从训练集中挑出任意4张图片训练自己的模型,当训练结束后,对测试集的每张图片进行分类,输出每张图片的Top5分类。
| 介绍基本的硬件需求、运行环境、依赖安装方法
执行以下命令安装 依赖坏境
pip install jittor pip install ftfy regex tqdm python setup.py develop
import jittor as jt import jclip as clip from PIL import Image jt.flags.use_cuda = 1 model, preprocess = clip.load("ViT-B-32.pkl") image = preprocess(Image.open("CLIP.png")).unsqueeze(0) text = clip.tokenize(["a diagram", "a dog", "a cat"]) with jt.no_grad(): logits_per_image, logits_per_text = model(image, text) probs = logits_per_image.softmax(dim=-1).numpy() print("Label probs:", probs) # prints: [[0.9927937 0.00421068 0.00299572]]
TrainSet.zip: https://cloud.tsinghua.edu.cn/f/7c44b138a6344f4b8fd1/?dl=1 classname.txt: https://cloud.tsinghua.edu.cn/f/418b311c5ae8484f8208/?dl=1 train.txt: https://cloud.tsinghua.edu.cn/f/212edd1e7b3b44f5b301/?dl=1
下载地址:https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt
在Pycharm中直接运行程序训练
| 对参考的论文、开源库予以致谢 部分代码参考了https://github.com/uyzhang/JCLIP。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
| 第四届计图挑战赛赛题一
Jittor赛题一开放域少样本视觉分类赛题
简介
人工智能的快速进展中,视觉语言模型已经成为计算机视觉领域的重要技术。这些模型在多任务处理上表现出色,显示出广泛的应用潜力。但是,在数据标注成本高昂的情况下,面对特定领域的挑战时,它们的表现还需提升。因此,如何在少量数据的支持下提高模型在特定领域的表现,已成为当下研究的热点问题。同时,使用少量数据增强多个领域上的表现,更具有挑战性。
因此,本赛题要求参赛者使用极少的多领域训练样本,探索在大模型时代下模型训练的创新策略,实现对多领域数据组成的测试集准确地分类。
赛题内容
比赛数据集由以下四个子数据集构成(Tsinghua-Dog数据集,Caltech-101数据集,Food-101数据集,动物分类自建数据集),共374个类别。对于每个类别,选手可以从训练集中挑出任意4张图片训练自己的模型,当训练结束后,对测试集的每张图片进行分类,输出每张图片的Top5分类。
安装
| 介绍基本的硬件需求、运行环境、依赖安装方法
运行环境
安装依赖
执行以下命令安装 依赖坏境
demo
训练集下载
TrainSet.zip: https://cloud.tsinghua.edu.cn/f/7c44b138a6344f4b8fd1/?dl=1 classname.txt: https://cloud.tsinghua.edu.cn/f/418b311c5ae8484f8208/?dl=1 train.txt: https://cloud.tsinghua.edu.cn/f/212edd1e7b3b44f5b301/?dl=1
预训练模型
下载地址:https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt
训练
在Pycharm中直接运行程序训练
致谢
| 对参考的论文、开源库予以致谢 部分代码参考了https://github.com/uyzhang/JCLIP。