ADD file via upload
提供了在A榜使用的模型。
由于B榜的测试集添加了car但没有训练集。原有的效果不好,因此B榜的结果为clip微调。
clip_ft.py
train_clip_ft.py
test_clip_ft.py
使用了Cross-Modal Few-Shot Learning with Multimodal Models中的办法作为基础并进行模型修改。
在该方法中,图片和图片的描述均作为分类器的样本,但是两种样本的是否同样重要。当我们只使用图片,相比于图片+图片的描述,降了一个点;只使用图片的描述,则完全不行。因此,在B榜准备尝试,将图片和图片的描述分别计算loss,然后赋予不同权重相加。以期望通过loss对模型输入图片和图片的描述样本的重要程度。
但因car没有样本,最终未使用。
在descri_class_google.txt,我们通过使用google翻译对类别的描述进行适当的补充。对于那些常见的事物,clip模型有着较高的识别率。对于少见的事物,我们尝试提供一些有辨别力的特征描述,以提高识别率。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
环境配置
文件介绍
提供了在A榜使用的模型。
由于B榜的测试集添加了car但没有训练集。原有的效果不好,因此B榜的结果为clip微调。
clip_ft.py
train_clip_ft.py
test_clip_ft.py
思路介绍
A榜
使用了Cross-Modal Few-Shot Learning with Multimodal Models中的办法作为基础并进行模型修改。
在该方法中,图片和图片的描述均作为分类器的样本,但是两种样本的是否同样重要。当我们只使用图片,相比于图片+图片的描述,降了一个点;只使用图片的描述,则完全不行。因此,在B榜准备尝试,将图片和图片的描述分别计算loss,然后赋予不同权重相加。以期望通过loss对模型输入图片和图片的描述样本的重要程度。
但因car没有样本,最终未使用。
B榜
在descri_class_google.txt,我们通过使用google翻译对类别的描述进行适当的补充。对于那些常见的事物,clip模型有着较高的识别率。对于少见的事物,我们尝试提供一些有辨别力的特征描述,以提高识别率。