aaose

环境安装

创建环境的时候指明python=3.8.5

进入虚拟环境，然后：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

数据获取

通过github官方提供的search api接口对GitHub数据库中的仓库文件进行查找
通过requests库对api进行爬取，爬虫脚本放在 data/github_spider.py 中：
```
python github_spider.py
```
运行上述脚本后，会在当前目录生成如下三个文件：
- fetched_results_{DATE}.json ——获取的原始数据
- github_data_repos_{DATE}.csv ——处理过的表格形式的数据文件
- github_data_repos_{DATE}.parquet ——对上述csv文件进行格式转化得到的文件，便于后续数据处理
  数据说明

数据包括在2022年12月15日到16日之间于Github上收集的人工智能领域仓库的信息。收集方式是选定一些人工智能相关的关键词在Github上作为话题进行搜索，如果一个仓库的标签中带有搜索的话题词，则搜索结果会返回这个仓库，之后对搜索结果中收藏（star）数大于等于3千的仓库信息进行收集。查询使用的关键词包括：

artificial-intelligence
data-science
data-analysis
data-visualization
deep-learning
machine-learing
natural-language-processing
computer-vision

字段说明：

repo_id：自定义的仓库ID
owner：仓库的所有者
repo_name：仓库名称
desc：仓库的简要描述
tags：仓库的标签，一个仓库可以有多个标签
main_language：仓库的主要编程语言
update_date：仓库内容最近更新的日期
is_study：是否为学习类仓库
stars：仓库的收藏(star)数量，单位为千个
related_repos：自己的仓库名字有多少其他仓库将其作为Tag，体现仓库在生态中的地位

aaose

环境安装

数据获取

数据说明