目录
目录README.md

aaose

环境安装

使用anaconda虚拟环境教程

  1. 创建环境的时候指明python=3.8.5
  2. 进入虚拟环境,然后:
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

    数据获取

  3. 通过github官方提供的search api接口对GitHub数据库中的仓库文件进行查找
  4. 通过requests库对api进行爬取,爬虫脚本放在 data/github_spider.py 中:
    python github_spider.py
  5. 运行上述脚本后,会在当前目录生成如下三个文件:
    • fetched_results_{DATE}.json ——获取的原始数据
    • github_data_repos_{DATE}.csv ——处理过的表格形式的数据文件
    • github_data_repos_{DATE}.parquet ——对上述csv文件进行格式转化得到的文件,便于后续数据处理

      数据说明

数据包括在2022年12月15日到16日之间于Github上收集的人工智能领域仓库的信息。收集方式是选定一些人工智能相关的关键词在Github上作为话题进行搜索,如果一个仓库的标签中带有搜索的话题词,则搜索结果会返回这个仓库,之后对搜索结果中收藏(star)数大于等于3千的仓库信息进行收集。查询使用的关键词包括:

  • artificial-intelligence
  • data-science
  • data-analysis
  • data-visualization
  • deep-learning
  • machine-learing
  • natural-language-processing
  • computer-vision

字段说明:

  • repo_id:自定义的仓库ID
  • owner:仓库的所有者
  • repo_name:仓库名称
  • desc:仓库的简要描述
  • tags:仓库的标签,一个仓库可以有多个标签
  • main_language:仓库的主要编程语言
  • update_date:仓库内容最近更新的日期
  • is_study:是否为学习类仓库
  • stars:仓库的收藏(star)数量,单位为千个
  • related_repos:自己的仓库名字有多少其他仓库将其作为Tag,体现仓库在生态中的地位
关于

Analysis of AI open source ecology based on Github repository data

4.3 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号