数据分析实验—代办集更新,重点关注readme最新部分
选择一个社区开源仓库(需求:目前仍然在活跃提交,提交次数超过1万次,贡献者超过1千人的仓库)
进行从github仓库上的数据提取与分析:
数据分析可视化
整合出仓库数据分析报告
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去 完成了数据收集与预处理, 包含了文件修改记录的csv保存在cleaned_commit_datas中 只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
File_CodeModelAnalysis.py
特征提取
分类预测:预测改动文件类型
构建ARIMA/LSTM模型,预测未来一段时间(30天)内开发趋势
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
GithubRepo
目前代办
初步设想
选择一个社区开源仓库(需求:目前仍然在活跃提交,提交次数超过1万次,贡献者超过1千人的仓库)
进行从github仓库上的数据提取与分析:
数据分析可视化
整合出仓库数据分析报告
第一步 数据收集与预处理
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去 完成了数据收集与预处理, 包含了文件修改记录的csv保存在cleaned_commit_datas中 只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
第二步 数据分析
File_CodeModelAnalysis.py
文件级分析
代码级分析
开发者行为分析
行为预测
特征工程
特征提取
模式训练与预测
分类预测:预测改动文件类型
未来行为趋势分析
构建ARIMA/LSTM模型,预测未来一段时间(30天)内开发趋势