数据分析+预测环节–进行了两部分的预测,一部分为对修改文件类型的预测,还有一部分为对最近2年提交次数最多的作者最有可能改动什么文件名字,使用了LSTM模型,进行训练,但训练结果准确度只有0.6,不太行
选择一个社区开源仓库(需求:目前仍然在活跃提交,提交次数超过1万次,贡献者超过1千人的仓库)
进行从github仓库上的数据提取与分析:
数据分析可视化
整合出仓库数据分析报告
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去 完成了数据收集与预处理, 包含了文件修改记录的csv保存在cleaned_commit_datas中 只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
File_CodeModelAnalysis.py
特征提取
分类预测:预测改动文件类型
构建ARIMA模型,预测未来一段时间(30天)内开发趋势
GithubRepo
选择一个社区开源仓库(需求:目前仍然在活跃提交,提交次数超过1万次,贡献者超过1千人的仓库)
进行从github仓库上的数据提取与分析:
数据分析可视化
整合出仓库数据分析报告
第一步 数据收集与预处理
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去 完成了数据收集与预处理, 包含了文件修改记录的csv保存在cleaned_commit_datas中 只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
第二步 数据分析
File_CodeModelAnalysis.py
文件级分析
代码级分析
开发者行为分析
行为预测
特征工程
特征提取
模式训练与预测
分类预测:预测改动文件类型
未来行为趋势分析
构建ARIMA模型,预测未来一段时间(30天)内开发趋势