目录
目录README.md

OSS_organization_entropy

开源项目组织性度量,通过对GitHub等平台的开源项目数据进行统计分析,度量项目的组织性以及合作过程模型的差异。

项目简介

本工作的主要目的在于通过对开源软件平台上大型项目的issue timeline进行过程挖掘,发现不同项目间过程模型的差别以及造成差别的原因。首先使用一阶马尔可夫模型对挖掘到的模型进行抽象,然后使用层次聚类算法对issue抽象数据进行聚类,最后对抽象得到的聚类模型总结具体的过程模型并且给出一个全新的度量指标:组织性的度量。 最后,比较模型效率和组织性之间的相关性;以及比较不同的过程模型的差异,找出造成模型效率差别的关键环节和原因。

技术内容

本项目主要按照以下的顺序和步骤对项目进行研究:

  1. data_generator.py:从数据库中获取数据并存储
  2. issue_preprocess.py:数据预处理,去除不合理数据
  3. issue_clustering.py:层次聚类获得一阶马尔可夫过程模型
  4. analysis.py:对获取的聚类结果进行统计分析,以及可视化结果输出存储
  5. global_setttings.py:参数配置文件

统计结果和挖掘模型

  1. 统计结果 分析issue cluster的组织性度量值和其对应的效率之间的相关性,可以获得 如下的分布关系图: 相关性分析图 可以看出,组织性和项目效率之间呈现明显的负相关性,组织性越大,效率越低。
  2. 挖掘模型 通过对高效模型和低效模型的总结和抽取,最终绘制了以下的总结图片 高效模型和低效模型对比图 相较于低效的项目,高效项目核心开发者的参与比例更高,同时涉及的事件种类数量也更少。
关于

开源项目组织性度量

653.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号