<h1> 本数据集是什么? </h1> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是将知识分享社区<span>StackOverflow</span>和协同开发社区<span>GitHub</span>中用户关联起来的跨社区数据集。 </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> </p> <h1> 本数据集为什么? </h1> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 研究人员在进行<span>GitHub</span>或<span>StackOverflow</span>相关数据分析时,可能会涉及到用户的跨社区行为。我们根据<span>StackOverflow</span>中用户的<span>email hash</span>信息和<span>GitHub</span>中用户的<span>email</span>信息将两社区中用户关联起来,进而辅助开源的跨社区研究。 </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> </p> <h1> 本数据集有什么? </h1> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 利用<span>StackExchange 2012</span>年<span>8</span>月公开数据集和<span>GHTorrent 2016</span>年<span>3</span>月公开数据集,得到关联用户表(采用<span><a href="http://www.cs.waikato.ac.nz/ml/weka/arff.html">ARFF语法</a></span>): </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> <strong>@RELATION stackoverflow_github_users % 关联用户表</strong> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> @ATTRIBUTE stackoverflow_user_id % StackOverflow社区中对应用户<span>id</span> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> @ATTRIBUTE github_user_id % GitHub社区中对应用户<span>id</span> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> @ATTRIBUTE email % 用户的<span>email</span>信息<span></span> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> @ATTRIBUTE emailHash % email加密后的结果<span></span> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> </p> <h1> 特别声明 </h1> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 此数据集目前只采用了注册邮箱匹配的方法,并且过滤掉了已经删除的用户或是虚假用户。同时,此数据集的其他扩展方法正在研究中,并且会在相关工作得到工业界认可后对外公布。敬请谅解和期待。 </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 如需使用该数据集,请引用文章: </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> <span style="font-family:Arial;font-size:13px;background-color:#FFFFFF;">Zhang X, Wang T, Yin G, et al. DevRec: A Developer Recommendation System for Open Source Repositories[M]// Mastering Scale and Complexity in Software Reuse. 2017.</span> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> </p> <h1> 联系我们 </h1> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 如有其它问题请在数据发布平台进行沟通,我们会及时响应,谢谢! </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> 数据发布平台链接:<a href="https://www.trustie.net/projects/2457">https://www.trustie.net/projects/2457</a> </p> <p class="MsoNormal" align="left" style="text-indent:0cm;"> <span>本数据集直接下载地址: </span><a href="https://www.trustie.net/attachments/download/159868/GitHub_StackOverflow关联用户数据集.zip" target="_blank"><span>GitHub StackOverflow</span><span>关联用户数据集</span></a> </p>
TywbvBsfo