科研项目 ---> 科学研究 ---> 面向群体协同开发的软件工程关联数据挖掘  
   群体软件工程正成为云时代软件开发新模式,它利用群体开发力量和群体智能技术,快速构造规模庞大、功能复杂、技术创新的软件。然而群体协同开发面临大规模数据的挑战:几十万名开发人员、千万行代码、上千版本版次、大量的需求、设计模型、测试用例、缺陷、变更、任务、讨论记录和邮件等等,如何从这些分布异构的大规模数据中高效地知晓信息和发现知识成为难题。


   本项目将语义网引入软件工程领域,把这些多源异构数据进行细粒度语义关联,研究关联数据驱动的软件工程数据挖掘的方法和技术,主要成果包括:
   ①建立了基于本体的软件工程关联数据模型,提出了概念与实体识别、关联关系发现、本体标注和RDF生成方法,实现了大规模软件关联数据的自动构建;
   ②建立了基于关联数据的软件工程数据挖掘框架,实现了大规模关联数据的高效存储和语义查询;
   ③提出了一系列关联数据驱动的软件分析、搜索、预测与推荐的模型与算法,包括跨项目跨团队的缺陷预测、软件工作量的早期估算、面向多制品的变更影响分析、程序员自动画像、人员-任务的智能推荐、项目与代码的语义搜索。
   本项目完成了预定的研究目标,为关联数据驱动的软件工程数据挖掘贡献了一系列新方法、新技术和新算法,在TSC、FSE、ASE、ISWC、SEKE、APSEC等国际重要会议与期刊上发表了49篇学术论文,申请了4项国家发明专利,培养了13名研究生(已毕业),超过了任务书中的预期指标。
   项目组积极地和企业合作,在企业实践中验证研究成果,并进行进一步的成果转化。
   (1) 软件工程关联数据技术在中航进行了成功试用,支撑国产飞机的多团队大规模复杂软件研发,试用成果在国际航空航天著名会议DASC上发表论文;
   (2) 群体软件开发中程序员画像和项目推荐技术在中软国际解放号软件众包平台中进行了应用,已上线运行,项目签约速度提高了70%;
   (3) 早期软件规模和工作量估算方法和工具在IBM中国进行了试用,实现了敏捷估算,节省了项目估算的时间;
   (4) 所构建的大规模软件工程概念网络应用于JetBrains公司IntelliJ开发工具的研究工作。

  --以上研究得到国家自然科学基金课题的资助 2015年~2018年