更新内容

一、修改DataPreprocess.java

1、修改transformFormat函数中的for循环体中的i = 39
for (int i = 39; i < valueString.length(); i++) {
……….
}
2、添加函数cleanData清洗数据，其中使用了几个正规式进行过滤
3、添加函数getKeyByDivisio将得到的种子关键字相关文件分词。使用的Jieba分词的SEARCH模式

二、增加MainClass.java

从分词结果统计关键字频率，从而得到中介关键字，中介关键字是按照频率的大小依次选出的。并且计算了中介关键字的权重。

三、MainClass.java与竞争性关键词相关方法思想

divCompareKey()思路：基于搜索记录清洗文件，寻找每个中介词的搜索记录并输出到中介词文件中，利用输出的中介词文件进行分词，词频统计。
getCompareKey()思路:依据中介词频统计文件，筛除掉单个字符、与中介关键词相同或种子关键词相同的字符。最后从剩余的词中选择中介词对应的竞争性关键词
competitive()思路：根据竞争性测度构建的相应概率模型，通过求取中介关键词在总搜索记录出现的频次a,竞争性关键词在中介关键词分词文件中与a共同出现的频次ak,种子关键次在中介关键词分词文件中与中介关键词一同出现的频次as。最后由ak/(a-as)求得竞争性关键词竞争度ans。