文档更新
1、修改transformFormat函数中的for循环体中的i = 39 for (int i = 39; i < valueString.length(); i++) { ………. } 2、添加函数cleanData清洗数据,其中使用了几个正规式进行过滤 3、添加函数getKeyByDivisio将得到的种子关键字相关文件分词。使用的Jieba分词的SEARCH模式
从分词结果统计关键字频率,从而得到中介关键字,中介关键字是按照频率的大小依次选出的。并且计算了中介关键字的权重。
divCompareKey()思路:基于搜索记录清洗文件,寻找每个中介词的搜索记录并输出到中介词文件中,利用输出的中介词文件进行分词,词频统计。
getCompareKey()思路:依据中介词频统计文件,筛除掉单个字符、与中介关键词相同或种子 关键词相同的字符。最后从剩余的词中选择中介词对应的竞争性关键词
competitive()思路:根据竞争性测度构建的相应概率模型,通过求取中介关键词在总搜索记录出现的频次a,竞争性关键词在中介关键词分词文件中与a共同出现的频次ak,种子关键次在中介关键词分词文件中与中介关键词一同出现的频次as。最后由ak/(a-as)求得竞争性关键词竞争度ans。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
更新内容
一、修改DataPreprocess.java
1、修改transformFormat函数中的for循环体中的i = 39
for (int i = 39; i < valueString.length(); i++) {
……….
}
2、添加函数cleanData清洗数据,其中使用了几个正规式进行过滤
3、添加函数getKeyByDivisio将得到的种子关键字相关文件分词。使用的Jieba分词的SEARCH模式
二、增加MainClass.java
从分词结果统计关键字频率,从而得到中介关键字,中介关键字是按照频率的大小依次选出的。并且计算了中介关键字的权重。
三、MainClass.java与竞争性关键词相关方法思想
divCompareKey()思路:基于搜索记录清洗文件,寻找每个中介词的搜索记录并输出到中介词文件中,利用输出的中介词文件进行分词,词频统计。
getCompareKey()思路:依据中介词频统计文件,筛除掉单个字符、与中介关键词相同或种子 关键词相同的字符。最后从剩余的词中选择中介词对应的竞争性关键词
competitive()思路:根据竞争性测度构建的相应概率模型,通过求取中介关键词在总搜索记录出现的频次a,竞争性关键词在中介关键词分词文件中与a共同出现的频次ak,种子关键次在中介关键词分词文件中与中介关键词一同出现的频次as。最后由ak/(a-as)求得竞争性关键词竞争度ans。