目录
目录readme.md

更新内容

一、修改DataPreprocess.java

1、修改transformFormat函数中的for循环体中的i = 39
for (int i = 39; i < valueString.length(); i++) {
……….
}
2、添加函数cleanData清洗数据,其中使用了几个正规式进行过滤
3、添加函数getKeyByDivisio将得到的种子关键字相关文件分词。使用的Jieba分词的SEARCH模式

二、增加MainClass.java

从分词结果统计关键字频率,从而得到中介关键字,中介关键字是按照频率的大小依次选出的。并且计算了中介关键字的权重。

三、MainClass.java与竞争性关键词相关方法思想

  1. divCompareKey()思路:基于搜索记录清洗文件,寻找每个中介词的搜索记录并输出到中介词文件中,利用输出的中介词文件进行分词,词频统计。

  2. getCompareKey()思路:依据中介词频统计文件,筛除掉单个字符、与中介关键词相同或种子 关键词相同的字符。最后从剩余的词中选择中介词对应的竞争性关键词

  3. competitive()思路:根据竞争性测度构建的相应概率模型,通过求取中介关键词在总搜索记录出现的频次a,竞争性关键词在中介关键词分词文件中与a共同出现的频次ak,种子关键次在中介关键词分词文件中与中介关键词一同出现的频次as。最后由ak/(a-as)求得竞争性关键词竞争度ans。

邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号