目录
Infrarelisxr2个月前7次提交
目录README.md

SearchEngine

南开大学 2024 秋信息检索系统原理课程设计。 项目结构如下:

SearchEngine
|__app--项目运行主文件
|   |__static
|   |     |__snapshots--存储网页快照
|   |__templates--前端
|   |     |__search.html--搜索页面
|   |     |__results.html--搜索结果页面
|   |__app.py--入口文件(执行即可启动搜索引擎)
|   |__search.py--搜索等功能主函数
|   |__Suggest.py--根据搜索历史进行推荐
|   |__search_history.csv--保存搜索历史
|__main--构建倒排索引、计算PageRank和TF-IDF等
|   |__buildIndex.py--构建倒排索引
|   |__inverted_index.csv--倒排索引列表
|   |__PageRank.py--计算PageRank
|   |__pagerank_results.csv--URL-PageRank
|   |__id-pagerank.csv--ID-PageRank
|   |__TF-IDF.py--计算TF-IDF
|   |__tfidf_results.csv--TF-IDF计算结果
|__PreWork
    |__deleteStopwords.py--去除停用词
    |__final.csv--分词后进行格式对齐后的最终csv文件
    |__GetDescription.py--获取每个网页的description
    |__Original.csv--包含标题和链接的原始csv文件
    |__output.csv--包含文档id、标题、链接和description的csv文件
    |__scu_stopwords.txt--停用词库
    |__worm.py--爬取标题和链接
    |__segment.py--进行分词

运行方法:

python app.py
关于
205.5 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号