delete_snapshots_htmls
南开大学 2024 秋信息检索系统原理课程设计。 项目结构如下:
SearchEngine |__app--项目运行主文件 | |__static | | |__snapshots--存储网页快照 | |__templates--前端 | | |__search.html--搜索页面 | | |__results.html--搜索结果页面 | |__app.py--入口文件(执行即可启动搜索引擎) | |__search.py--搜索等功能主函数 | |__Suggest.py--根据搜索历史进行推荐 | |__search_history.csv--保存搜索历史 |__main--构建倒排索引、计算PageRank和TF-IDF等 | |__buildIndex.py--构建倒排索引 | |__inverted_index.csv--倒排索引列表 | |__PageRank.py--计算PageRank | |__pagerank_results.csv--URL-PageRank | |__id-pagerank.csv--ID-PageRank | |__TF-IDF.py--计算TF-IDF | |__tfidf_results.csv--TF-IDF计算结果 |__PreWork |__deleteStopwords.py--去除停用词 |__final.csv--分词后进行格式对齐后的最终csv文件 |__GetDescription.py--获取每个网页的description |__Original.csv--包含标题和链接的原始csv文件 |__output.csv--包含文档id、标题、链接和description的csv文件 |__scu_stopwords.txt--停用词库 |__worm.py--爬取标题和链接 |__segment.py--进行分词
运行方法:
python app.py
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
SearchEngine
南开大学 2024 秋信息检索系统原理课程设计。 项目结构如下:
运行方法: