Distributed_spider_pku_java

主要分为三个模块，一个爬虫抓取模块，一个是数据处理模块，一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论，利用集群HADOOP抓取网页，分析得出URL集，提取特征URL 3. 网页linux脚本过滤得到原始网页，然后二次过滤得到文本，并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二，得到分词器，然后对文本进行操作，得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类，然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集，并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析，并动态显示WIKI信息，调入显示模块中和用户进行交换

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
.idea		.idea
.settings		.settings
Java大作业		Java大作业
src		src
.classpath		.classpath
.gitignore		.gitignore
.project		.project
README.md		README.md

Provide feedback