B站小黑屋是一种异步加载的网页结构,打开网页不会显示所有内容,当向下滚动时,会再加载新内容
B站网址:https://www.bilibili.com/blackroom/ban
##################################################################################
整体思路就是分为两步:
(1)完全加载页面
(2)爬取内容
##################################################################################
经过观察,每个黑评的xpath有规律可循
/html/body/div[3]/div/div/div/div[2]/div[2]/div[1]/div[1]/a[2]
/html/body/div[3]/div/div/div/div[2]/div[2]/div[2]/div[1]/a[2]
/html/body/div[3]/div/div/div/div[2]/div[2]/div[3]/div[1]/a[2]
由上到下依次是:第一列第一行数据,第二列第一行数据,第三列第一行数据
每次加载最多4行(大约)
其中,针对恶意投稿和弹幕的处理结果格式不一样,需要特别处理
V1.0 不处理数据,仅爬取,格式混乱,需要后期处理(目前,滚动30次没问题)
V2.0 尝试处理数据(目前,滚动30次没问题)
#################################################################################
需要将webdriver驱动放置在Anaconda3\Scripts文件夹下,webdriver本程序用了geckodriver