Skip to content

abuduorui/Bilibili-blackroom

Repository files navigation

B站小黑屋是一种异步加载的网页结构,打开网页不会显示所有内容,当向下滚动时,会再加载新内容

B站网址:https://www.bilibili.com/blackroom/ban

##################################################################################

整体思路就是分为两步:

(1)完全加载页面

(2)爬取内容

##################################################################################

经过观察,每个黑评的xpath有规律可循

/html/body/div[3]/div/div/div/div[2]/div[2]/div[1]/div[1]/a[2]

/html/body/div[3]/div/div/div/div[2]/div[2]/div[2]/div[1]/a[2]

/html/body/div[3]/div/div/div/div[2]/div[2]/div[3]/div[1]/a[2]

由上到下依次是:第一列第一行数据,第二列第一行数据,第三列第一行数据

每次加载最多4行(大约)

其中,针对恶意投稿和弹幕的处理结果格式不一样,需要特别处理

V1.0 不处理数据,仅爬取,格式混乱,需要后期处理(目前,滚动30次没问题)

V2.0 尝试处理数据(目前,滚动30次没问题)

#################################################################################

需要将webdriver驱动放置在Anaconda3\Scripts文件夹下,webdriver本程序用了geckodriver

About

B站小黑屋评论爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published