Python采集C站热榜数据实战示例

时间:2023-05-06 05:56:59     来源:脚本之家

目录
前言功能实现解析数据保存数据总结

前言

大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。


(相关资料图)

功能实现

我们话不多说,我们先找到url,也就是请求地址。我们代码如下:

url = "https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type=" 
headers = {  
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}  
res = requests.get(url, headers=headers)

我们这里首先定义了一个url变量,它表示要访问的 URL。然后,它定义了一个headers变量,其中包含了一些 HTTP 请求头信息,如User-Agent表示 HTTP 请求的 User-Agent。最后,它使用requests.get()函数发送 HTTP GET 请求,并将headers变量作为参数传递给该函数。

解析数据

我们获取到了内容,接下来就是解析数据,我们不难发现这个是一个json数据,我们直接取值就好了,我们来看看代码怎么写。

datas = res.json()["data"]   
for data in datas:    
    period = data["period"]  
    nickName = data["nickName"]  
    articleTitle = data["articleTitle"]  
    articleDetailUrl = data["articleDetailUrl"]  
    viewCount = data["viewCount"]  
    commentCount = data["commentCount"]  
    favorCount = data["favorCount"]  
    hotRankScore = data["hotRankScore"]
    print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)

我们将从res.json()中获取data数据,并将其存储在datas变量中。res.json()返回的是一个包含多个字典的对象,每个字典代表一个数据。

在这个例子中,res.json()返回的字典中的data字段的值为[{"period": "1", "nickName": "", "articleTitle": "", "articleDetailUrl": "", "viewCount": "", "commentCount": "", "favorCount": "", "hotRankScore": "0.08536632385314886", "avatarUrl": "null", "viewCount": "0", "favorCount": "0", "commentCount": "0", "hotRankScore": "0.08536633735229816"}],我们使用这个数据来遍历datas变量中的每个字典。

在每个字典中,我们使用data字段的值来获取期数、昵称、标题、详细URL、访问次数、评论次数、喜欢次数、热门排名分数。

保存数据

now_time =time.strftime("%Y-%m-%d-%H-%M",time.localtime(time.time()))  
f = open(f"{now_time}热榜数据.csv", mode="a", encoding="utf-8", newline="")  
csv_writer = csv.DictWriter(f, fieldnames=["日期", "姓名", "文章标题", "文章链接", "浏览量",  
"评论量", "收藏量", "热榜值"])  
csv_writer.writeheader()

我们首先打开一个名为data.csv的文件,并指定使用a模式打开文件。然后,使用csv.DictWriter()函数创建一个 CSV 写入器,并指定要写入的列名。在这个例子中,我们指定了fieldnames参数,它包含了我们要写入的列名。

接下来,我们使用csv_writer.writeheader()方法写入列名。这个方法会将列名写入文件的第一行。

最后,我们使用csv_writer.writerow()方法写入数据。

我们先写入字典。

dit = {"日期": period, "姓名": nickName, "文章标题": articleTitle, "文章链接": articleDetailUrl, "浏览量": viewCount,  
"评论量": commentCount, "收藏量": favorCount, "热榜值": hotRankScore}  
print(dit)  
csv_writer.writerow(dit)

这段代码创建了一个字典dit,其中包含了每个元素的值。然后,它使用csv_writer.writerow()方法将字典写入CSV文件中。

总结

以上就是Python采集C站热榜数据实战示例的详细内容,更多关于Python采集C站热榜数据的资料请关注脚本之家其它相关文章!

标签:

最新文章推荐

X 关闭

X 关闭