博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫大作业-爬取B站弹幕
阅读量:5143 次
发布时间:2019-06-13

本文共 1797 字,大约阅读时间需要 5 分钟。

1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

https://www.bilibili.com/video/av22224421

 

2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

3.对爬了的数据进行文本分析,生成词云。

import  requestsimport jiebaimport pandasimport matplotlib.pyplot as pltfrom wordcloud import WordCloud ,ImageColorGeneratorfrom bs4 import BeautifulSoupdef jieba_cut(sentence):    seg = jieba.cut(sentence)    segList = []    for i in seg:        segList.append((i))    return segListif __name__=='__main__':     str=''     url='http://comment.bilibili.com/36773399.xml'     page=requests.get(url)     page.encoding='utf-8'     soup=BeautifulSoup(page.text,"html.parser")     content=soup.find_all('d')     for i in content:        str=str+i.text     with open('bilibili.txt','w',encoding='utf-8') as f:        f.write(str)              dict={}         with open ('bilibili.txt','r',encoding='utf-8') as f:        words=jieba_cut(f.read())        wordslist=set(words)        for word in wordslist:            dict[word]=words.count(word)        mask = plt.imread(r'H:\129\wallhaven-627476.jpg')        text=' '.join(words)        wc = WordCloud(            width=1000,            height=800,            margin=2,            background_color='white',  # 设置背景颜色            font_path='C:\Windows\Fonts\STZHONGS.TTF',  # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字            max_words=1000,  # 设置最大现实的字数            max_font_size=400,  # 设置字体最大值            random_state=50,  # 设置有多少种随机生成状态,即有多少种配色方案            mask=mask,        )        mycloud = wc.generate(text)        image_colors = ImageColorGenerator(mask)        wc.recolor(color_func=image_colors)        wc.to_file('cloudword.jpg')

 

4.对文本分析结果进行解释说明。

 

5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

 找到视频网站,查找网页源码,找出cid,打开弹幕文件XML,开始爬取弹幕存入文本中。在词频统计时出现一点小问题,用字典统计。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

 

 

转载于:https://www.cnblogs.com/129lai/p/8921280.html

你可能感兴趣的文章
文件的暂存(git add)
查看>>
时间即效率,从高效办公到中华上下五千年
查看>>
新开始
查看>>
ccp4 functions
查看>>
[SQL Server] Excel文件导入SQL Server数据库表
查看>>
Windows10实用技巧-固定快捷方式到磁贴菜单方式
查看>>
mime.go
查看>>
微信公众平台接口配置问题
查看>>
SQL查询记录添加序号(HANA)
查看>>
正则表达式
查看>>
canvas svg webgl threejs d3js 的区别
查看>>
现代编译原理--第三章(抽象语法树以及源码)
查看>>
pygame 笔记-2 模仿超级玛丽的弹跳
查看>>
条款04:确定对象在使用前已经被初始化
查看>>
web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?...
查看>>
spring boot 遇到 supported setting property http://xml.org/sax/properties/lexical-handler
查看>>
java inputstream to string stack overflow
查看>>
Java使用RabbitMQ之消息确认(confirm模板)
查看>>
蓝牙(Profile)构成
查看>>
PAT (Advanced Level) Practise:1002. A+B for Polynomials
查看>>