r 爬虫 股吧(爬虫东方财富网股吧)

jijinwang

每日干货好文分享丨请点击+关注 对R语言感兴趣的加微信fridayBIfly,邀请你进入R语言学习群。

今天我们就一起来利用简单的R函数做一些爬虫工作,当做是为一些爬虫爱好者提供一些思路。假如想爬取天善社区现在的在线课程数据,查看你感兴趣课程的相关信息(授课老师、课时数、价格、销量)等等。接下来,让我们一步步完成以上的需求。

先看看天善社区的视频首页地址:

https://edu.hellobi.com/course/explore?page=1

首页截图如下:


在网页上点击鼠标右键,选择查看网页源代码,查看当前页面的HTML源码:


假如各位看官不懂得爬虫技术,只要懂得运用readLines函数和简单的正则表达式就能完成简单的爬虫工作。

首先我们先利用readLines函数将网页的html信息爬取到R中。


查看读取后的结果:


可见,已经把HTML的源码爬到R中,接下来,我们一步步提取需要的数据。

先提取课程名称



现在提取课程数信息



学习人数、授课老师、课程售价的信息根据以上方式提取出来,代码如下:



可见,第一页的课程信息全部被爬下来了(备注,第十个课程无授课老师,直接跳过)。

我们发现,天善一共有7页视频,现在利用爬虫全部爬取下来,总结网页地址:

https://edu.hellobi.com/course/explore?page=1

https://edu.hellobi.com/course/explore?page=2

……

爬取全部网页数据的完整代码如下:


其实,R做爬虫也有很多功能强大的包,例如quantmod包、XML包、RCrul包、rvest包。善用这些包,可以实现复杂的爬虫工作,并大大简化代码量。最后,我们利用rvest包对以上的爬虫重做一遍,这边直接给出爬虫代码。


结果如下:


可见,天善线上一共有107套视频。我们想查看一下谢佳标老师现在在线的视频有哪些,中需要在serach窗口输入老师名字即可。


说明:

本文作者为天善智能签约讲师谢佳标,此文允许转载,转载时需请完整保留以下内容,违者必究。

原文来自天善智能社区:

www.hellobi.com

原文地址:

https://ask.hellobi.com/blog/xiejiabiao/5402

友情提示:

天善智能是国内最大的商业智能BI、数据分析、大数据领域社区,欢迎大家登陆天善学院有更多免费行业专家数据库,商业智能BI,数据分析,大数据,数据挖掘视频和干货好文分享。

Friday BI Fly:每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴。我们的口号是“Friday BI Fly 周五BI飞起来”。 Friday BI Fly 微信直播活动目前已举办30期,往期分享内容包括:【金融行业、零售行业、旅游行业、大数据挖掘、大数据落地、数据分析师、数据治理、大数据征信、风控管理、Python实战、用户画像、数据治理、数据架构、R语言等】。

本周分享主题:2016年11月4日晚8点半微信直播交流游戏行业数据仓库存储模型第38场,参加每周五的微信直播分享活动,请加微信:fridaybifly(备注:公司+行业+姓名)。

更多内容欢迎登陆:https://www.hellobi.com/ 。