每日干货好文分享丨请点击+关注 对R语言感兴趣的加微信fridayBIfly,邀请你进入R语言学习群。
今天我们就一起来利用简单的R函数做一些爬虫工作,当做是为一些爬虫爱好者提供一些思路。假如想爬取天善社区现在的在线课程数据,查看你感兴趣课程的相关信息(授课老师、课时数、价格、销量)等等。接下来,让我们一步步完成以上的需求。
先看看天善社区的视频首页地址:
https://edu.hellobi.com/course/explore?page=1
首页截图如下:
在网页上点击鼠标右键,选择查看网页源代码,查看当前页面的HTML源码:
假如各位看官不懂得爬虫技术,只要懂得运用readLines函数和简单的正则表达式就能完成简单的爬虫工作。
首先我们先利用readLines函数将网页的html信息爬取到R中。
查看读取后的结果:
可见,已经把HTML的源码爬到R中,接下来,我们一步步提取需要的数据。
先提取课程名称
现在提取课程数信息
学习人数、授课老师、课程售价的信息根据以上方式提取出来,代码如下:
可见,第一页的课程信息全部被爬下来了(备注,第十个课程无授课老师,直接跳过)。
我们发现,天善一共有7页视频,现在利用爬虫全部爬取下来,总结网页地址:
https://edu.hellobi.com/course/explore?page=1
https://edu.hellobi.com/course/explore?page=2
……
爬取全部网页数据的完整代码如下:
其实,R做爬虫也有很多功能强大的包,例如quantmod包、XML包、RCrul包、rvest包。善用这些包,可以实现复杂的爬虫工作,并大大简化代码量。最后,我们利用rvest包对以上的爬虫重做一遍,这边直接给出爬虫代码。
结果如下:
可见,天善线上一共有107套视频。我们想查看一下谢佳标老师现在在线的视频有哪些,中需要在serach窗口输入老师名字即可。
说明:
本文作者为天善智能签约讲师谢佳标,此文允许转载,转载时需请完整保留以下内容,违者必究。
原文来自天善智能社区:
www.hellobi.com
原文地址:
https://ask.hellobi.com/blog/xiejiabiao/5402
友情提示:
天善智能是国内最大的商业智能BI、数据分析、大数据领域社区,欢迎大家登陆天善学院有更多免费行业专家数据库,商业智能BI,数据分析,大数据,数据挖掘视频和干货好文分享。
Friday BI Fly:每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴。我们的口号是“Friday BI Fly 周五BI飞起来”。 Friday BI Fly 微信直播活动目前已举办30期,往期分享内容包括:【金融行业、零售行业、旅游行业、大数据挖掘、大数据落地、数据分析师、数据治理、大数据征信、风控管理、Python实战、用户画像、数据治理、数据架构、R语言等】。
本周分享主题:2016年11月4日晚8点半微信直播交流游戏行业数据仓库存储模型第38场,参加每周五的微信直播分享活动,请加微信:fridaybifly(备注:公司+行业+姓名)。
更多内容欢迎登陆:https://www.hellobi.com/ 。