Skip to content

【n8n教程】reddit月榜、周榜top榜单帖子爬取工作流(1)

Image您好,我是Hellos AI,擅长AI编程、分享AI工具资讯等,立志让更多普通人了解AI、学会AI,利用AI找到人生的第二曲线。

对于出海的朋友来说,有一个痛点就是,我该如何来快速获取用户真实的痛点呢?

而前面我说的我要快速刷积分的reddit就是这么一个网站,上面各种不同板块的成员都在上面吐槽、抱怨、牢骚等等,他们分不在这些细小的板块中,而这些抱怨,特别是长久的抱怨等等,这些就都是用户的痛点。

那么问题来了,我该如何快速获取这些信息呢?

这里就用得上我刚搭建的reddit top榜单爬取工作流了!

下面,我将详细介绍一下我搭建的这个n8n工作流,把实现过程和思路分享给大家!

0****1****思路

其实打开reddit的像日榜、周榜、月榜都能看到这些帖子的列表的,但是我们不可能手工来操作和复制这些帖子吧?所以,这里就需要有一个工具来完成这种工作!

01设计思路

我需要对大量我感兴趣的板块进行配置,然后获取这些板块的日榜、周榜、月榜帖子列表。

把这些帖子、评论、点赞等等保存起来后,我还需要能够导出,接着发送给AI,AI能够对这些东西进行分析,并给我一个最终的结果!

02问题

官方API:最简单的办法当然是调用reddit的API了,但是问题是现在reddit收紧了API的审批(或者说个人开发者申请不到了),所以,那又该怎么样来获取呢?

方法1:通过.rss订阅来获取,嗯,这是一个不错的方法,但是我测试过,里面只有帖子标题、评论等等,这可是没有点赞数、评论数量、浏览量的哦,那这有啥用呢?只能废弃!

方法2:通过.json来获取,也是一个办法,但是现在reddit对于这个也收紧了,它需要你的cookie等数据,那还有一个问题就是:如果reddit判定你违反了他们的规章制度,把账号禁了,那不就凉了?

那还有没有办法呢?

答案是有的,这里我可以介绍一种办法,可以解决这个问题,并且对自己账号安全无忧!

03解决方案

这个解决方案当然还是——github了,这可真是一个宝库,上面啥都有,这种reddit的问题当然也是小儿科了!

解决方案就是:https://github.com/redlib-org/redlib

这是一个啥项目呢?

它是一个第三方的开源项目,它的目的是方便用户免登录直接可以访问reddit上面的各种帖子、榜单。

打开这个项目的readme.md,里面有记录这个开源项目的一些活跃的实例状态,如:

图片

图片

打开上面任意一个比较绿色的网址,然后访问如:

图片

这个页面跟reddit官网还是有点像的,但是这个不是重点,重点是里面的接口、帖子、评论跟官网是否大体保持同步,这才是关键!

通过人工核验,我发现上面的数据和官网是存在一定的延迟的,不过这些痛点、抱怨、吐槽等等经过时间考验,如果它还能列在榜单上或者前列,它们都是通过了考验,实实在在的真实用户体验和需求!这但延迟算不得什么!

02****写在最后

既然对于reddit帖子的爬取,我已经找到替代品,那么后面就是我该如何来设计这个工作流,欢迎朋友们等待我下一篇文章!

另欢迎大家来我的个人博客网站https://hellosai.cc/逛逛!关注杰哥不迷路,每天给你分享不一样的实用好工具。

免责声明:本公众号分享的内容以及软件等来自互联网,仅供大家学习交流,同时请遵守你当地的法律法规,否则造成的一切后果自负,与本公众号无关。如有侵权联删!部分知识难免有时效性,若内容过期失效,请见谅,感谢!

***喜欢这篇干货?如果觉得不错,请帮我一键三连,转发给您的朋友,都是对我最大的鼓励与认可。如果想第一时间收到推送,可以把我的公众号加个星标🌟方便后面我们一起探讨AI或有意思的东西,还能够快速找到我!我们明天见!END图 | 来源网络侵删欢迎点赞,在看,转发给我鼓励~👇👇关注我👇👇👇👇扫码加入粉丝群领取福利👇👇

杰哥的技术小站