最近刷完了leetcode的两百多道算法题,由于自己在提交代码的时候在代码中有很多的注释,用来说明算法的解答思路,所以想要得到accepted问题的提交代码,方便自己日后可以查看,于是想到了将leetcode中自己已经accepted的算法代码给爬取下来。看了leetcode的算法问题主页面,决定根据主页面中的tag标签来爬去数据,顺便根据标签将算法问题分类。分析了每个tag下的问题链接列表以及每个问题所对应的submission detail链接后,就开始编写程序进行爬取。程序的爬取流程如下:
首先爬取算法主页面的tag信息,得到leetcode目前所有算法的标签,每一个标签表示为一个文件夹,文件夹里可以用来存储该标签所对应的算法题的提交代码。
接下来遍历所有的标签文件夹,根据leetcode中的链接得到每个标签下的所有问题的submission detail链接,链接信息存在对应标签文件夹里面的questionurl.txt文件里面。
最后根据questionurl.txt文件里面的问题提交代码链接,获取所提交的代码。
至此得到自己所提交的accepted算法代码。
爬虫代码可以在leetcode accepted 算法提交代码爬取程序获取