萝卜投研网站有很多的股票研究报告。
如果我们在chrome浏览器中打开了很多研报,该如何批量下载呢?
查看网页源代码,研报是pdf格式,下载链接也在源代码中,很好找。
下载方法是,用Selenium来接管已经运行的Chrome浏览器,然后通过Selenium来下载。要使用Selenium,首先要去下载chrome浏览器对应的Chromedriver.exe
然后在ChatGPT中输入提示词如下:
你是一个Python编程专家,现在要完成一个下载网页PDF文件的任务。一个chrome浏览器已经打开,需要使用Selenium来已经打开的接管已经运行的Chrome,然后从chrome浏览器中tab页里面下载PDF文件。
下面是具体步骤:
设置好Chromedriver,Chromedriver.exe的文件地址是 C:\Users\dell\.cache\selenium\chromedriver\win32;
打开Selenium,接管已经运行的Chrome浏览器;
定位chrome浏览器中所有包含“https://robo.datayes.com”这样URL的tab标签页,比如:https://robo.datayes.com/v1.5/information/externalReport/5167973、
https://robo.datayes.com/v1.5/information/externalReport/5129987;
定位页面中所有href值中包括“https://bigdata-s3.wmcloud.com/researchreport”的元素,
如:href="https://bigdata-s3.wmcloud.com/researchreport/2023-03/06e9292ef4b4523b2368a077dc34205b.pdf?download=true"
提取其href值作为PDF文件下载地址;
下载PDF文件,保存到电脑d盘的名为“研报”的文件夹;
关闭chrome浏览器上的这个标签页;
先关闭当前的chrome浏览器,然后在cmd中输入指令:
chrome.exe --remote-debugging-port=9222,打开chrome的远程调试
然后,在Python编译器中运行代码,就可以看到所有研报已经下载好了。
如果要经常打开chrome的远程调试,还可以写一个简单的bat脚本,以后双击运行就可以了: