首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

爬取豆瓣电影top250和爬取当当网数据

大数据 1.95KB 14 需要积分: 1
立即下载

资源介绍:

(2)编写爬虫程序,使用Urllib或Requests库获取到服务器URL的首页数据。 (3)解析数据,包含图书编号、名称、作者、出版社、出版时间、价格、简介、图书图片的URL,同时实现翻页功能爬取全部网页数据; (4)数据持久化存储:将全部解析的数据存储到 .CSV文件;将全部图书的图片存储到当前目录中“download”文件夹;将全部解析的数据存储到数据库( MySQL或MongoDB )。 编写爬虫程序,使用获取到服务器URL的首页数据。 (3)使用解析RE、BS4、XPATH数据,包含图书编号、名称、作者、出版社、出版时间、价格、简介、图书图片的URL,同时实现翻页功能爬取全部网页数据; (4)数据持久化存储:将全部解析的数据存储到 .CSV文件;将全部图书的图片存储到当前目录中“download”文件夹;将全部解析的数据存储到数据库( MySQL或MongoDB )。
from selenium.webdriver import Chrome from selenium.webdriver.common.by import By from bs4 import BeautifulSoup import os import requests import pymysql from pymysql.converters import escape_string conn = pymysql.connect( user="root", password="plmoknijbuhv123.", host="localhost", database="kaoshi", port=3306, ) cursor = conn.cursor() driver=Chrome() url="https://www.dangdang.com/" driver.get(url) input=driver.find_element(By.XPATH,'//*[@id="key_S"]') input.send_keys("Python") danji=driver.find_element(By.XPATH,'//*[@id="form_search_new"]/input[10]') danji.click() flat=True fd=open("html.csv",mode="a",encoding="utf-8") sname = 1 xuhao="%05d"%1 while flat: newurl=driver.current_url myheaders={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"} response=requests.get(url=newurl,headers=myheaders) response.encoding="GB2312" html=response.text soup=BeautifulSoup(html,'lxml') ul=soup.find("ul",class_="bigimg") lis=ul.find_all("li") if not os.path.exists("download"): os.mkdir("download") i=1 for li in lis: name=li.find("a")["title"] try: zuoze=li.find("p",class_="search_book_author").find("a")["title"] except: pass money=li.find("p",class_="price").find("span",class_="search_now_price").text riqi=li.find("p",class_="search_book_author").find_all("span")[1].text chuban=li.find("p",class_="search_book_author").find_all("span")[2].text jianjie=li.find("p",class_="detail").text if i==1: src=li.find("a").find("img")["src"] else: src=li.find("a").find("img")["data-original"] movie_src="http:"+src print(sname,name,zuoze) resp=requests.get(movie_src,myheaders) shu = "%05d" % sname with open("download/"+str(shu)+".jpg","wb") as fp: fp.write(resp.content) fd.write(str(sname)+","+name+","+zuoze+","+chuban+","+riqi+","+money+","+jianjie+"\n") sql="insert into kaoshi values (\'{}\',\'{}\',\'{}\',\'{}\',\'{}\',\'{}\');".format(escape_string(name),escape_string(zuoze),escape_string(chuban),escape_string(riqi),escape_string(money),escape_string(jianjie)) print(sql) cursor.execute(sql) conn.commit() i=i+1 sname=sname+1 try: next=driver.find_element(By.CLASS_NAME,"next").find_element(By.TAG_NAME,"a") next.click() except: flat=False fd.close() cursor.close() conn.close()

资源文件列表:

爬虫.zip 大约有2个文件
  1. 爬虫/豆瓣电影TOP250.py 1.08KB
  2. 爬虫/考试.py 2.63KB
0评论
提交 加载更多评论
其他资源 圣诞节的圣诞树,有html型、有exe型,还有使用python型
打开压缩包第一个是动态生成樱花python需要下载python,第二个是圣诞树.ext类型是使桌面生成一颗圣诞树,但是每次开机时会自动生成,如果需要关闭可以右键将startup关闭勾选,第三个是html型直接点开即可,后面两个都是python类型。
inconseg-85epoch.zip
haha
模拟EMI接收机的算法程序-颐 俞
版本 1.0.0 (3.5 MB) 作者: 颐 俞 模拟EMI接收机的算法程序 本程序用于将示波器的时域结果或者仿真的时域结果快速转化成平均值准峰值等接收机形式结果,进而与标准限值对标。测量成本低,速度快。 (0) 程序背景:时域波形仅FFT计算的频谱结果和EMI接收机测量的准峰值/平均值结果有显著不同。 本程序用于将示波器的时域结果或者仿真的时域结果快速转化成平均值准峰值等接收机形式结果,进而与标准限值对标。测量成本低,速度快。 本程序的核心优势:得益于简化加速,算法处理10M个时域波形点的QP检测时间仅需15秒(硬件设备为英特尔CPU i5 10400) 可参照论文:Y. Yu, X. Pei, Q. Chen, P. Zhou and D. Zhao, "A Fast Method for Predicting the Quasi-Peak Radiated EMI Spectrum of Power Converters," 2023 IEEE Energ
GooFlow JS 简化改造版
GooFlow 一个基于 Jquery/FontAwesome 的流程图/架构图画图插件,本资源是基于JS的一个版本,改造了 GooFlow JS 程序,简化了绘制工具栏和 操作工具栏引用详细页面的功能。
windows11编译安装pysqlcipher3
windows11编译安装pysqlcipher3
数据可视化的可视化大屏课程设计
1、选取合适的数据集:根据毕业设计的主题和目标,选择与之相关的合适的数据集。确保数据集可获得并包含足够的样本和特征,以支持后续的数据分析和开发工作。 2、项目背景:介绍毕业设计的背景和动机,说明为什么选择该课题以及相关领域的研究现状和问题。 3、项目目标:明确毕业设计的目标和预期成果,阐述希望通过这个项目实现的具体价值和意义。 4、数据说明:详细描述所选数据集的来源、规模、结构和内容,包括数据的格式、字段含义、数据质量等信息。 5、项目分析:对数据集进行初步的数据分析,包括数据预处理、特征提取、数据探索等,以获得对数据集的深入理解,为后续的开发工作做准备。 6、开发环境:采用Echarts大数据可视化技术。项目开发采用当前最主流的前后端分离的方式:后端用Pycharm工具搭建Flask框架,然后利用Python技术完成数据清洗、数据制作,最终形成数据接口;前端用Vscode工具完成可视化大屏布局、用Echarts技术完成图形展示;前后端只通过数据接口交互。 7、后端开发:根据项目需求和目标,进行后端开发工作,包括数据处理、函数的设计等,确保后端能够正确处理数据,并提供相应的接口和功能。
windows11编译安装pysqlcipher3
windows11编译安装pysqlcipher3
spark课程设计任务
对数据文件data.csv在根据课程设计要求在IDEA中编写Spark程序并打包成jar包,并且将数据文件data.csv上传到HDFS中,提交jar包到Spark集群中运行。 data.csv里面包含餐厅数据,可以用记事本打开查看,主要包含以下13个字段,字段之间由逗号分隔: "所属年月","商家名称","主营类型","店铺URL","特色菜","累计评论数","累计销售人次","店铺评分","本月销量","本月销售额","城市","商家地址","电话" 课程设计要求完成以下任务,在IDEA中创建Maven项目,提供pom.xml文件给大家,完成以下任务。 一、将data.csv文件上传到hdfs的/cateringdata/目录下。 二、编写Spark程序,实现以下功能,并且将程序打包为jar包 1.去掉"本月销量","本月销售额"(第8列和第9列)的数据异常(数据为空字符串或者null或者为0),并且统计去掉了多少条;这一步清洗获得的数据要以逗号分割,存到hdfs的/foodsparktask1目录下; 2.去掉"店铺评分"数据为null的数据,并统计去掉了多少条; 3.去掉"店