Scrapy爬虫，爬取两个网页

后端

312.96KB

48 需要积分: 1

立即下载

资源介绍:

使用scrapy框架定时爬取两个爬虫，爬取两个网页定时爬取，爬取欧空局，费米卫星的观测计划。Scrapy是一个快速的、高层次的web爬虫框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy使用了Python语言，并且构建在一些强大的库之上，如twisted用于异步网络操作，lxml用于解析HTML和XML文档。以下是Scrapy框架的一些关键特点：异步处理：Scrapy使用Twisted异步网络库，可以同时处理多个请求，这使得它非常适合进行大规模的web爬取。易于使用：Scrapy提供了一个高级的API来编写爬虫，使得开发者不需要处理请求和响应的底层细节。强大的选择器：Scrapy使用lxml库，它提供了强大的选择器，可以方便地从HTML/XML文档中提取数据。中间件支持：Scrapy支持请求和响应的中间件，可以处理cookies、session、用户代理等。扩展性：Scrapy允许开发者通过编写扩展来自定义其功能，例如添加自定义的请求头、处理重定向等。内置支持：Scrapy内置了对多种数据格式的支持，如JSON、CSV等，方便存储爬取的数据。

# Spider_fermi #### 介绍 {**以下是 Gitee 平台说明，您可以替换此简介** Gitee 是 OSCHINA 推出的基于 Git 的代码托管平台（同时支持 SVN）。专为开发者提供稳定、高效、安全的云端软件开发协作平台无论是个人、团队、或是企业，都能够用 Gitee 实现代码托管、项目管理、协作开发。企业项目请看 [https://gitee.com/enterprises](https://gitee.com/enterprises)} #### 软件架构软件架构说明 #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言，例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目，是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)

资源文件列表:

spider_fermi-master.zip 大约有39个文件

spider_fermi-master/
spider_fermi-master/.gitignore 350B
spider_fermi-master/.idea/
spider_fermi-master/.idea/.gitignore 176B
spider_fermi-master/.idea/Scrapy_fermi.iml 367B
spider_fermi-master/.idea/inspectionProfiles/
spider_fermi-master/.idea/inspectionProfiles/profiles_settings.xml 174B
spider_fermi-master/.idea/misc.xml 186B
spider_fermi-master/.idea/modules.xml 276B
spider_fermi-master/.idea/vcs.xml 180B
spider_fermi-master/README.en.md 956B
spider_fermi-master/README.md 1.29KB
spider_fermi-master/Scrapy_fermi/
spider_fermi-master/Scrapy_fermi/__init__.py
spider_fermi-master/Scrapy_fermi/__pycache__/
spider_fermi-master/Scrapy_fermi/__pycache__/__init__.cpython-311.pyc 177B
spider_fermi-master/Scrapy_fermi/__pycache__/items.cpython-311.pyc 2.07KB
spider_fermi-master/Scrapy_fermi/__pycache__/pipelines.cpython-311.pyc 5.76KB
spider_fermi-master/Scrapy_fermi/__pycache__/settings.cpython-311.pyc 1.14KB
spider_fermi-master/Scrapy_fermi/items.py 1.15KB
spider_fermi-master/Scrapy_fermi/middlewares.py 3.57KB
spider_fermi-master/Scrapy_fermi/pipelines.py 5.57KB
spider_fermi-master/Scrapy_fermi/settings.py 4.06KB
spider_fermi-master/Scrapy_fermi/spiders/
spider_fermi-master/Scrapy_fermi/spiders/__init__.py 161B
spider_fermi-master/Scrapy_fermi/spiders/__pycache__/
spider_fermi-master/Scrapy_fermi/spiders/__pycache__/__init__.cpython-311.pyc 185B
spider_fermi-master/Scrapy_fermi/spiders/__pycache__/scrapy_fermi_A015.cpython-311.pyc 3.81KB
spider_fermi-master/Scrapy_fermi/spiders/__pycache__/scrapy_fermi_integral.cpython-311.pyc 4.05KB
spider_fermi-master/Scrapy_fermi/spiders/__pycache__/scrapy_fermi_nonscience.cpython-311.pyc 4.03KB
spider_fermi-master/Scrapy_fermi/spiders/scrapy_fermi_A015.py 4.25KB
spider_fermi-master/Scrapy_fermi/spiders/scrapy_fermi_integral.py 3.04KB
spider_fermi-master/Scrapy_fermi/spiders/scrapy_fermi_nonscience.py 4.18KB
spider_fermi-master/crapy_fermi_intergral.csv 16.74KB
spider_fermi-master/fermi.log 3.4MB
spider_fermi-master/main.py 1.46KB
spider_fermi-master/requirements.txt 2.23KB
spider_fermi-master/scrapy.cfg 267B
spider_fermi-master/scrapy_AO15.csv 34.05KB