【Python Scrapy 爬虫框架】 6、继续爬虫、终止和重启任务 0x00 前言有时候我们不想只爬一个页面的,比如之前我只爬了主页,但是现在想把其他页面的也爬下来,这就是本文的任务。 0x01 修改代码在之前的基础上,修改 teamssix_blog_spider.py 文件,首先添加 start_url 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 5、利用 pipelines 和 settings 将爬取数据存储到 MongoDB 0x00 前言前文中讲到了将爬取的数据导出到文件中,接下来就在前文的代码基础之上,将数据导出到 MongoDB中。 0x01 配置 pipelines.py首先来到 pipelines.py 文件下,在这里写入连接操作数据库的一些功能。 将 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 4、数据项介绍和导出文件 0x00 前言通过上文的内容,已经把博客文章的标题及目录爬取下来了,接下来为了方便数据的保存,我们可以把这些文章的标题及目录给包装成一个数据项,也就是 items。 0x01 配置 item先来到 items.py 文件下,对标题及目录的信 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 3、利用 Scrapy 爬取博客文章详细信息 0x00 写在前面在之前的文章中,会发现如果直接使用爬取命令,终端会回显很多调试信息,这样输出的内容就会显得很乱,所以就可以使用下面的命令: scrapy crawl blogurl -s LOG_FILE=all.log 也 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 2、利用 Scrapy 爬取我的博客文章标题链接 0x00 新建项目在终端中即可直接新建项目,这里我创建一个名称为 teamssix 的项目,命令如下: scrapy startproject teamssix 命令运行后,会自动在当前目录下生成许多文件,如下所示: teamssix 2019-12-24 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 1、简介与安装 0x00 简介下图展示了 Scrapy 的体系结构及其组件概述,在介绍图中的流程前,先来简单了解一下图中每个组件的含义。 EngineEngine 负责控制系统所有组件之间的数据流,并在某些操作发生时触发事件。 SchedulerSche 2019-12-24 Python 学习笔记 学习笔记 Python Scrapy
【漏洞笔记】浅谈SSRF原理及其利用 声明:本文仅用作技术交流学习分享用途,严禁将本文中涉及到的技术用法用于违法犯罪目的。 0x00 漏洞说明SSRF (Server-Side Request Forgery) 即服务端请求伪造,从字面意思上理解就是伪造一个服务端请求,也即是说 2019-12-22 学习笔记 学习笔记 漏洞笔记 SSRF
【Python 学习笔记】 异步IO (asyncio) 协程 0x00 前言之前对协程早有耳闻,但一直没有去学习,今天就来学习一下协程,再次感谢莫烦的教程。 可以交给asyncio执行的任务被称为协程, asyncio 即异步的意思,在 Python3 中这是一个仅使用单线程就能达到多线程、多进程效果 2019-12-20 Python 学习笔记 Python 协程 异步IO
【Python 学习笔记】多进程爬虫 0x00 前言前段时间学习了多线程,但在实际的情况中对于多线程的速度实在不满意,所以今天就来学学多进程分布式爬虫,在这里感谢莫烦的Python教程。 0x01 什么是多进程爬虫在讲述多进程之前,先来回顾一下之前学习的多线程。 对于多线程可 2019-12-20 Python 学习笔记 Python 多进程 分布式
【漏洞笔记】深入浅出学习复现XXE 声明:文中所使用的环境均为内网环境,本文仅用于学习交流目的,严禁将本文中的技术用于违法犯罪目的。 0x00 关于XXE0、XML是什么XXE(XML External Entity Injection)全称为 XML 外部实体注入,XXE的 2019-12-09 学习笔记 学习笔记 漏洞笔记 XXE
【漏洞复现】DNS域传送漏洞 注:本文中使用的域名是不存在DNS域传送漏洞的,本文仅用作技术交流学习用途,严禁将该文内容用于违法行为。 0x00 漏洞描述DNS: 网域名称系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务。 它作为将域 2019-12-06 漏洞复现 漏洞复现 DNS 域传送
【直播笔记】白帽子的成长之路 子域名监听工具:https://github.com/guimaizi/get_domain,新出来的子域名往往漏洞较多 关于挖掘src漏洞: 白帽子主要是寻找扫描器和风控系统覆盖不到的地方,比如domxss、越权漏洞和逻辑漏洞 2019-12-01 学习笔记 笔记 直播 总结 成长之路