【Python Scrapy 爬虫框架】 6、继续爬虫、终止和重启任务 0x00 前言有时候我们不想只爬一个页面的,比如之前我只爬了主页,但是现在想把其他页面的也爬下来,这就是本文的任务。 0x01 修改代码在之前的基础上,修改 teamssix_blog_spider.py 文件,首先添加 start_url 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 5、利用 pipelines 和 settings 将爬取数据存储到 MongoDB 0x00 前言前文中讲到了将爬取的数据导出到文件中,接下来就在前文的代码基础之上,将数据导出到 MongoDB中。 0x01 配置 pipelines.py首先来到 pipelines.py 文件下,在这里写入连接操作数据库的一些功能。 将 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 4、数据项介绍和导出文件 0x00 前言通过上文的内容,已经把博客文章的标题及目录爬取下来了,接下来为了方便数据的保存,我们可以把这些文章的标题及目录给包装成一个数据项,也就是 items。 0x01 配置 item先来到 items.py 文件下,对标题及目录的信 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 3、利用 Scrapy 爬取博客文章详细信息 0x00 写在前面在之前的文章中,会发现如果直接使用爬取命令,终端会回显很多调试信息,这样输出的内容就会显得很乱,所以就可以使用下面的命令: scrapy crawl blogurl -s LOG_FILE=all.log 也 2019-12-26 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 2、利用 Scrapy 爬取我的博客文章标题链接 0x00 新建项目在终端中即可直接新建项目,这里我创建一个名称为 teamssix 的项目,命令如下: scrapy startproject teamssix 命令运行后,会自动在当前目录下生成许多文件,如下所示: teamssix 2019-12-24 Python 学习笔记 学习笔记 Python Scrapy
【Python Scrapy 爬虫框架】 1、简介与安装 0x00 简介下图展示了 Scrapy 的体系结构及其组件概述,在介绍图中的流程前,先来简单了解一下图中每个组件的含义。 EngineEngine 负责控制系统所有组件之间的数据流,并在某些操作发生时触发事件。 SchedulerSche 2019-12-24 Python 学习笔记 学习笔记 Python Scrapy
【漏洞笔记】浅谈SSRF原理及其利用 声明:本文仅用作技术交流学习分享用途,严禁将本文中涉及到的技术用法用于违法犯罪目的。 0x00 漏洞说明SSRF (Server-Side Request Forgery) 即服务端请求伪造,从字面意思上理解就是伪造一个服务端请求,也即是说 2019-12-22 学习笔记 学习笔记 漏洞笔记 SSRF
【Python 学习笔记】 异步IO (asyncio) 协程 0x00 前言之前对协程早有耳闻,但一直没有去学习,今天就来学习一下协程,再次感谢莫烦的教程。 可以交给asyncio执行的任务被称为协程, asyncio 即异步的意思,在 Python3 中这是一个仅使用单线程就能达到多线程、多进程效果 2019-12-20 Python 学习笔记 Python 协程 异步IO
【Python 学习笔记】多进程爬虫 0x00 前言前段时间学习了多线程,但在实际的情况中对于多线程的速度实在不满意,所以今天就来学学多进程分布式爬虫,在这里感谢莫烦的Python教程。 0x01 什么是多进程爬虫在讲述多进程之前,先来回顾一下之前学习的多线程。 对于多线程可 2019-12-20 Python 学习笔记 Python 多进程 分布式
【漏洞笔记】深入浅出学习复现XXE 声明:文中所使用的环境均为内网环境,本文仅用于学习交流目的,严禁将本文中的技术用于违法犯罪目的。 0x00 关于XXE0、XML是什么XXE(XML External Entity Injection)全称为 XML 外部实体注入,XXE的 2019-12-09 学习笔记 学习笔记 漏洞笔记 XXE
【漏洞复现】DNS域传送漏洞 注:本文中使用的域名是不存在DNS域传送漏洞的,本文仅用作技术交流学习用途,严禁将该文内容用于违法行为。 0x00 漏洞描述DNS: 网域名称系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务。 它作为将域 2019-12-06 漏洞复现 漏洞复现 DNS 域传送
【直播笔记】白帽子的成长之路 子域名监听工具:https://github.com/guimaizi/get_domain,新出来的子域名往往漏洞较多 关于挖掘src漏洞: 白帽子主要是寻找扫描器和风控系统覆盖不到的地方,比如domxss、越权漏洞和逻辑漏洞 2019-12-01 学习笔记 笔记 直播 总结 成长之路
【漏洞笔记】Robots.txt站点文件 0x00 概述漏洞名称:Robots.txt站点文件 风险等级:低 问题类型:服务器设置问题 0x01 漏洞描述Robots.txt文件中声明了不想被搜索引擎访问的部分或者指定搜索引擎收录指定的部分。 此信息可以帮助攻击者得到网站部分文件 2019-11-27 漏洞笔记 漏洞笔记 Robots.txt 服务器设置问题
【漏洞笔记】Host头攻击 0x00 概述漏洞名称:Host头攻击 风险等级:低 问题类型:管理员设置问题 0x01 漏洞描述Host首部字段是HTTP/1.1新增的,旨在告诉服务器,客户端请求的主机名和端口号,主要用来实现虚拟主机技术。 运用虚拟主机技术,单个主机 2019-11-27 漏洞笔记 漏洞笔记 管理员设置问题 Host头
【经验总结】常见的HTTP方法 0x00 概述根据HTTP标准,HTTP请求可以使用多种请求方法。 HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。 HTTP1.1新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 2019-11-27 经验总结 经验总结 HTTP方法
【漏洞笔记】ASP.NET允许文件调试 0x00 概述漏洞名称:ASP.NET允许文件调试 风险等级:低 问题类型:管理员设置问题 0x01 漏洞描述发送DEBUG动作的请求,如果服务器返回内容为OK,那么服务器就开启了调试功能,可能会导致有关Web应用程序的敏感信息泄露,例如密 2019-11-26 漏洞笔记 漏洞笔记 ASP.NET 管理员设置问题
【漏洞笔记】IIS短文件名泄露 0x00 概述漏洞名称:IIS短文件名泄露 风险等级:低 问题类型:信息泄露 0x01 漏洞描述此漏洞实际是由HTTP请求中旧DOS 8.3名称约定(SFN)的代字符(〜)波浪号引起的。 为了兼容16位MS-DOS程序,Windows为文 2019-11-26 漏洞笔记 漏洞笔记 IIS 信息泄露
Pigat:一款被动信息收集聚合工具 0x00 前言Pigat即Passive Intelligence Gathering Aggregation Tool,翻译过来就是被动信息收集聚合工具,既然叫聚合工具,也就是说该工具将多款被动信息收集工具结合在了一起,进而提高了平时信息 2019-11-26 工具分享 被动信息收集 pigat 聚合工具