【Python Scrapy 爬虫框架】 2、利用 Scrapy 爬取我的博客文章标题链接

0x00 新建项目

在终端中即可直接新建项目,这里我创建一个名称为 teamssix 的项目,命令如下:

1
scrapy startproject teamssix

命令运行后,会自动在当前目录下生成许多文件,如下所示:

1
2
3
4
5
6
7
8
9
10
teamssix
│ scrapy.cfg #scrapy的配置文件
└─teamssix #项目的Python模块,在这里写自己的代码
│ items.py #项目定义文件
│ middlewares.py #项目中间件文件
│ pipelines.py #项目管道文件,用来处理数据的写入存储等操作
│ settings.py #项目设置文件
│ __init__.py
├─spiders #在这里写爬虫代码
└─ __init__.py
阅读全文
【Python Scrapy 爬虫框架】 1、简介与安装

0x00 简介

下图展示了 Scrapy 的体系结构及其组件概述,在介绍图中的流程前,先来简单了解一下图中每个组件的含义。

Engine

Engine 负责控制系统所有组件之间的数据流,并在某些操作发生时触发事件。

阅读全文
【漏洞笔记】浅谈SSRF原理及其利用

声明:本文仅用作技术交流学习分享用途,严禁将本文中涉及到的技术用法用于违法犯罪目的。

0x00 漏洞说明

SSRF (Server-Side Request Forgery) 即服务端请求伪造,从字面意思上理解就是伪造一个服务端请求,也即是说攻击者伪造服务端的请求发起攻击,攻击者借由服务端为跳板来攻击目标系统,既然是跳板,也就是表明攻击者是无法直接访问目标服务的,为了更好的理解这个过程,我从网上找了一张图,贴在了下面。

阅读全文
【Python 学习笔记】 异步IO (asyncio) 协程

0x00 前言

之前对协程早有耳闻,但一直没有去学习,今天就来学习一下协程,再次感谢莫烦的教程。

可以交给asyncio执行的任务被称为协程, asyncio 即异步的意思,在 Python3 中这是一个仅使用单线程就能达到多线程、多进程效果的工具。

在单线程中使用异步发起 IO 操作的时候,不需要等待 IO 的结束,在等待 IO 操作结束的这个空当儿可以继续做其他事情,结束的时候就会得到通知,所以能够很有效的利用等待下载的这段时间。

今天就来看看协程能不能干掉多线程和多进程。

阅读全文
【Python 学习笔记】多进程爬虫

0x00 前言

前段时间学习了多线程,但在实际的情况中对于多线程的速度实在不满意,所以今天就来学学多进程分布式爬虫,在这里感谢莫烦的Python教程。

0x01 什么是多进程爬虫

在讲述多进程之前,先来回顾一下之前学习的多线程。

阅读全文
【漏洞复现】DNS域传送漏洞

注:本文中使用的域名是不存在DNS域传送漏洞的,本文仅用作技术交流学习用途,严禁将该文内容用于违法行为。

阅读全文
【直播笔记】白帽子的成长之路
  1. 白帽子主要是寻找扫描器和风控系统覆盖不到的地方,比如domxss、越权漏洞和逻辑漏洞
  2. 开发运维人员的一些疏忽的点
阅读全文
【漏洞笔记】Robots.txt站点文件

0x00 概述

漏洞名称:Robots.txt站点文件

风险等级:低

问题类型:服务器设置问题

0x01 漏洞描述

Robots.txt文件中声明了不想被搜索引擎访问的部分或者指定搜索引擎收录指定的部分。

阅读全文
【漏洞笔记】Host头攻击

0x00 概述

漏洞名称:Host头攻击

风险等级:低

问题类型:管理员设置问题

0x01 漏洞描述

Host首部字段是HTTP/1.1新增的,旨在告诉服务器,客户端请求的主机名和端口号,主要用来实现虚拟主机技术。

阅读全文
【经验总结】常见的HTTP方法

0x00 概述

根据HTTP标准,HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。

HTTP1.1新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT方法。

阅读全文