字符验证码识别之模型构建

发表于 2020-05-15 | 分类于深度学习

验证码识别之模型构建

`Keras`函数式`API`

之前学习使用的神经网络都是用Sequential模型实现的，网络只有一个输入和一个输出，而且网络是层的线性堆叠，这种网络配置非常常见，只使用Sequential模型类就能够涵盖许多主题和实际应用，但是有些情况下这种假设过于死板，有些网络需要多个独立的输入，有些网络则需要多个输出，而有些网络在层与层之间具有内部分支，这使得网络看起来像是层构成的图(graph)，而不是层的线性堆叠。

也就是针对类似多输入模型、多输出模型和类图模型的使用案例，只用Keras中的Sequentail模型是无法实现的，但是还有另一种更加更加通用、更加灵活的使用keras的方式，就是函数式API。

有机会我会在之外的文章中记录这方面更详细的内容，这里先简单了解下就好。

构建模型

对于验证码识别来说，一般是多输出模型，所以我们需要使用函数式API来构建模型

阅读全文 »

Kibana简单使用

发表于 2020-04-02 | 分类于 ELK

Discover

Filtering with the time picker

可以利用time picker（时间选择工具）实现按时间筛选数据；

也可以通过直方图来过滤，直接单击某一个直方图或者单击并拖动以查看特定的时间跨度；

Searching Your Data

在Kibana上搜索数据时，可以使用Kibana Query Language（KQL）(也就是Kibana的标准查询语言)或者直接使用Lucene query syntax(即Lucene 查询语法，KQL本身也是基于Lucene的)。

每次查询的结果获取的满足条件的数据条数会在左上角显示，会默认显示500条Documents（总条数大于500时），数据会在鼠标不断下滑的过程中自动加载，并且默认是按照时间排序的，时间最新的在最上面。

点一下Time旁边的小三角号就可以切换排序方式，每条数据都可以点开以JSON格式查看

`Kibana Query Language`语法

response:200will match documents where the response field matches the value 200，通俗地讲就是要求我们的document中有一个字段名为response，其值为“200”。

message:"Quick brown fox"will search for the phrase “quick brown fox” in the message field，其道理跟上面是一样的，这里重点在加不加引号的区别。如果加了引号就是精确匹配，若不加引号，则会匹配”quick brown fox”，也会匹配”quick fox brown”，也就是会忽略他们的顺序。

阅读全文 »

反爬（六）

发表于 2020-03-26 | 分类于爬虫

反爬六

此次练习的网站,其实这个网站无需破解，奈何当时脑子懵了，怎么请求都无法请求到数据，然后观察该网站的请求方式，在请求头中发现了奇怪的pqm参数，理所当然认为这是关键所在，所以开始了破解之路。悲催的是，破解之后还是请求不到数据，才发现问题所在。（不过讲道理，如果这个网站真的利用pqm反爬是很有可能的，我们的破解思路也是没什么问题）。

因为这个网站的破解不是必须的，下面就简单看下破解过程吧。

发现异常参数

首先通过观察，我们发现请求头里有个pqm的参数，那么当我们向服务器进行请求时，服务器端就很有可能利用该参数进行检测，如果我们发送过去的参数值不对，就不给我们返回正确数据。

定位该参数在`js`中的位置

一般情况，这种参数值的生成方法都是写在js代码中的，当在浏览器中加载页面时就会自动执行。

阅读全文 »

字符验证码识别之数据处理

发表于 2020-03-09 | 分类于深度学习

验证码识别之数据处理

当我们想要自己通过深度学习网络训练识别网上的各种验证码时，首先需要下载一定量的图片，而且还需要给这些验证码图片标注好正确的答案。所以，一开始我们要借助一些打码平台来帮助我们完成这部分工作，当然如果不嫌麻烦的话自己一张张图标注也是可以的……

当我们完成标注工作后，还需要对这些验证码图片进行处理，使之适合输入到我们的网络中。

对图像处理时我们需要用到OpenCV-python这个库，先使用pip install OpenCV-python安装一下。

在windows系统中，若出现导入cv2模块后，使用pycharm调用cv2的方法全部标黄，并且不提示方法名的情况，可以进入cv2的__init__.py中，注释全部代码，然后在最后加上以下代码：

import sys
import os
import importlib
os.environ["PATH"] += os.pathsep + os.path.dirname(os.path.realpath(__file__))
from .cv2 import *
globals().update(importlib.import_module('cv2.cv2').__dict__)

之后重启Pycharm应该可以解决。

图像模糊（滤波）

模糊操作时图像处理中最简单和常用的操作之一，主要是为了给图像预处理时降低噪声。

模糊的过程与卷积神经网络的原理类似，我们都知道图像其实是由一个个的像素点构成，我们可以选取特定大小的一个模板，然后扫描整幅图像，每一次扫描对整个模板内的所有像素点的值进行运算（不同的模糊操作采用的运算不一样），将得到的值赋值给中间的像素点。

主要有以下几种常见的模糊操作：

阅读全文 »

新闻分类：多分类问题

发表于 2020-02-20 | 分类于深度学习

本文章参考《python深度学习》

新闻分类：多分类问题

新闻主题有多个类别，所这是多分类（multiclass classification）问题的一个例子。因为每个数据点只能划分到一个类别，所以更具体地说，这是单标签、多分类（single-label, multiclass classification）问题的一个例子。如果每个数据点可以划分到多个类别（主题），那它就是一个多标签、多分类（multilabel, multiclass classification）问题。

这篇文章会构建一个网络，将路透社新闻划分为46个互斥的主题。

路透社数据集

它包含许多短新闻及其对应的主题，由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题：某些主题的样本更多，但训练集中每个主题都有至少 10 个样本。与 IMDB和MNIST 类似，路透社数据集也内置为Keras 的一部分。

from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

print(train_data[10])
[1, 245, 273, 207, 156, 53, 74, 160, 26, 14, 46, 296, 26, 39, 74, 2979, 3554, 14, 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12]

与IMDB评论一样，每个样本都是一个整数列表（表示单词索引）,甚至将索引解码为新闻文本的方式都一样，只不过要使用reuters.get_word_index()。

我们有 8982 个训练样本和 2246 个测试样本。

阅读全文 »

电影评论分类：二分类问题

发表于 2020-02-10 | 分类于深度学习

本文章参考《python深度学习》

电影评论分类：二分类问题

`IMDB`数据集

它包含来自互联网电影数据库（IMDB）的50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论，训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。

IMDB 数据集内置于Keras库。它已经过预处理：评论（单词序列）已经被转换为整数序列，其中每个整数代表字典中的某个单词。

1
2
3

from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

参数num_words=10000的意思是仅保留训练数据中前10 000 个最常出现的单词。低频单词将被舍弃，这样得到的向量数据不会太大，便于处理。

train_data 和 test_data 这两个变量都是评论组成的列表，每条评论又是单词索引组成的列表（表示一系列单词）。train_labels 和 test_labels 都是0 和1组成的列表，其中0 代表负面（negative）， 1 代表正面（positive）。

>>> train_data[0] 
[1, 14, 22, 16, ... 178, 32] 
>>> train_labels[0]
1

举例子理解具体某条评论：

某条评论为：[15, 16, 89, 77]，其中15代表字典中的I、16代表love、89代表this、77代表movie，那么这条评论为I love this moive。

阅读全文 »

深度学习概念

发表于 2020-01-20 | 分类于深度学习

Python深度学习

注：本文章摘自《Python深度学习》书籍

第一部分：深度学习基础

第一章：什么是深度学习

人工智能、机器学习与深度学习的关系

符号主义人工智能(symbolic AI)：

人们输入的是规则（即程序）和需要根据这些规则进行处理的数据，系统输出的是答案。

机器学习：

人们输入的是数据和从这些数据中预期得到的答案，系统输出的是规则。这些规则随后可应用于新的数据，并使计算机自主生成答案。

机器学习的三要素

输入数据点
预期输出的示例
衡量算法结果好坏的方法

机器学习技术定义：在预先定义好的可能性空间中，利用反馈信号的指引来寻找输入数据的有用表示。

深度学习：它是从数据中学习表示的一种新方法，强调从连续的层中进行学习，这些层对应于越来越有意义的表示。“深度”指的并不是利用这种方法所获取的更深层次的理解，而是指一系列连续的表示层。

深度是指数据模型中包含的层数，这些分层表示几乎总是通过叫做神经网络(neural network)的模型学习得到。

注：这里所谓的神经网络与人类大脑神经等无关

阅读全文 »

反爬（五）

发表于 2020-01-13 | 分类于爬虫

反爬五

这一次针对此网站的破解，这次的网站破解过程没有前两面的那么复杂（当然对大佬来讲前面几个也是小菜一碟），下面开始介绍这次的破解过程吧。

这里要说明的一点是一开始我也不知道这个网站有加密，直接构造参数做POST请求毫无问题，但是当持续爬取后出现请求被限制的相关问题，才逐渐开始发现问题并解决问题。

1、构造参数做`post`请求

post请求的具体参数如图中所示，其中比较重要的是queryCondition,其为一个列表类型，每个元素是一个json对象（Python字典对象），并且支持添加多个元素，对应处罚种类、年份等，包括种类、年份以及地区代码等如何设置其实有一个文件写的非常清楚，直接在下面的search框中，搜索诸如“21_s”之类的关键字，就能找到相应的文件，这里不再多说。

这里的ciphertext参数一开始看不出来什么线索，第一反应这可能是个固定的参数值，直接复制到代码中请求果然可以成功请求到数据，可是后来持续爬取了一会发现就爬不到数据了，调式发现请求返回“你的请求已被限制”此类的信息。后来想到可能这个参数有问题，去浏览器中复制了一个新的到程序中执行又可以正常跑，所以此时才明确这个参数不是固定的，会动态变化，所以要去从网站源码中找出其是如何生成的。

2、寻找关键参数`ciphertext`

阅读全文 »

Keras简单应用cifar10

发表于 2020-01-01 | 分类于深度学习

安装

pip install keras

backend:后端引擎，import keras时会提示当前使用的是哪一个backend

注：backend现在有tensorflow、CNTK、Theano

使用以下语句可以改变当前脚本使用的backend

1
2
3

import os

>>> os.environ['KERAS_BACKEND']='theano'

注：Keras API 是Tensorflow的官方前端

Example：利用CNN实现`cifar10`小图片分类

1.先来简单了解几个问题

CNN（卷积神经网络）是什么？

从此明白了卷积神经网络

卷积层的使用

Conv2D:二维卷积层，即对图像的空域卷积。该层对二维输入进行滑动窗卷积，当使用该层作为第一层时，应提供input_shape参数。例如input_shape = (128,128,3)代表128*128的彩色RGB图像（data_format='channels_last'）

model.add(Conv2D(32, (3, 3), padding='same', input_shape=(32, 32, 3)))

阅读全文 »

如何理解卷积神经网络（CNN）

发表于 2019-12-28 | 分类于深度学习

注：本篇文章是转载的，以下为原文作者和相关信息

作者：Stack_empty
链接：https://www.jianshu.com/p/c0215d26d20a
来源：简书

一、引子————边界检测

我们来看一个最简单的例子：“边界检测（edge detection）”，假设我们有这样的一张图片，大小8×8：

图片中的数字代表该位置的像素值，我们知道，像素值越大，颜色越亮，所以为了示意，我们把右边小像素的地方画成深色。图的中间两个颜色的分界线就是我们要检测的边界。

怎么检测这个边界呢？我们可以设计这样的一个 滤波器（filter，也称为kernel），大小3×3：

然后，我们用这个filter，往我们的图片上“盖”，覆盖一块跟filter一样大的区域之后，对应元素相乘，然后求和。计算一个区域之后，就向其他区域挪动，接着计算，直到把原图片的每一个角落都覆盖到了为止。这个过程就是 “卷积”。（我们不用管卷积在数学上到底是指什么运算，我们只用知道在CNN中是怎么计算的。）这里的“挪动”，就涉及到一个步长了，假如我们的步长是1，那么覆盖了一个地方之后，就挪一格，容易知道，总共可以覆盖6×6个不同的区域。

阅读全文 »

验证码识别之模型构建

Keras函数式API

构建模型

Discover

Filtering with the time picker

Searching Your Data

Kibana Query Language语法

反爬六

发现异常参数

定位该参数在js中的位置

验证码识别之数据处理

图像模糊（滤波）

新闻分类：多分类问题

路透社数据集

电影评论分类：二分类问题

IMDB数据集

Python深度学习

第一部分：深度学习基础

第一章：什么是深度学习

人工智能、机器学习与深度学习的关系

反爬五

1、构造参数做post请求

2、寻找关键参数ciphertext

安装

Example：利用CNN实现cifar10小图片分类

1.先来简单了解几个问题

一、引子————边界检测

`Keras`函数式`API`

`Kibana Query Language`语法

定位该参数在`js`中的位置

`IMDB`数据集

1、构造参数做`post`请求

2、寻找关键参数`ciphertext`

Example：利用CNN实现`cifar10`小图片分类