本文章参考《python深度学习》
新闻分类:多分类问题
新闻主题有多个类别,所 这是多分类(multiclass classification
)问题的一个例子。因为每个数据点只能划分到一个类别, 所以更具体地说,这是单标签、多分类(single-label, multiclass classification
)问题的一个例 子。如果每个数据点可以划分到多个类别(主题),那它就是一个多标签、多分类(multilabel, multiclass classification
)问题。
这篇文章会构建一个网络,将路透社新闻划分为46个互斥的主题。
路透社数据集
它包含许多短新闻及其对应的主题,由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题:某些主题的样本更多, 但训练集中每个主题都有至少 10 个样本。 与 IMDB
和MNIST
类似,路透社数据集也内置为Keras
的一部分。
1 | from keras.datasets import reuters |
与IMDB
评论一样,每个样本都是一个整数列表(表示单词索引),甚至将索引解码为新闻文本的方式都一样,只不过要使用reuters.get_word_index()
。
我们有 8982 个训练样本和 2246 个测试样本。