使用UER进行开庭公告命名实体识别
项目概述
上篇文章已经讲述了,如何使用UER进行NER任务微调训练,接下来咱就开始实战了,我这边要做的一个任务是司法文书的信息抽取,简单描述就是抽取出案号、案由、当事人、法院、法庭等信息,不过整体的任务还是比较复杂的,并且司法文书种类也比较多,有裁判文书这种长文本,也有开庭公告、法院公告这种短文本,我这边打算先从开庭公告的一些短文本作为切入点,先做一些尝试,看看效果。
我这边的一个实验计划暂定为:
- 先使用一定量的数据,直接进行NER微调训练,记录训练效果,如precision、recall和f1的值;
- 在语料集上先进行词向量微调(也就是bert finetune),并生成自己的词表;
- 基于步骤2得到的模型再次进行NER微调训练,对比与步骤1的评测值是否有提升;
- 如果方案可行,会再扩充数据集再次重复步骤2、3。