利用huggingface-transformers进行命名实体识别
项目地址:https://github.com/huggingface/transformers
文档地址:https://huggingface.co/docs/transformers/pipeline_tutorial
寻找你要的模型
Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。
从这里:https://huggingface.co/models 可以查找你要的模型,可以根据任务、语言、框架、数据集等筛选。
这里我们想要进行基于中文的ner任务,筛选出这个模型: bert-base-chinese-ner
打开之后,通过介绍我们发现这是一个基于繁体中文的模型,对应的github地址是:
https://github.com/ckiplab/ckip-transformers
有需要的小伙伴可以尝试。
我们继续筛选,找到了这个模型:uer/roberta-base-finetuned-cluener2020-chinese
模型使用
方法一:运行时下载模型
1 | from transformers import AutoModelForTokenClassification,AutoTokenizer,pipeline |
第一次执行时,会下载模型权重文件,默认保存到的路径是
C:\Users\用户名\.cache\torch\transformers\
我们可以把相应的权重文件从这里复制到别的地方,然后从指定目录加载模型(也可以在一开始时直接下载至指定目录)
1 | model = AutoModelForTokenClassification.from_pretrained( |
上面运行下载的模型文件名称不太友好,当模型多了不好管理,还可以用下面这种方法加载模型
方法二:下载原项目,然后加载
1 | git lfs install |
1 | # 从下载的原项目路径加载 |
实体抽取
1 | model = AutoModelForTokenClassification.from_pretrained( |
实体抽取的结果是一个列表,列表中每个元素为字典类型,但是并非每个字典为一个实体,而是实体的一部分,“江”的entity为“B-address”表示,表示其为一个address实体的开始(beginning),相应地“苏”就是address实体的Inside部分。可以参考BIO的标注规则。
再来做一个测试
1 | content = """本院定于2022年6月1日 上午09时00分在普洱市中级人民法院第三法庭公开开庭审理原告中国音像著作权集体管理协会与被告普洱帝都娱乐有限公司著作权权属、侵权纠纷一案。""" |
可以看到其抽取到了三个实体,分别为:
1 | {'government': '普洱市中级人民法院第三法庭', 'organization': '中国音像著作权集体管理协会', |
通过以下方式还可以查看分词结果
1 | print(tokenizer.tokenize(content)) |
看起来并没有“词”,都是单个的字,与HanLP是不一样的,不过实际上可以理解,因为BERT本身在训练的时候就是把单个的字作为输入进行训练,没有去做真正的中文分词。
训练自己的实体抽取任务
上面的模型已经可以做到一个不错的中文实体抽取效果,但是应用到特定领域,不可避免地会有一些领域实体抽取不出来,例如在司法领域,案由著作权权属、侵权纠纷就无法抽取出来,如果我们想训练自己的实体抽取任务应该怎么做呢?其实通过查看uer/roberta-base-finetuned-cluener2020-chinese这个模型的文档可以知道,该模型是通过UER-py的GitHub项目训练得到一个中文命名实体模型,UER-py项目地址为:
https://github.com/dbiir/UER-py
对应中文文档为:https://github.com/dbiir/UER-py/blob/master/README_ZH.md
在文档中可以看到:“UER-py(Universal Encoder Representations)是一个用于对通用语料进行预训练并对下游任务进行微调的工具包。UER-py遵循模块化的设计原则。通过模块的组合,用户能迅速精准的复现已有的预训练模型,并利用已有的接口进一步开发更多的预训练模型”。
所以,如果我们想要在训练自己的实体抽取任务,可以借助UER-py来帮助我们实现,下面我也会记录学习使用这个工具包的过程。