使用BERT的越南语NER(bert-vn-ner) 由Trong-Dat Ngo编写的代码。 引言 BERT模型的Pytorch实现为越南语执行命名实体识别(NER)。 此外,单词中的特征也用于表示单词。 该系统使用预训练模型 安装 要求: Python 3.6+ 火炬1.4+ 安装依赖项: pip3 install -r requirements.txt 数据集格式 bert-vn-ner的输入数据格式遵循CoNLL-2003格式,其中四列由制表符分隔,包括word , pos , chunk和named实体。 每个单词都放在单独的行上,每个句子后面都有一个空行。 请注意,分词不用于匹配BERT的预训练(以bert-base-multilingual-cased表示) 。 有关详细信息,请参见“数据”目录中的样本数据。 下表描述了数据集中的越南语例句示例。 单词 销售点
2023-03-23 21:36:36 710KB tagging named-entity-recognition ner bert
1
斯坦福大学CoreNLP Stanford CoreNLP提供了一组用Java编写的自然语言分析工具。 它可以接受原始的人类语言文本输入,并给出单词的基本形式,它们的词性,是否是公司名称,人员名称等,规范化并解释日期,时间和数字量,标记句子的结构在短语或单词从属关系方面,并指出哪些名词短语指代相同的实体。 它最初是为英语开发的,但现在也为(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语提供不同级别的支持。 斯坦福大学的CoreNLP是一个集成的框架,这使得将大量语言分析工具应用于一段文本变得非常容易。 从纯文本开始,您只需两行代码即可运行所有工具。 它的分析为更高层次和特定领域的文本理解应用程序提供了基础构建块。 Stanford CoreNLP是一套稳定且经过测试的自然语言处理工具,已被学术界,行业和政府中的各个团体广泛使用。 这些工具使用基于规则的,概率机器学习和深度学习组件。 Stanford CoreNLP代码用Java编写,并根据GNU通用公共许可证(v3或更高版本)获得许可。 请注意,这是完整的GPL,它允许许多免费使用,但不能在分发给他人的专有软件中使用。 制
1
spacy-lookup:基于字典的命名实体识别
1
工具介绍 LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势: 效果好:通过深度学习模型联合学习分词,词性标注,专名识别任务,单词索引,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果领先。 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率领先。 可定制:实现简单可控的干预机制,精确匹配用户字典对模型进行干预。 调用便捷:支持一键安装,同时提供了Python,Java和C ++调用接口与调用示例,实现快速调用和集成。 支持
1
A_survey_of_named_entity_recognition_and_classification
2021-12-31 16:15:52 131KB named entity recognition classified
1
named-entity-recognition-django-webapp
2021-12-29 21:46:14 8.95MB Python
1
恶毒的 基于实体级别F1分数的命名实体识别(NER)系统的评估脚本。 定义 Nadeau和Sekine(2007)已描述了此处实施的度量标准,该度量标准已广泛用作“消息理解会议”的一部分(Grishman和Sundheim,1996)。 它根据两个轴评估NER系统:是否能够为实体分配正确的类型,以及是否找到确切的实体边界。 对于两个轴,都计算正确的预测数(COR),实际的预测数(ACT)和可能的预测数(POS)。 从这些统计数据中,可以得出准确性和召回率: precision = COR/ACT recall = COR/POS 最终得分是对类型和边界轴的精度和召回率进行微平均的F1度量。 安装 pip install nereval 用法 当分类结果已写入JSON文件时,可以从Python内部使用此脚本,也可以从命令行使用该脚本。 从命令行使用 假设我们在input.json具有以下
1
Chinese NER Project 本项目为CLUENER2020任务baseline的代码实现,模型包括 BiLSTM-CRF BERT-base + X (softmax/CRF/BiLSTM+CRF) Roberta + X (softmax/CRF/BiLSTM+CRF) 本项目BERT-base-X部分的代码编写思路参考 。 项目说明参考知乎文章: Dataset 实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。 CLUENER2020共有10个
2021-11-29 23:16:05 12.45MB pytorch named-entity-recognition ner bert
1
CLUENER细粒度命名实体识别 更多细节请参考我们的: : 数据类别: 数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene) 标签类别定义和注释规则: 地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。 书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。 公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。 游戏(game): 常见的游戏,注意
2021-11-24 18:05:14 529KB dataset named-entity-recognition chinese seq2seq
1
中文命名实体识别 数据集 本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O 该数据集就位于项目目录下的ResumeNER文件夹里。 运行结果 下面是多种不同的模型以及这Ensemble这四个模型预测结果的准确率(取最好): HMM 慢性肾功能衰竭 双线性STM BiLSTM + CRF 合奏 召回率 91.22% 95.43% 95.32% 95.72% 95.65% 准确率 91.49% 95.43% 95.37% 95.74% 95.69% F1分数 91.30% 95.42% 95.32% 95.70% 95.64% 最后一列Ensemble是将这四个模型的预测结果结合起来,使用“
2021-11-13 17:18:20 24.44MB nlp hmm crf named-entity-recognition
1