train:5019 valid:500 test:703 相关论文《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》
2024-03-05 15:39:55 284KB
1
1) app.py是整个系统的主入口
2) templates文件夹是HTML的页面
|-index.html 欢迎界面
|-search.html 搜索人物关系页面
|-all_relation.html 所有人物关系页面
|-KGQA.html 人物关系问答页面
3) static文件夹存放css和js,是页面的样式和效果的文件
4) raw_data文件夹是存在数据处理后的三元组文件
5) neo_db文件夹是知识图谱构建模块
|-config.py 配置参数
|-create_graph.py 创建知识图谱,图数据库的建立
|-query_graph.py 知识图谱的查询 6) KGQA文件夹是问答系统模块 |-ltp.py 分词、词性标注、命名实体识别 7) spider文件夹是模块 |- get_*.py 是之前取人物资料的代码,已经产生好ima
NLP-study 记录做过的NLP任务,包含但不限于文本分类,关系分类,命名实体识别,文本摘要,文本生成等,基于tensorflow2.0或者pytorch框架。
2024-01-12 21:57:28 83.48MB Python
1
给大家分享一套课程——自然语言处理NLP企业级项目课程合集课程(实体关系抽取+情感分析+新闻文本分类+火车票识别+命名实体识别),大家下载学习。
2024-01-02 17:35:20 299B 自然语言处理 课程资源
1
分享自然语言处理课程——自然语言处理NLP企业级项目课程合集(实体关系抽取+情感分析+新闻文本分类+火车票识别+命名实体识别),视频,源码,数据,课件,资料完整
2023-07-21 10:33:18 287B 自然语言处理 NLP
1
数据分为三大部分,即训练集、验证集、测试集。数据分为两种颗粒度,一种是句子级别的关系和包(若干个句子)级别的关系。以及用于训练词向量和语言模型的大规模无标注语料。
2023-04-23 12:40:17 515.63MB 人物关系抽取
4.1 电子病历实体关系抽取任务 电子病历命名实体关系抽取主要研究从电子病 历中抽取疾病、症状、检查和治疗这几类实体间的 关系. 这些实体关系体现了患者健康状况信息和针 对患者的医疗处置措施, 也体现了医生的专业知识. 如下面的例子: 1) 头 CT 检查显示腔隙性脑梗死 (检查 “头 CT” 证实了疾病 “腔隙性脑梗死”); 2) 患者彩超结果汇报轻度脂肪肝、慢性胆囊炎, 给予饮食指导, 继续治疗方案 (“彩超” 证实了 “轻度 脂肪肝” 和 “慢性胆囊炎”, “饮食指导” 施加于 “轻 度脂肪肝” 和 “慢性胆囊炎”). 电子病历实体关系抽取任务在命名实体识别基 础上展开, 对病历文本中同一个语句中的两个命名 实体赋予预定义的关系类型, 因而该任务转化为分 类问题, 通常采用基于机器学习的方法实现, 评价指 标采用精确度、召回率和 F 值. 目前电子病历实体 关系只限于一个句子范围内两个实体之间的关系. Uzuner 首先对医疗实体关系抽取进行了开创 性的研究, 详细定义了六大类医疗实体关系: 当前疾 病和治疗的关系、可能的疾病和治疗的关系、疾病 (包括当前的和可能的) 和检查的关系、疾病和症状 的关系、当前症状和治疗的关系、可能的症状和治 疗的关系[3]. 如果已经定义了修饰识别任务, 实现了 疾病和症状的修饰识别, 那么在关系抽取时, 可以不 考虑修饰的影响, 直接抽取实体间的关系, 然后借助 实体的修饰, 可以得到文献 [3] 定义的上述各类关 系. 所以, 在 I2B2 2010 评测中, 实体关系的定义没 有考虑修饰的因素. I2B2 2010 首次对电子病历命 名实体关系进行了系统的分类[12], 这些关系包括医 疗问题和医疗问题之间的关系、医疗问题和检查之 间的关系、医疗问题和治疗之间的关系. 这三类关系 以医疗问题为中心, 反映了电子病历面向医疗问题 的信息组织方式. 这三类关系只限于一个句子范围 内两个实体之间的关系. 表 5 详细列出了医疗问题、 检查和治疗这三类实体间的关系. 针对中文电子病历特点, 医疗问题被拆分为疾 病和症状,那么在定义实体关系时,也应作相应调整. 主要体现在两方面: 1) 医疗问题和治疗 (或检查) 的 关系转变为疾病和治疗的关系以及症状与治疗的 关系, 医疗问题和检查的关系也转变为疾病和检查 的关系以及症状和检查的关系; 2) 医疗问题之间的 关系替换为疾病和症状的关系 (疾病导致了症状)、 疾病和疾病的关系 (疾病导致了另一个疾病)、症状 和症状的关系 (症状伴随另一个症状). 自动抽取这几类实体间的关系可以构造患者健 康状况的简明摘要, 医生可以预先快速浏览病人的 信息, 后续再关注特定的细节. 除了可以用作医疗研 表 4 疾病和症状的修饰识别方法总结 Table 4 Summarization of methods for assertion classification 作者 方法 用到的资源 数据 评价 (F 值) Chapman 等[13] (NegEx) 规则 正则表达式规则 出院小结 0.853 Mutalik 等[105] (Negfinder) 规则 正则表达式规则、句法规则 自建语料 0.965 Sohn 等[106] (DepNeg) 规则 依存规则 I2B2 2010 评测数据 0.838 Harkema 等[107] (ConText) 规则 正则表达式规则、触发词 6 种类型的病历文本 0.76∼ 0.93 Uzuner 等[108] SVM / 三个机构的病历 0.35∼ 0.98 Grouin 等[110] SVM NegEx I2B2 2010 评测数据 0.931 Jiang 等[97] SVM MedLEE I2B2 2010 评测数据 0.931 de Bruijn 等[99] SVM cTAKES I2B2 2010 评测数据 0.936 Clark 等[111] CRF、最大熵 语义分类词典、状态规则 I2B2 2010 评测数据 0.934
2023-03-23 11:28:15 979KB EMR 人工智能 智能医疗 电子病历
1
关系抽取任务采用DuIE2.0数据集,包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。数据集分为以下5个部分: 关系schema:48个预定义的关系类型,其中43个简单O值的关系类型,5个复杂O值的关系类型。 训练集:共17万个句子,包含句子中对应的SPO,用于竞赛模型训练。 验证集:共2万个句子,包含句子中对应的SPO,用于竞赛模型训练和参数调试。 测试集: 约2万个句子,不包含句子中对应的SPO。该数据用于作为最终的系统效果评估。 注:另外为了防止针对测试集的调试,数据中将会额外加入混淆数据。
2023-03-09 20:38:12 36.81MB NLP
1
基于强化学习的自举式关系抽取算法,王韬,程祥,知识图谱由<头实体,关系,尾实体>形式的三元组构成,能够将海量数据中的知识以图的方式进行组织,从而为下游智能服务的实现提供�
2023-02-28 22:29:18 338KB 首发论文
1
基于bert 的关系抽取
2023-02-11 16:40:08 46.34MB python
1