当前位置:网站首页>【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
2022-08-03 17:17:00 【InfoQ】
2.发展历程与现状
2.1信息抽取技术发展历程
从历次MUC会议,可以清楚地看到信息抽取技术发展的历程。
- 1987年5月举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。
- MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。
- MUC-3于1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。
- MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER文本项目。
- MUC-5于1993年8月举行,共有17个系统参加:美国14个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5抽取任务的复杂性更大,比如公司合资场景需要填充11种子模板总共47个槽,光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。
- MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等。
- 最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系。共有18家单位参加了MUC-7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。
- 1998年在MUC-7会议上第1次正式提出实体关系抽取任务。当时,这一任务主要利用模板的方式抽取出实体之间的关系,抽取的关系模板主要有location_of, employee_of, manufacture_of这三大类。在关系抽取方面,该会议主要以商业活动内容为主题,通过人工构建知识工程的方法,针对英语完成关系分类.研究人员利用Linguistic Data Consortium提供的New York Times News Service Corpus训练集和测试集构建关系抽取模型,并完成模型的性能评估。
2.2信息抽取技术的产业发展现状
- 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
- 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):6.
- ”Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
边栏推荐
- deepstresam的插件配置说明,通过配置osd,设置字体的背景为透明
- Looking at the ecological potential of Hongmeng OS from the evolution of MatePad Pro
- leetcode-每日一题899. 有序队列(思维题)
- 【云驻共创】【HCSD大咖直播】亲授大厂面试秘诀
- CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统
- security加密解密
- FinClip | July 2022 Product Highlights
- 面试突击:什么是粘包和半包?怎么解决?
- Components of communication - the drop-down menu
- 浅谈Service Mesh对业务系统的价值
猜你喜欢

【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取

A complete detailed tutorial on building intranet penetration ngrok (with pictures and truth)

一个域名对应多个IP地址

deepstresam的插件配置说明,通过配置osd,设置字体的背景为透明

通用型安全监测数据管理系统

JS 字符串转 GBK 编码超精简实现

国内首发可视化智能调优平台,小龙带你玩转KeenTune UI

精酿啤酒品牌,过把瘾就死?

面试不再被吊打!这才是Redis分布式锁的七种方案的正确打开方式

酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
随机推荐
如何直击固定资产管理的难题?
How to write SQL statements in DataWorks monitoring data reaches a certain value to indicate the change of
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十一)
JVS低代码-多数据模型与数据联动配置举例
论文解读(JKnet)《Representation Learning on Graphs with Jumping Knowledge Networks》
学会 Arthas,让你 3 年经验掌握 5 年功力!
企业如何选择低代码开发平台
我想请问下,我们的数据库是在亚马逊,Dataworks 连不通,怎么办?
【时间的比较】
沃尔沃:这是会“种草”的“安全感”!
MobileVIT实战:使用MobileVIT实现图像分类
SkyWalking概要介绍
国内首发可视化智能调优平台,小龙带你玩转KeenTune UI
火热的印度工厂,带不动印度制造
CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统
PMP考试通关宝典-敏捷专题
leetcode-每日一题899. 有序队列(思维题)
最强分布式锁工具:Redisson
设置海思芯片MMZ内存、OS内存详解
Async的线程池使用的哪个?