当前位置:网站首页>【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
2022-08-03 17:02:00 【InfoQ】
1.1技术背景——什么是基于深度学习的文本信息抽取



1.1.1基于深度学习的实体抽取
通常包括两部分:
中文命名实体识别的难点主要存在于:
1.1.2基于深度学习的关系抽取
因此,中文领域的实体关系抽取研究具有较大的挑战性,主要存在3个特殊性:
1.1.3基于深度学习的事件抽取
事件抽取任务可分解为4 个子任务:
相比于模式匹配和传统机器学习的方法,深度学习方法优势明显:
合合信息认为以下几点会是信息抽取技术发展的重要方向:
- Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition”, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
- Animashree Anandkumar,“Deep Active Learning for Named Entity Recognition” in Proceedings of the 2nd Workshop on Representation Learning for NLP, pages 252–256,
- Arya Roy “Recent Trends in Named Entity Recognition (NER)” arXiv:2101.11420v1 [cs.CL] 25 Jan 2021
- 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
- Yanyao Shen,Hyokun Yun ,Zachary C. Lipton ,Yakov Kronrod and Shantanu Kumar,”A Survey of Deep Learning Methods for Relation Extraction“ arXiv:1705.03645v1 [cs.CL] 10 May 2017
- Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
边栏推荐
- Promise的 简单使用
- PTA递归练习
- 高效的组织信息共享知识库是一种宝贵的资源
- 组件通信-父传子组件通信
- Components of communication - the drop-down menu
- 使用deepstream消息发送功能的时候,检测框没有检测标签,No text labels of bboxes displayed with osd for deepstream-test5
- node connection mongoose database process
- 并发高的情况下,试试用ThreadLocalRandom来生成随机数
- TiKV & TiFlash accelerate complex business queries丨TiFlash application practice
- vant自动上传图片/文件
猜你喜欢

The strongest distributed lock tool: Redisson

沃尔沃:这是会“种草”的“安全感”!

融云「音视频架构实践」技术专场【内含完整PPT】

node connection mongoose database process

2年开发经验去面试,吊打面试官,即将面试的程序员这些笔记建议复习

error:Illegal instruction (core dumped),离线下载安装这个other版本numpy

设置海思芯片MMZ内存、OS内存详解

11. Container With Most Water

CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统

uniapp 去掉默认导航栏
随机推荐
Halcon 小笔记 C# 图片是否有效
出海,是泡泡玛特的“解药”吗?
酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
C专家编程 第3章 分析C语言的声明 3.2 声明是如何形成的
EMQX Newsletter 2022-07|EMQX 5.0 正式发布、EMQX Cloud 新增 2 个数据库集成
phoenix创建映射表和创建索引、删除索引
高效的组织信息共享知识库是一种宝贵的资源
【指针初解】
J9数字虚拟论:元宇宙的潜力:一股推动社会进步的力量
Components of communication - the drop-down menu
error:Illegal instruction (core dumped),离线下载安装这个other版本numpy
【GAMES101】作业6 加速结构
leetcode-每日一题899. 有序队列(思维题)
【目标检测】Focal Loss for Dense Object Detection
数据中台“集存通用治”功能场景说明
Detailed explanation of setting HiSilicon MMZ memory and OS memory
Component communication - parent-child component communication
TiKV & TiFlash 加速复杂业务查询丨TiFlash 应用实践
沃尔沃:这是会“种草”的“安全感”!
CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统