My Work

[TOC]

图例 (Legends)

  • 按照常见的 STAR 表述法说明相关工作:
    • Situation 📄
    • Task 🛠
    • Action 💡
    • Result 🏆

研究方向 (Research)

按照时间从近至远的顺序,对研究过的方向简要介绍。
该部分将主要介绍个人提出的研究内容和创新点。

  • 博士课题方向
    • 中文拼写纠正 (CSC: Chinese Spelling Correction)
      • 研究如何提升模型对于真实场景录入错误的性能
        • 基于真实录入错误的分布,生成更加符合真实场景错误的词粒度混淆集
        • 参考多来源统计信息的差值作为错误可能性的依据
      • 研究错别字模型对于错误 pair 的记忆能力
        • 错误位置与纠错文本的任务拆解
        • 探讨错字问题对于模型而言是拟合还是泛化
    • 中文实体识别 (CNER: Chinese Named-Entity Recognition)
      • 研究如何使得中文实体识别模型在边界检测上取得提升
        • 将基于跨度的方法适用于中文命名实体识别,提出训练时的比例采样
        • 显式建模模型预测时应该更倾向于实体的 surface string 还是 context
    • 嵌套因果提取 (NRE: Nested-causality Relation Extraction)
  • 非博士课题方向
    • 自然语言接口 (NLIDB: Natural Language Interface to DataBase, or Text2SQL)

相关项目 (Projects)

按照时间从近至远的顺序,对作为主要贡献者(或主要贡献者之一)的项目进行简要介绍,
项目的详细信息以及其中的创新点将持续补充与更新。

  • AutoDoc
    • 📄 该项目为金融市场的信息披露文档进行智能复核
    • 🛠 在智能复核项目中,负责长文档处理中的文本预处理及实体识别任务。
    • 💡 负责为金融文档提取命名实体,主要关注语句中实体与上下文间的相互作用、实体边界的判断和增强实体识别的不变性,论文正投递至 IPMC (Regex + RuleTable & PyTorch)
    • 🛠 在智能复核项目中,负责错别字纠正任务。
    • 💡 设计与实现了金融文档相关的错别字检测与纠正模型 (Tensorflow & PyTorch),模型在金融及任务相关公开数据集上。
    • 🏆 上述提及的各部分均已上线,作为金融文档复核的功能之一,为多家金融机构服务。
    • 🏆 项目与港交所合作,获得中国首个 Regulation Asia 的年度 Outstanding Project 奖项。
  • Glazer
    • 负责金融文档相关的显式嵌套因果关系提取模型,相关论文已作为一作发表至 CCF-C类会议(Regular Paper & Oral Speech, PyTorch)
    • 提供调研得到的市场需求,分享初步设计理念并参与制定产品功能,即募集说明书智能刷报系统,现已发布为“AI刷募集”软件,为中信证券在内的多家券商服务;后续参与实现新需求(指标变动原因检测)的开发,已完成并上线(Rules & PyTorch)
  • Foundry
    • Foundry:参与实现自然语言处理 AI Solutions 平台,贯通 NLP 任务的标注、训练、预测全流程,一体化处理文本语义(PyTorch)
    • 三位主要实现负责人之一 (Yixuan Cao, Hongwei Li, Dian Chen)
  • FinDoc-Bert
    • 📄 负责于大规模中文金融语料上进行 Bert/Bert-wwm/Albert 模型的预训练任务,用于提供更加合适的预训练模型参数,
    • 为多种平台与下游任务提供支持(Tensorflow & Pytorch)
    • 该项目的两位主要实现负责人之一 (Feng Hong, Dian Chen)
  • Mantra/Aireport/Text2SQL
    • 首次作为主要负责人的大型完整项目,与海通证券直接对接。
    • 实现NLIDB系统框架,即通过自然语言从数据库中获取繁杂类型信息的智能系统。
      于深交所技术大会获得2019年度研究课题二等奖,第七届证券期货科学技术优秀奖(PyTorch)。
    • 项目现于中金所课题中标,参与该项目的个性化部署。
    • 进行语音文本转SQL实现智能数据检索引擎课题研究,一期验收完成。论文正投递至 CIKM。
  • Quaff
    • 基于明文文本存储的快速语料查询系统(Ripgrepy & Redis)
    • 个人负责 python 端的 Ripgrepy,由同事帮忙部署于 Redis。

参与项目 (Involved)

按照时间从近至远的顺序,对参与项目进行简要介绍,
该部分为参与的项目中担任非主要职能或较少部分功能的。

  • AutoDoc
    • 参与公司创立之初的初期建设。
    • 💬 作为公司的核心业务之一,于公司创立之初参与该项目的初期建设。 除上述提及的主要负责任务外,包括但不限于公开金融文档爬取、三元组提取、文档分类、文本跨页连接判断等。完善基本业务功能及框架(Rules & Theano)。
    • 项目与港交所合作,获得中国首个 Regulation Asia 的年度 Outstanding Project 奖项。
    • 负责金融文档相关的错别字检测与纠正模型,已上线作为金融文档复核的功能之一,为多家金融机构服务(Tensorflow & PyTorch)
  • PDFlux
    • PDFInsight:负责为该项目中金融文档相关的模型参数进行加密解密,该模块后续也沿用至公司其它包括 AutoDoc 在内的多个项目中(Tensorflow)
    • PDFlux:参与实现表格语义合并模型,现线上模型已被新模型替代(TensorFlow)
  • 开源社区项目 BBCM
    • 作为目前中文错字最大社区 PyCorrector 的常用解决方案,广泛用于相关工作中。

数据库的自然语言接口 (Natural Language Interface for DataBase)

YEAR 2020-2022
读博起即于导师的创业公司中,以实习生的身份参与各类项目(金融文档相关)

  • 背景
    • 在日常的生产中会产生大量的数据,如今各个公司都建立起自己的数据库,从而产生了需要从海量数据中挖掘与整理信息的需求,而操作数据库需要具有专业知识的人员。这些人员每日需要处理数量繁多但种类相近的需求,但由于表述不同、目标数据不同而不得已需要手动撰写大量的 SQL 查询,难以应对日益增多的查询和即时性的需求。
    • 该任务学界称之为 NLIDB(Natural Language Interface for DataBase),工业界称之为 Text2SQL,接受用户输入的自然语言问询,系统生成可执行的SQL语句,在链接的数据库上执行后,返回结果整理成图表的形式提供给用户。
  • 任务拆解
    • 意图检测(Intent Detection)
    • 关键信息填充 (Slot Filling) & 缺失信息补全
    • 后处理,包括语法格式修复等
  • 采取方案
    • 在”可执行SQL”与”自然语言”之间加入”中间语言”(IR, Intermediate Representation)作为链接桥梁
    • 实现知识库 (KnowledgeBase):”值-列-表”反查、数据库 Schema 热启动、实体链接
  • 成果
    • 首次作为主要负责人的大型完整项目,与海通证券对接,于深交所技术大会中获得2019年度研究课题二等奖 ,第七届证券期货科学技术优秀奖。
    • 现本课题于中金所中标 ,参与该项目的个性化部署,进行语音文本转 SQL 实现”智能数据检索引擎”课题研究。

text2sql_query_frontend

命名实体识别 (Named-Entity Recognition)

YEAR 2019-2022
于读博期间,作为毕设方向,研究中文文本中的命名实体识别。
作为 NLP 下游任务的基石运用于轻量化信息抽取 P5 项目中

  • 背景
    • 从纯文本句子中获取符合预定义实体类型的所有命名实体(在句子中的位置与实体类型)
  • 任务拆解
    • Span candidate detection
    • Entity typing (classification)
  • 采取方案
    • Share: Span-based method
    • Span candidate filtering strategies
    • Explict modeling the context information
  • 成果
    • 研究成果形成论文《Explict Modeling the Context for Chinese NER》,已投递 ACL-ARR 中。
    • 研究成果形成期刊《Span-based Chinese Named-Entity Recognition with Span Filtering》,已投递 JCST。
    • 基于本命名实体识别的公司主要产品 AutoDoc 与港交所合作,获得中国首个 Regulation Asia 年度 Outstanding Project 奖项
    • 开源项目 PURE, 当前方法在不使用额外知识与特征的情况下,可以在公开数据集 MSRA,Onto4,Resume 的排行榜上分别得到第 2,3,4 名的效果。

acl_cdnet

嵌套关系提取 (Nested Relation Extraction)

YEAR 2019-2020
于读博期间,作为毕设方向,研究中文文本中的复杂关联提取,具有代表性的为嵌套关系提取。

  • 背景
    • 从纯文本句子中获取复杂的嵌套关联信息
  • 任务拆解
    • 嵌套模型定义 (自底向上 / 有向图 / 二分图)
    • 图中间节点(关系节点)的表示
  • 采取方案
    • 自底向上的通用嵌套关联提取框架 IterativeNN
    • 面向因果嵌套关联特化的 Pairwise Causality Mining
  • 成果
    • 关于嵌套关联提取的研究成果
      • 发表论文《Nested Relation Extraction with Iterative Neural Network》于 CIKM 及 FCS。Paper
      • 跟随 Yixuan Cao 参与设计与实现自然语言处理 AI Solutions 平台 Foundry,贯通 NLP 任务的标注、训练、预测全流程,一体化处理文本语义。
    • 关于显式嵌套因果关联提取的研究成果
      • 发表论文《Pairwise Causality Structure: Towards Nested Causality Mining on Financial Statements》于 ICNLP/NLPCC。 Paper
      • 根据本人调研得到的市场需求,分享初步设计理念并参与制定产品功能,即募集说明书智能刷报系统 Glazer。现已发布为”AI刷募集”相关软件与服务,为中信证券在内的多家券商服务。后续参与新需求(指标变动原因检测)的实现开发,已完成并上线。

金融文档文本预处理 (Fin-Document Text Preprocessing)

YEAR 2016-2018
读博起即于导师的创业公司中,以实习生的身份参与各类项目(金融文档相关)

相关工作包括但不限于:

  • 撰写公开金融文档爬取的初版脚本,目标为公开财报及募集说明书
  • 初版 PDF/Word 文档中的文本段落解析与汇总
  • 设计简单的断句分类模型判断相邻句是否因文档跨页、跨栏而被分割的断句
  • 负责初期的时间、金融属性、值的元组信息提取任务
  • 负责文档中的数据清理,包括但不限于异常字、词、句的筛除
  • 构造庞大的正则匹配知识库,以获取带单位名称的特殊值、特殊数字符号串等信息

YEAR 2019-2021
读博起即于导师的创业公司中,以实习生的身份参与各类深度模型相关基础建设

相关工作包括但不限于:

  • 基于 BERT/BERT-wwm/Albert 为下游任务准备金融文本的预训练模型
  • 负责公司项目中涉及的 Tensorflow 模型参数文件的加密解密
  • 设计了初版的表格语义合并模型(沿用断句模型思路,现已被新模型替代)
  • 基于 Ripgrepy 和 Redis 的明文文本存储的快速预料查询系统 Quaff

关联性与情感分析 (Relevance and Sentiment Analysis)

YEAR 2015-2017
于百度大数据实验室(BDL)实习期间,作为本科毕设课题,研究并实现基于在线研报的时事投资分析系统。
系统自动从在线研报网站轮询并实时解析。为从业者即时提供各篇新发研报涉及的股票及行业,并给出研报是看涨或看跌,其中部分模块及数据复用于百度后续项目。
成果形成毕设《Design of Real-time Investment Analysis System Based on Neural Network》,获重庆大学 2016 届校级优秀毕业设计(全计算机学院共3名)。

CDReader-XMind
如思维导图所示,项目分为多个模块:

  • 代理池模块,为爬虫模块维护可用代理池,已开源至 Github
  • 自动轮询爬虫,基于常见爬虫库与 PySpider 平台,自动轮询获取新增研报。
  • 实时文本分析,与实验室的 Ganbin Zhou 学长合作,借助 KnowledgeCNN 的设计,计算文本关联性及情感极性分析。
  • 展示部分使用简单的前端连接数据库,配置为时间线的形式。

CDReader-Page

跨模态推荐 (Multi-modal Recommendation)

YEAR 2015-2016
于百度大数据实验室(BDL)实习期间,参与百度与大悦城合作的优惠券推荐项目。
协助导师 (Ping Luo) 及学长 (Su Yan) 完成研究中的数据分析、整理以及最终的成果展示工作。
成果形成论文《From Online Behaviors to Offline Retailing》发表于 KDD2016。原文链接

o2otm_behav
o2otm_example