My Work

中文拼写纠正 (Chinese Spelling Correction)

YEAR 2021-2022
于读博期间,作为毕设方向,研究中文金融文档中的错别字检出与校正。
当前新开的研究方向,摸索中,预期明年2月形成论文投递。

数据库的自然语言接口 (Natural Language Interface for DataBase)

YEAR 2020-2022
读博起即于导师的创业公司中,以实习生的身份参与各类项目(金融文档相关)

  • 背景
    • 在日常的生产中会产生大量的数据,如今各个公司都建立起自己的数据库,从而产生了需要从海量数据中挖掘与整理信息的需求,而操作数据库需要具有专业知识的人员。这些人员每日需要处理数量繁多但种类相近的需求,但由于表述不同、目标数据不同而不得已需要手动撰写大量的 SQL 查询,难以应对日益增多的查询和即时性的需求。
    • 该任务学界称之为 NLIDB(Natural Language Interface for DataBase),工业界称之为 Text2SQL,接受用户输入的自然语言问询,系统生成可执行的SQL语句,在链接的数据库上执行后,返回结果整理成图表的形式提供给用户。
  • 任务拆解
    • 意图检测(Intent Detection)
    • 关键信息填充 (Slot Filling) & 缺失信息补全
    • 后处理,包括语法格式修复等
  • 采取方案
    • 在”可执行SQL”与”自然语言”之间加入”中间语言”(IR, Intermediate Representation)作为链接桥梁
    • 实现知识库 (KnowledgeBase):”值-列-表”反查、数据库 Schema 热启动、实体链接
  • 成果
    • 首次作为主要负责人的大型完整项目,与海通证券对接,于深交所技术大会中获得2019年度研究课题二等奖 ,第七届证券期货科学技术优秀奖。
    • 现本课题于中金所中标 ,参与该项目的个性化部署,进行语音文本转 SQL 实现”智能数据检索引擎”课题研究。

text2sql_query_frontend

命名实体识别 (Named-Entity Recognition)

YEAR 2019-2022
于读博期间,作为毕设方向,研究中文文本中的命名实体识别。
作为 NLP 下游任务的基石运用于轻量化信息抽取 P5 项目中

  • 背景
    • 从纯文本句子中获取符合预定义实体类型的所有命名实体(在句子中的位置与实体类型)
  • 任务拆解
    • Span candidate detection
    • Entity typing (classification)
  • 采取方案
    • Share: Span-based method
    • Span candidate filtering strategies
    • Explict modeling the context information
  • 成果
    • 研究成果形成论文《Explict Modeling the Context for Chinese NER》,已投递 ACL-ARR 中。
    • 研究成果形成期刊《Span-based Chinese Named-Entity Recognition with Span Filtering》,已投递 JCST。
    • 基于本命名实体识别的公司主要产品 AutoDoc 与港交所合作,获得中国首个 Regulation Asia 年度 Outstanding Project 奖项
    • 开源项目 PURE, 当前方法在不使用额外知识与特征的情况下,可以在公开数据集 MSRA,Onto4,Resume 的排行榜上分别得到第 2,3,4 名的效果。

jcst_filter
acl_cdnet

嵌套关系提取 (Nested Relation Extraction)

YEAR 2019-2020
于读博期间,作为毕设方向,研究中文文本中的复杂关联提取,具有代表性的为嵌套关系提取。

  • 背景
    • 从纯文本句子中获取复杂的嵌套关联信息
  • 任务拆解
    • 嵌套模型定义 (自底向上 / 有向图 / 二分图)
    • 图中间节点(关系节点)的表示
  • 采取方案
    • 自底向上的通用嵌套关联提取框架 IterativeNN
    • 面向因果嵌套关联特化的 Pairwise Causality Mining
  • 成果
    • 关于嵌套关联提取的研究成果
      • 发表论文《Nested Relation Extraction with Iterative Neural Network》于 CIKM 及 FCS。Paper
      • 跟随 Yixuan Cao 参与设计与实现自然语言处理 AI Solutions 平台 Foundry,贯通 NLP 任务的标注、训练、预测全流程,一体化处理文本语义。
    • 关于显式嵌套因果关联提取的研究成果
      • 发表论文《Pairwise Causality Structure: Towards Nested Causality Mining on Financial Statements》于 ICNLP/NLPCC。 Paper
      • 根据本人调研得到的市场需求,分享初步设计理念并参与制定产品功能,即募集说明书智能刷报系统 Glazer。现已发布为”AI刷募集”相关软件与服务,为中信证券在内的多家券商服务。后续参与新需求(指标变动原因检测)的实现开发,已完成并上线。

金融文档文本预处理 (Fin-Document Text Preprocessing)

YEAR 2016-2018
读博起即于导师的创业公司中,以实习生的身份参与各类项目(金融文档相关)

相关工作包括但不限于:

  • 撰写公开金融文档爬取的初版脚本,目标为公开财报及募集说明书
  • 初版 PDF/Word 文档中的文本段落解析与汇总
  • 设计简单的断句分类模型判断相邻句是否因文档跨页、跨栏而被分割的断句
  • 负责初期的时间、金融属性、值的元组信息提取任务
  • 负责文档中的数据清理,包括但不限于异常字、词、句的筛除
  • 构造庞大的正则匹配知识库,以获取带单位名称的特殊值、特殊数字符号串等信息

YEAR 2019-2021
读博起即于导师的创业公司中,以实习生的身份参与各类深度模型相关基础建设

相关工作包括但不限于:

  • 基于 BERT/BERT-wwm/Albert 为下游任务准备金融文本的预训练模型
  • 负责公司项目中涉及的 Tensorflow 模型参数文件的加密解密
  • 设计了初版的表格语义合并模型(沿用断句模型思路,现已被新模型替代)
  • 基于 Ripgrepy 和 Redis 的明文文本存储的快速预料查询系统 Quaff

关联性与情感分析 (Relevance and Sentiment Analysis)

YEAR 2015-2017
于百度大数据实验室(BDL)实习期间,作为本科毕设课题,研究并实现基于在线研报的时事投资分析系统。
系统自动从在线研报网站轮询并实时解析。为从业者即时提供各篇新发研报涉及的股票及行业,并给出研报是看涨或看跌,其中部分模块及数据复用于百度后续项目。
成果形成毕设《Design of Real-time Investment Analysis System Based on Neural Network》,获重庆大学 2016 届校级优秀毕业设计(全计算机学院共3名)。

CDReader-XMind
如思维导图所示,项目分为多个模块:

  • 代理池模块,为爬虫模块维护可用代理池,已开源至 Github
  • 自动轮询爬虫,基于常见爬虫库与 PySpider 平台,自动轮询获取新增研报。
  • 实时文本分析,与实验室的 Ganbin Zhou 学长合作,借助 KnowledgeCNN 的设计,计算文本关联性及情感极性分析。
  • 展示部分使用简单的前端连接数据库,配置为时间线的形式。

CDReader-Page

跨模态推荐 (Multi-modal Recommendation)

YEAR 2015-2016
于百度大数据实验室(BDL)实习期间,参与百度与大悦城合作的优惠券推荐项目。
协助导师 (Ping Luo) 及学长 (Su Yan) 完成研究中的数据分析、整理以及最终的成果展示工作。
成果形成论文《From Online Behaviors to Offline Retailing》发表于 KDD2016。原文链接

o2otm_behav
o2otm_example