My Work

2021-12-12 留言

[TOC]

图例 (Legends)

按照常见的 STAR 表述法说明相关工作：
- Situation 📄
- Task 🛠
- Action 💡
- Result 🏆

研究方向 (Research)

按照时间从近至远的顺序，对研究过的方向简要介绍。
该部分将主要介绍个人提出的研究内容和创新点。

博士课题方向
- 中文拼写纠正 (CSC: Chinese Spelling Correction)
  - 研究如何提升模型对于真实场景录入错误的性能
    - 基于真实录入错误的分布，生成更加符合真实场景错误的词粒度混淆集
    - 参考多来源统计信息的差值作为错误可能性的依据
  - 研究错别字模型对于错误 pair 的记忆能力
    - 错误位置与纠错文本的任务拆解
    - 探讨错字问题对于模型而言是拟合还是泛化
- 中文实体识别 (CNER: Chinese Named-Entity Recognition)
  - 研究如何使得中文实体识别模型在边界检测上取得提升
    - 将基于跨度的方法适用于中文命名实体识别，提出训练时的比例采样
    - 显式建模模型预测时应该更倾向于实体的 surface string 还是 context
- 嵌套因果提取 (NRE: Nested-causality Relation Extraction)
非博士课题方向
- 自然语言接口 (NLIDB: Natural Language Interface to DataBase, or Text2SQL)

参与项目 (Involved)

按照时间从近至远的顺序，对参与项目进行简要介绍，
该部分为参与的项目中担任非主要职能或较少部分功能的。

AutoDoc
- 参与公司创立之初的初期建设。
- 💬 作为公司的核心业务之一，于公司创立之初参与该项目的初期建设。除上述提及的主要负责任务外，包括但不限于公开金融文档爬取、三元组提取、文档分类、文本跨页连接判断等。完善基本业务功能及框架（Rules & Theano）。
- 项目与港交所合作，获得中国首个 Regulation Asia 的年度 Outstanding Project 奖项。
- 负责金融文档相关的错别字检测与纠正模型，已上线作为金融文档复核的功能之一，为多家金融机构服务（Tensorflow & PyTorch）
PDFlux
- PDFInsight：负责为该项目中金融文档相关的模型参数进行加密解密，该模块后续也沿用至公司其它包括 AutoDoc 在内的多个项目中（Tensorflow）
- PDFlux：参与实现表格语义合并模型，现线上模型已被新模型替代（TensorFlow）

开源社区项目 BBCM
- 作为目前中文错字最大社区 PyCorrector 的常用解决方案，广泛用于相关工作中。

数据库的自然语言接口 (Natural Language Interface for DataBase)

YEAR 2020-2022
读博起即于导师的创业公司中，以实习生的身份参与各类项目（金融文档相关）

背景
- 在日常的生产中会产生大量的数据，如今各个公司都建立起自己的数据库，从而产生了需要从海量数据中挖掘与整理信息的需求，而操作数据库需要具有专业知识的人员。这些人员每日需要处理数量繁多但种类相近的需求，但由于表述不同、目标数据不同而不得已需要手动撰写大量的 SQL 查询，难以应对日益增多的查询和即时性的需求。
- 该任务学界称之为 NLIDB(Natural Language Interface for DataBase)，工业界称之为 Text2SQL，接受用户输入的自然语言问询，系统生成可执行的SQL语句，在链接的数据库上执行后，返回结果整理成图表的形式提供给用户。
任务拆解
- 意图检测(Intent Detection)
- 关键信息填充 (Slot Filling) & 缺失信息补全
- 后处理，包括语法格式修复等
采取方案
- 在”可执行SQL”与”自然语言”之间加入”中间语言”(IR, Intermediate Representation)作为链接桥梁
- 实现知识库 (KnowledgeBase)：”值-列-表”反查、数据库 Schema 热启动、实体链接
成果
- 首次作为主要负责人的大型完整项目，与海通证券对接，于深交所技术大会中获得2019年度研究课题二等奖，第七届证券期货科学技术优秀奖。
- 现本课题于中金所中标，参与该项目的个性化部署，进行语音文本转 SQL 实现”智能数据检索引擎”课题研究。

text2sql_query_frontend

命名实体识别 (Named-Entity Recognition)

YEAR 2019-2022
于读博期间，作为毕设方向，研究中文文本中的命名实体识别。
作为 NLP 下游任务的基石运用于轻量化信息抽取 P5 项目中

背景
- 从纯文本句子中获取符合预定义实体类型的所有命名实体（在句子中的位置与实体类型）
任务拆解
- Span candidate detection
- Entity typing (classification)
采取方案
- Share: Span-based method
- Span candidate filtering strategies
- Explict modeling the context information
成果
- 研究成果形成论文《Explict Modeling the Context for Chinese NER》，已投递 ACL-ARR 中。
- 研究成果形成期刊《Span-based Chinese Named-Entity Recognition with Span Filtering》，已投递 JCST。
- 基于本命名实体识别的公司主要产品 AutoDoc 与港交所合作，获得中国首个 Regulation Asia 年度 Outstanding Project 奖项
- 开源项目 PURE，当前方法在不使用额外知识与特征的情况下，可以在公开数据集 MSRA，Onto4，Resume 的排行榜上分别得到第 2，3，4 名的效果。

acl_cdnet

嵌套关系提取 (Nested Relation Extraction)

YEAR 2019-2020
于读博期间，作为毕设方向，研究中文文本中的复杂关联提取，具有代表性的为嵌套关系提取。

背景
- 从纯文本句子中获取复杂的嵌套关联信息
任务拆解
- 嵌套模型定义 (自底向上 / 有向图 / 二分图)
- 图中间节点(关系节点)的表示
采取方案
- 自底向上的通用嵌套关联提取框架 IterativeNN
- 面向因果嵌套关联特化的 Pairwise Causality Mining
成果
- 关于嵌套关联提取的研究成果
  - 发表论文《Nested Relation Extraction with Iterative Neural Network》于 CIKM 及 FCS。Paper
  - 跟随 Yixuan Cao 参与设计与实现自然语言处理 AI Solutions 平台 Foundry，贯通 NLP 任务的标注、训练、预测全流程，一体化处理文本语义。
- 关于显式嵌套因果关联提取的研究成果
  - 发表论文《Pairwise Causality Structure: Towards Nested Causality Mining on Financial Statements》于 ICNLP/NLPCC。 Paper
  - 根据本人调研得到的市场需求，分享初步设计理念并参与制定产品功能，即募集说明书智能刷报系统 Glazer。现已发布为”AI刷募集”相关软件与服务，为中信证券在内的多家券商服务。后续参与新需求(指标变动原因检测)的实现开发，已完成并上线。

金融文档文本预处理 (Fin-Document Text Preprocessing)

YEAR 2016-2018
读博起即于导师的创业公司中，以实习生的身份参与各类项目（金融文档相关）

关联性与情感分析 (Relevance and Sentiment Analysis)

YEAR 2015-2017
于百度大数据实验室(BDL)实习期间，作为本科毕设课题，研究并实现基于在线研报的时事投资分析系统。
系统自动从在线研报网站轮询并实时解析。为从业者即时提供各篇新发研报涉及的股票及行业，并给出研报是看涨或看跌，其中部分模块及数据复用于百度后续项目。
成果形成毕设《Design of Real-time Investment Analysis System Based on Neural Network》，获重庆大学 2016 届校级优秀毕业设计(全计算机学院共3名)。

CDReader-XMind
如思维导图所示，项目分为多个模块：

代理池模块，为爬虫模块维护可用代理池，已开源至 Github
自动轮询爬虫，基于常见爬虫库与 PySpider 平台，自动轮询获取新增研报。
实时文本分析，与实验室的 Ganbin Zhou 学长合作，借助 KnowledgeCNN 的设计，计算文本关联性及情感极性分析。
展示部分使用简单的前端连接数据库，配置为时间线的形式。

CDReader-Page

YEAR 2015-2016
于百度大数据实验室(BDL)实习期间，参与百度与大悦城合作的优惠券推荐项目。
协助导师 (Ping Luo) 及学长 (Su Yan) 完成研究中的数据分析、整理以及最终的成果展示工作。
成果形成论文《From Online Behaviors to Offline Retailing》发表于 KDD2016。原文链接

o2otm_behav
o2otm_example

My Work

图例 (Legends)

研究方向 (Research)

相关项目 (Projects)

参与项目 (Involved)

数据库的自然语言接口 (Natural Language Interface for DataBase)

命名实体识别 (Named-Entity Recognition)

嵌套关系提取 (Nested Relation Extraction)

金融文档文本预处理 (Fin-Document Text Preprocessing)

关联性与情感分析 (Relevance and Sentiment Analysis)

跨模态推荐 (Multi-modal Recommendation)