学术沙龙 | 2019年太阳成集团数据科学与工程研究生学术沙龙(第3期)成功举办

发布时间:2019-10-27浏览量:118

2019年10月21日9时,太阳成集团数据科学与工程研究生学术沙龙第3期在文附楼113教室如期举行。本次学术沙龙由张子豪同学主持,共有四场由太阳集团tyc9728的老师和研究生带来的报告。首先,博士生唐莫鸣作题为“文本摘要技术及其在金融领域的应用实践”的学术报告。之后,硕士生朱鹏作题为“命名实体识别技术及其在金融领域内的实践”的学术报告。接着,罗轶凤副教授作题为“知识图谱构建关键问题与技术”的学术报告。最后,硕士生梁鑫作了题为“基于金融事件的层级多标签文本分类”的学术报告。通过本次学术沙龙,增加了同学们对自然语言处理、知识图谱等技术及其应用的了解。

 知识图谱已经成为“大数据语义链接的基石”,对众多领域都具有重要的应用价值。构建知识图谱是一项具有高技术含量的综合性工程,除了对结构化数据的利用,构建知识图谱更需要利用自然语言理解、机器学习等技术从半结构化和非结构化数据中进行知识的抽取与整合。近年来,快速发展的深度学习和自然语言技术已经成为构建知识图谱的主要技术,基于海量文本数据构建大规模高质量的知识图谱也随着应用领域的扩展具备了更加广阔的应用与发展前景。

 唐莫鸣同学报告的主题是自动文本摘要,自动摘要是自然语言处理中一项重要任务。生成文本的“简要”版本同时保留大部分文本信息。这是智慧投研中不可或缺的一环。唐莫鸣同学首先介绍了现行的文本摘要方法,包括:抽取式摘要,生成式摘要,基于强化学习的摘要,基于预训练语言模型的摘要。这些方法大都借助神经网络结构学习到文本在语义空间中的连续特征,生成式摘要基于文本内容生成摘要,类似人类书写摘要的方式。抽取式摘要主要做复制和粘贴操作,选择文本中的相关句子将之组合形成摘要。部分生成式摘要方法使用抽取式摘要过滤冗余信息然后基于抽取结果进行文本生成。随后唐莫鸣同学介绍了金融领域新闻文本的数据集规模质量等情况并详细阐释了金融领域新闻文本的特点,包括树形层级类别标签树以及金融领域命名实体等相关信息。最后介绍了如何将金融领域的新闻文本特点与现有的文本摘要方法结合,让文本摘要技术应用在金融领域新闻文本中取得更好的效果。

1572183411935056191.png

 朱鹏同学的报告主题是“命名实体识别技术及其在金融领域内的实践”。首先对命名实体识别(NER)技术的基本情况进行了介绍,包括命名实体识别的定义、发展简史、常见实现方式、公开数据集和相关工具。接着按照NER的技术发展历史,介绍了实现NER的几类方法。包括:基于规则和字典方法、机器学习方法,深度学习方法和最新方法。其中重点了介绍条件随机场(CRF)模型。CRF是NER目前的主流模型,它的目标函数不仅考虑输入的状态特征函数,还包含了标签转移特征函数。CRF的优点在于其在为位置进行标注的过程中可以利用丰富的内部及上下文特征信息,应用广泛。之后介绍了一些常用模型,如“BiLSTM+CRF+fastText”、“ BiLSTM+CRF+Bert”和“IDCNN+CRF+fastText”,在金融领域中的长文本数据集和短文本数据集上进行NER的效果。最后朱鹏同学介绍了他自己提出的一个NER新方法。该方法利用多任务对抗学习和多头注意力机制识别实体,在四个公开数据集上达到了当前最好的效果。

1572183467283077578.png

 罗轶凤老师围绕知识图谱,结合实际应用给大家做了一个清晰详实的报告。谷歌公司在2012年5月17日提出知识图谱的概念, 并将以此为基础构建下一代智能化搜索引擎。知识图谱技术创造出一种全新的信息检索模式,为解决信息检索问题提供了新的思路。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。罗老师从什么是知识图谱,为什么要建立知识图谱出发,以现在业界主流的知识图谱DBpedia为例介绍了知识图谱在知识提取、缺失检索等方面的广泛应用,同时介绍了如何在现有知识图谱的基础上延伸。随着应用的广泛深入,知识图谱在关系抽取和内容摘要上也发挥着重要作用,尤其是在和领域知识结合时,可以对下游应用的研究加以辅助。最后,罗老师介绍了中文知识图谱在构建和应用上的一系列问题,以更为具象的实例加深了大家对知识图谱的理解。

1572183510547034713.png

 梁鑫同学从基于金融事件的层级多分类(Hierarchical Multilabel Text Classification)任务出发,围绕文本分类的基本框架介绍了该任务的基本需求和业务场景,结合传统处理方法和近年来提出的前沿算法介绍了在该问题上的一些实践和经验。文本分类是NLP研究中的基本任务之一,是很多文本处理比如内容和推荐、智能问答和在线推广的先驱任务。高质量的文本分类模型可以为下游任务的开展奠定良好的基础。层级多标签文本分类在实现每个文档多标签的基础上引入树形结构的层级标签体系。随着文本信息的愈加复杂和金融事件处理所必须的细粒度要求,层级多标签分类任务的处理越来越高。梁鑫同学围绕文本表征介绍了常用的稀疏表示和分布式表征,重点介绍了近年来引起学界和业界广泛兴趣的自回归和自编码模型。在常用的分类算法方面,介绍了基于拍平处理的TextCNN、TextRNN、RCNN和HAN算法,以及基于层级处理的HSVM和Deep Graph-CNN算法。最后,在如何处理大规模层级标签的问题上,重点介绍了基于层级父子关系提出的迭代正则方法(Recursive Regularization)和基于分治策略的递归层级分割算法(Recursive Hierarchical Segmentation)。

1572183547470048063.png

最后,主持人张子豪同学对本次学术沙龙做了总结,感谢各位老师同学的积极参与,鼓励同学们多进行学术交流,并欢迎大家继续参加下个月的学术沙龙活动。通过本次沙龙,加强了学术氛围,启发了同学们对各自的研究问题、方法以及应用的新想法。沙龙在热烈的掌声中圆满结束!

 

摄影 | 高瑞卿

撰稿 | 罗轶凤 唐莫鸣 梁鑫 朱鹏

排版 | 施若男