2019年5月8日下午,太阳集团tyc97282016级学术型硕士毕业生答辩会分别在数学馆106、地理馆201举行。崔屹峰、金丽娇、郁可人等14位毕业生参加了答辩,参加此次答辩会的老师有复旦大学沙朝锋副教授、钱卫宁经理、周烜副经理及专业老师等。
参与答辩的同学在答辩过程中围绕研究主题,清晰地阐述了自己论文的选题目的、理论框架、研究问题的方法和效果及其实际意义。以下是各位同学的答辩内容概述:
崔屹峰
《基于深度学习的蛋白质-配体结合残基预测》
蛋白质在生物体的生命活动中发挥至关重要的作用,解码蛋白质氨基酸序列到结构与功能的映射关系是21 世纪生物学的研究重点。论文采用深度学习方法对蛋白质-配体结合残基进行了预测。结合残基与蛋白质功能紧密相关,对于药物设计、疾病治疗等有重要的指导意义。当前深度测序技术的发展产生了海量的蛋白质序列,而相应的结构和功能信息却十分匮乏,因此基于序列预测蛋白质-配体的结合残基具有重要的理论研究意义。
该项研究将深度学习引入了蛋白质和小分子配体结合残基识别的问题,采用深度卷积网络,从蛋白质序列到配体结合残基进行了端到端的预测,有效捕获了序列上的长距离依赖,在未使用任何蛋白质空间结构的前提下,标准数据集上的测试结果显示其性能优于具有代表性的COACH方法。该项研究还对所提出方法的架构进行了优化,有效提升了网络的并行度。基于上述研究成果,在BMC Bioinformatics上发表了论文一篇。
金丽娇
《基于深度学习的答案选择方法研究》
自动问答是计算机与人类以自然语言进行交流的一种方式,答案选择方法是自动问答的一个重要组成部分。该项工作从语义表示和语义匹配两个角度对答案选择任务展开研究。在句子对语义表示的层面,从对齐特征的学习进行展开,提出采用残差连接的方式学习对齐特征,并通过实验表明了该方法在答案选择任务中的有效性。在句子匹配的层面,分别从匹配矩阵的构建和匹配矩阵的特征提取两方面进行展开,提出了一种深层匹配模型,并从不同的语义层面上构建语义匹配矩阵,利用DenseNet网络对匹配矩阵进行特征提取,该模型在答案选择任务中取得了较好的效果。
郁可人
《基于情感分类的特征表示研究》
在自然语言处理的很多任务中,都需要学习语句的向量表示,如何通过调整特征表示的方式来提高自然语言处理任务的效果成为一个亟待解决的问题。该项研究的内容可以分为单词情感分量调整和多层级情感分类器的设计。单词情感分量调整的调整对象是用于迁移的预训练词向量,通过寻找词向量的情感分量,并使用情感词典提供的先验情感信息调整情感分量的模长,从而提高预训练词向量的性能。情感分类需要分类器能够收集各个层面的特征,多层级情感分类器集成了多个基分类器,使用LSTM-Attn模型收集文本序列特征,使用DAN模型收集文本词袋特征。考虑到当特征数量过多时容易出现过拟合现象,即部分特征参与学习过多而其他特征难以得到训练的问题,为此在训练基模型时采用了类似随机森林的策略,随机遮掩了部分单词特征和部分训练样本,让更多特征有机会参与训练,增加基模型的多样性。
韩易
《基于深度学习的内容自动生成》
内容自动生成是一个很广泛的话题,可以包含机器翻译、自动生成摘要,自动生成图像、图像理解、手语翻译等。本项研究工作包含了内容自动生成中的两部分内容:一部分是给定web手绘页面自动生成对应的DSL代码(即图像理解问题);另一部分是自动生成图像问题。
第一部分研究内容的问题定义是:对于给定的web手绘页面输入,模型的输出是对应的DSL代码。DSL代码类似于HTML代码。论文在普通的解码器-编码器模型的基础上,通过使用MaskRCNN作为目标检测器来改善图像编码,使得模型可以同时关注于图像的整体特征与局部特征;并且使用CNN替换RNN处理文本序列,避免RNN在处理文本信息时速度缓慢的问题。
第二部分研究内容的问题定义是:模型能够自动生成图片。论文在生成对抗网络的基础上,使用WGAN代替GAN,WGAN采用的EM距离弥补了原始JS距离的不足,一定程度上减轻了了模式崩塌问题;同时使用了Transformer编码器的架构,其中的多头自注意力机制可以帮助模型学习到大范围依赖关系。
陈雷慧
《用户在线行为向量化模型及其应用》
论文研究内容是用户在线行为的建模与应用。一方面,随着互联网与各行各业的进一步融合,互联网渗透到人们日常生活的速度逐步加快。这些应用和服务的发展,在加快互联网普惠化的进程的同时,也带来了“信息迷航”、“信息过载”等十分棘手的问题,使得用户在面对海量信息时无法高效便捷地找到真正满足自己需求的内容。另一方面,用户历史行为数据的爆炸式增长,导致现有的用户行为建模方案在应对数据的海量性、稀疏性、异构性和低质性等方面还有很大的提升空间。本次答辩主要汇报了从二分网络表示学习和跨领域迁移学习两个角度所提出了三种用户在线行为向量化算法,旨在缓解数据稀疏性、异构性和低质性带来的问题,以更加高效、简洁的方式为用户提供个性化服务,帮助用户快速决策。
孙晨
《基于深度学习的糖尿病视网膜眼底图像分析》
论文的研究方向是基于深度学习的糖尿病视网膜眼底图像分析,糖尿病视网膜病变是糖尿病最严重也最常见的并发症之一,表现为眼部的微血管病变,严重时可致盲,因此提供自动视网膜眼底图像分析算法并构建模型对于辅助医疗诊断过程具有重要的意义。
基于深度学习的方法,对视网膜眼底图像进行研究分析,首先针对图像分类和分割任务分别进行了不同的数据预处理和数据扩增,包括图像去噪、归一化、弹性形变等,在对数据清洗的同时有效增加了数据量,在此基础上建模分析,提出了针对糖尿病视网膜病变的分类网络和具体病变区域检测以及血管分割的分割网络,形成了一套较为完整的基于视网膜眼底图像的疾病程度判断、病灶区域分割以及眼部血管分割的分析流程,并尝试给出了糖尿病视网膜病变严重程度诊断结果的相关解释。
顾航
《面向初等数学的知识点关系提取研究》
知识点之间的关系是构建知识体系的核心任务,知识体系可以帮助在线教育平台在资源整合、人群画像、个性化推荐等任务上取得更好地表现,因此提供知识点间的有向关系算法具有重要的研究意义与应用价值。本项研究工作通过深度学习方法自动发现初中知识点之间的关系,从而构建初中数学知识体系。
工作中提出了两个基于深度学习的关系提取算法。首先考虑到GCN模型在获取句子顺序信息上的不足,以及LSTM难以提取句子中相邻单词之间的局部相关信息的缺点,通过结合GCN和LSTM模型各自的优势,提出了GCLSTM模型。该模型充分利用GCN的门线性单元提取句子中与目标实体相关的多点信息,并通过基于关系表示的注意力机制为多点信息加权,运用双向LSTM整合带权多点信息,从而实现知识点间的关系提取。然后,考虑到GCLSTM模型难以提取长依赖局部信息以及效率较低的缺陷,基于Transformer架构与关系表示的注意力机制,提出了适用于有向关系提取的BTRE模型,该模型能够提取单词之间的长依赖的有向信息,并具有较低的模型复杂度。最终设计并实现知识点关系提取系统。该系统能够进行数据处理、在线标记、支持模型训练与可视化、知识体系展示等功能,支持团队多人同时进行知识体系构建工作。
涂云山
《面向NVMe和RDMA的分布式存储系统研究与实现》
论文基于NVMe和RDMA等新型硬件的特点,提出了一种定制化的、分布式表格存储架构。在系统设计中,具有更高的内部耦合性,数据分布更相关,没有不必要的功能冗余,提高了资源的使用效率。基于这样的设计,实现了一个可以运行的原型系统,较主流的分布式系统,展现出了很好的性能。
肖垚
《面向数据市场的多租户查询负载优化处理技术》
研究工作从定义价格模型和服务过程中优化负载集成与查询调度三个方面展开。在价格模型方面,根据基于传统的查询响应时间与基于订阅数据集规模的价格模型这类传统云服务价格模型的不足,提出了基于“单位数据量查询响应时间”的价格模型。将查询的响应时间与查询关联数据集的大小结合起来考虑,有助于服务商优化服务。
在具体服务过程中,从负载集成和查询调度两个方面出发,先根据租户的负载的特点,将其集成到基于内存-磁盘的双引擎数据库系统。在租户调用服务过程中,针对多个租户同时提交的查询请求,进行调度。通过预期的收益,为查询指定执行顺序。最后,通过实验验证了论文提出方法的有效性和可行性。
黄建伟
《可扩展数据库系统数据完整性约束的实现和优化》
论文以数据库系统中的数据完整性约束问题为出发点,深入研究了如何在可扩展数据库系统中实现实体完整性和参照完整性这两类最主要的完整性约束。论文选题来源于实际应用,具有较高的研究价值和现实意义。
该论文首先针对实体完整性和参照完整性约束相关功能的事务特点,总结了一类具有普遍意义的隐式长事务操作,并进一步给出了这些隐式长事务操作在可扩展数据库系统中的详细实现算法。其次,提出了轻量级的主键生成管理器、自适应的批处理以及分布式并行处理等一系列优化技术,提升了分布式和高并发环境下的事务处理性能。最后,在开源的可扩展数据库系统CEDAR中集成了论文提出的实现方案和优化技术,并且通过大量的实验进一步证明了这些方法都是正确高效的。
李敏茜
《基于轨迹数据的套牌车检测技术研究》
论文基于车辆轨迹数据,提出一个三阶段的套牌车检测框架。在预处理阶段,首先从交通卡口监测数据中提取车辆轨迹,针对提取的数据,进行轨迹噪声清洗,同时对卡口间的近邻关系进行分析。
在可疑车牌识别阶段,针对使用固定速度阈值带来的低检测精度问题,考虑利用历史轨迹数据提取不同时段下各路段的正常速度阈值,提出了一个基于历史速度阈值的可疑车牌识别算法。然而,由于轨迹数据的偏态分布,对于部分历史轨迹稀疏的路段,基于其速度分布提取的速度阈值不能准确评测车辆的异常行为,存在一定程度的误判。考虑移动对象在局部时空范围内与其近邻具有相似的移动行为,引入局部近邻行为差异评测机制,提出了基于历史速度阈值与实时局部近邻行为差异的可疑车牌识别方法。
在套牌车移动行为分析阶段,针对使用同一车牌的不同车辆轨迹混杂给行为模式分析带来的挑战,我们提出了基于匹配度与最短旅行时间的车辆轨迹识别方法,并结合频繁模式挖掘技术提出了套牌车移动行为模式提取方法。最后在真实数据集与合成数据集上进行了大量实验验证了论文所提框架的有效性。
张尹
《基于数组数据模型的多版本压缩技术研究》
论文从存储和查询的角度对基于数组数据模型的多版本压缩技术进行探索。存储方面:同时考虑总存储,总恢复和最大恢复三个维度探索多版本压缩中存储与恢复之间的权衡,结合生成树等设计算法来找到多版本压缩存储策略。查询方面:形式化定义了两种面向多数组的环状聚集查询,综合利用版本恢复链接.等长环状聚集.数组部分化和缓存处理设计了高效的查询处理算法。
王双龙
《面向分布式数据库的子查询及优化实现》
论文的主要研究内容是在分布式数据库下,实现子查询功能以及对子查询进行逻辑优化等。在工业生产实践中,复杂的业务场景需要丰富的子查询的功能来处理。该论文结合可扩展分布式数据库系统架构,在原有子查询的架构上,设计并实现了in子查询和exists子查询功能。
对于分布式环境下的子查询处理,由于子查询的多次执行导致大量的磁盘I/O,数据跨节点传输导致通信代价的增加等因素造成子查询执行效率低下,因此对子査询的执行进行优化非常重要。同时,通过去掉子查询,减少查询层次,将原包括子查询的查询语句转换成等价的执行效率的逻辑计划,达到提高执行效率的目的。最后,经过比较优化前后的系统性能,证实优化后执行效率更高。
王苏翔
《面向日志合并树的异步更新二级索引设计与实现》
通过对日志合并树架构下的数据库系统及其二级索引的设计与实现进行研究,发现了使用同步更新的方式维护二级索引增量数据存在的弊端。为了实现对实时应用程序写事务的高度可扩展性和对海量数据的高效查询,设计并实现了异步更新二级索引,降低了维护索引表增量数据的开销,提高了索引静态数据构建的性能。
异步更新索引在事务写入节点中只保存了简单的增量记录,使用轻量级的线性数据结构取代了复杂的树形结构,减轻了事务处理的开销,增量数据的更新也被推迟到查询阶段执行。由于索引表的更新操作不再是事务处理的一部分,所以查询的一致性问题也是必须要考虑的。论文中提出在访问索引表时提供一个一致性快照。同时,也对静态索引的构建进行了优化,使得任务的分配工作由主控节点根据负载提前将任务分配好并交给工作节点执行。经验证,这些对于索引和任务分配的优化显著提高了系统的可用性。
这次答辩检验了公司硕士毕业生的学术水平,进一步锻炼了他们对于研究内容准确阐述的能力。同时,答辩委员会的老师们也以严谨治学的学术精神,对提交的学位论文按照标准进行严格考核,并向各位同学进行提问,最终提出进一步改进的意见和建议。希望毕业生们在追求梦想的路上更加努力,变得更加优秀!
撰稿 | 曹云昀 熊双宇
摄影 | 杨大为
排版 | 方敏