太阳集团tyc9728学术报告

发布时间:2019-11-13浏览量:201

2019年11月8日13至14时,太阳集团tyc9728在中山北路校区文附楼118教室举办学术报告活动。来自字节跳动AI Lab的李磊博士带来了题为“Deep Text Generation: Models and Applications”的学术报告。

1573644260963094648.png

本次学术报告由太阳集团tyc9728的周昉老师主持。首先,周老师代表学院全体师生热烈欢迎李磊博士的到来。随后,周老师介绍李磊博士目前的研究兴趣是机器学习与自然语言理解和文本生成,他本科毕业于上海交通大学ACM班,博士毕业于卡耐基梅隆大学,在加入字节跳动之前,他曾经在加州大学伯克利分校和百度进行研究工作。此外,他在字节跳动的写作机器人Xiaomingbot项目中做的研究获得了吴文俊人工智能科学技术奖的第二名,整个学术生涯期间,李磊博士共发表过五十多篇科技论文,拥有三个美国专利。

报告开始,李磊博士回忆起本科时期,教他《数学分析》课的老师就是华师大人,笑称自己也是半个华师大的员工,会场气氛十分活跃。紧跟着,他开始围绕主题“深度文本生成”,从它用来做什么和怎么做两个角度展开具体论述。

1573644284463020732.png

首先,关于“做什么”,李磊博士介绍了文本生成在各领域中的应用。文本生成方向的主要应用有自动内容生成、智能辅助编辑、机器翻译和语义理解。工业界的具体应用中,新闻领域与之密切相关。讲者就自己的参与的Xiaomingbot项目进行了介绍。Xiaomingbot支持超过17项体育项目的新闻写作,支持语言包括汉语、英语和日语等。在足球比赛中,它能根据赛场情况、数据统计和视频关键信息来自动生成赛事新闻;在斯诺克比赛中,它将解说和视频作为输入,并利用计算机视觉技术识别球的轨迹和位置,预测球员将要的击打的球和击球位置。除此之外,写作机器人还能利用文章、视频寻找走失人员、帮助边远山区的农民写特产文案、做推广等。

1573644299831066469.png

接着,关于“怎么做”,李磊博士详述了所做的一些研究工作。文本生成的难点在于文本空间离散,空间维度高,文本可控性差和字符多义等问题。由此,引申出三个相关的任务:“数据到文本”、“写作风格控制”和“对抗文本生成”。“数据到文本”的过程中,为了解决Grid Beam Search解码器无法生成高质量句子的缺陷,研究引入“受限文本生成”的概念,通过一个包含“语义”和“通顺”两个元素的限制函数,来保证生成文本的质量。“写作风格控制”模块,通过Disentangled Latent Representation方法,将文本的语义和语法分开,从而让模型生成更流畅的句子和更多的信息,从而达到帮助创作者学习优秀作者的写作风格,写出更高质量的内容。“对抗文本生成”过程里,为了解决文本的噪声问题,研究引入了对抗模型,通过比较GHC,MHA和MCMC算法的实验结果,得出MHA算法的模型具有更好鲁棒性的结论。

最后,李磊博士又分享了两个实验室最新的研究成果。一是文本生成匹配的问题中,他将问题的核心聚焦于embedding过程,传统的方法是一个词用一个embedding来匹配,研究则采用kernelized贝叶斯方法,每个词用多个embedding来匹配,得到更好的效果。二是跨模态生成方面,利用多语言模型,如文本和图像结合作为输入,可以相较于单模态模型有更好的表现。紧跟着,讲者对全篇报告进行总结,感谢老师和同学们的聆听,并欢迎大家提问。

1573644313538052957.png

在场的诸位师生们也提出了自己的问题,发表了自己的看法。李磊博士针对性地做出解答。最后,周昉老师对学术报告活动进行总结,感谢大家的积极参与,期待系列活动越办越好。整场学术活动持续了近一个小时,与会师生均表示大有收获。

 


文案:骆绪锐

摄影:刘婷婷