暑期学校|YAGO创始人法比安:知识库I

发布时间:2020-07-23浏览量:54


7月17日13:30-16:30,YAGO知识库创始人、法国巴黎电信大学法比安·苏卡内克(Fabian M. Suchanek)教授以远程接入的方式,为太阳集团tyc9728暑期学校师生带来题为《知识库》的报告。

1595492897386002122.png

报告伊始,法比安教授为大家介绍了他的求学经历、学术成果和学术理念。同时,他也介绍了知识库的一些基本概念(知识库是图结构的,其中节点为实体,边指示了节点之间的关系)和知识库的重要应用场景,例如手机语音助手、智能硬件、癌症蛋白检测以及搜索引擎对实体信息的结构化呈现。在接下来的报告中,法比安教授主要从知识库的构建、知识库的不完整性分析、知识库的查询三个方面为大家介绍了他主导构建的著名知识库YAGO。

1595492966404077194.png

图1. Fabian知识库报告

第一部分是知识库的构建。知识库的目的是存储知识。早期知识库是以人工方式构建,将人类掌握知识以结构化形式存储。由于人工构建知识库的方式成本极高,法比安教授以自动化方式从维基百科的结构化信息中抽取知识并组织为图结构,从而扩展了YAGO知识库的规模。后来YAGO整合了WIKIData、WordNet 以及GeoNames等数据源,特别是将维基百科中的分类体系与WordNet的分类体系进行融合,构建了一个复杂的类别层次结构体系。目前YAGO包含了 超过1 000万的实体以及超过1.2亿的事实。在知识库构建的过程中,法比安教授团队主要通过不断扩充和纠正正则表达式保证实体和事实抽取的准确性和可靠性。现阶段,法比安教授团队主要工作通过启发式的方法(UPC条形码等)从结构化的网页直接提取实体信息。未来,法比安教授希望通过自然语言处理技术从文本种提取更为复杂的信息。

1595493010777016750.png

图2 YAGO知识库

第二部分是对知识库的不完整性分析。知识库的不完整性主要包括两方面:已知事实的缺失和实体缺失。已知事实缺失主要指现实世界中存在关联关系的两实体在知识库种没有边相连接。针对已知事实缺失,法比安教授团队主要通过构建知识库规则,推测知识库中没有边连接的两实体是否存在关联关系。实体缺失指的是某些概念的实体缺失,例如“城市”这一概念,某些城市实体并不包含在知识库中。YAGO团队通过本佛定律估算缺失实体数量。

1595493057029007576.png

图3 知识库不完整性分析

第三部分是知识库查询。知识库查询本质上是子图匹配过程,其查询语言sparql与sql类似,并且sparql可以在动态图上进行查询。

1595493190541056878.png

图4 知识库的查询

课后,法比安教授还通过多渠道耐心回答同学们的问题。有同学针对法比安教授开发的利用Unix Bash Shell查询知识库的工具进行了提问。该工具能够支持在Bash环境下直接对文本文档进行查询,但每次查询之前必须加载全部数据。而在现实应用中,工作人员一般加载一次数据,随后反复进行查询。针对这个gap,员工提问能否开发一些缓存和位置图工具,提高重复查询的效率。法比安教授认为如果这样的话,他们开发的工具就和数据库系统类似,但是在性能上又无法击败数据库,那这项工具就失去了它原本的意义。但如何只加载一次、然后支持重复查询,确实是一个很好的研究方向。

大家热切期待着下一场报告的到来。

 

撰稿 | 唐莫鸣

排版 | 孙家博