知识图谱本质上是对图结构模型的研究,包括AAAI、NeurIPS、IJCAI在内的诸多AI顶级会议都对知识图谱极为重视,在大量学者积极投入与研究后,知识图谱发展进程突飞猛进。
关于知识图谱的起源图结构模型,最早我们可以追溯到上个世纪。人们对图结构模型的研究贯穿于现代计算机技术发展的始末,并与人工智能的发展紧密贴合,共同进退。同时,其内部基础理论离不开语义Web、数据库、知识表征和推理、自然语言处理、机器学习等领域的研究。
接下来,本文会从知识图谱的起源开始,循序渐进地介绍其诞生的历史,并探讨该学科未来的研究方向。
一、数字时代降临,知识图谱前身语义网络模型初面世(20世纪50-60年代)
在数字计算机出现,第一代编程语言诞生时起,一个崭新的科学研究领域:计算机科学诞生了,它标志着数字时代的伟大降临。
在年,国外研究学者Newell、Shaw和Simon开发出了“LogicTheorist”,这是第一个标志性的处理复杂信息的程序。两年后,他们又开发出了“通用解题程序”,该程序是其研究工作的一部分,目的是理解人类智能、适应能力和创造能力背后的信息处理机制,构建可以解决对智能和适应性有所需求的计算机程序,并探索这些程序中有哪些可以与人类处理问题的方式相匹配。同时,这也标榜着自动推理线程的启动。后续理论产出有Robinson第一定理(归结原理),以及Green和Raphael通过开发问答系统将数据库中的定理证明和演绎联系起来的证明。实践有OsephWeizenbaum的ELIZA系统。只要程序编写正确,该程序就可以用英语进行关于任何话题的对话。
同期,作为知识图谱前身的“语义网络”诞生了,是在年由RichardH.Richens提出。“语义网络”起初被当作自然语言机器翻译的一个工具,后在年由奎林(J.R.Quillian)深化概念,明确了其是用图来表示知识的结构化方式的理念。其底层逻辑为在一个语义网络中,信息被表达为一组结点,结点之间彼此相连带标记的有向直线用于表示它们的关系。
一旦具备了一定的计算能力与自动推理能力后,人们开始可以从非结构化数据,例如文本数据中获取有效信息。其中,具有里程碑意义的项目是BertramRaphael于年发表的SIR:AComputerProgramforSemanticInformationRetrieval。该系统使用单词关联和属性列表来建模对话语句中传达的关系信息。同时,他们通过格式匹配处理程序从英语句子中提取语义内容。
以上种种研究领域的突破让人们逐步了解到自动推理的重要性和可行性,使用计算机技术理解自然语言的急切需求,语义网络(和更加通用的图表征)作为抽象层的潜力,系统和高级语言对于管理数据的相关性。当然,早期技术上的局限性也凸显了出来,例如硬件的物理、技术和成本限制;图表征和线性之间的差异;人类语言逻辑和计算机系统处理的数据之间的差异等等问题。
二、万维网广泛应用,图形化模型略展锋芒(20世纪80-90年代)
20世纪80年代,随着国外个人电脑的蓬勃发展,计算机技术逐步深入到家家户户。
在数据管理领域,关系型数据库工业发展迅速(Oracle、Sybase、IBM等公司纷纷入场)。在年,TimeBerners-Lee发明了万维网,实现了文本间的链接,并在后续几年得到了快速应用。
万维网通过超文本标记语言(HTML)把信息组织成为图文并茂的超文本,利用链接实现在站点之间的跳转,彻底改变了人们交流和交换信息的方式,也摆脱了以前查询工具只能按特定路径一步步地查找信息的限制,打破了时间与空间的限制。
与此同时,学术界继续加深了对图形化模型的研究,如Harel于年提出的图形化编程语言「HiGraph」,开始将图作为面向对象数据、图形化和可视化界面、超文本系统等的表征方式,又如AlbertoMendelzon他们使用图上的递归式来开发查询语言,这是现代图查询语言的基础。
三、海量数据和知识喷发,知识图谱诞生(21世纪)
在21世纪,国外电子商务、在线社交网络(例如,Facebook、Twitter)爆炸式增长,从而产生了海量数据。人们第一次面对如此庞大的数据量,但这也让人们对数据的开发与利用产生了全新的认知。人们开始使用新的系统与方法论,如统计方法(通过引入深度学习),
开始在各式各样的落地应用场景中,展现了超越逻辑方法的性能与效率表现。
与此同时,谷歌和亚马逊等互联网公司率先打破常规企业数据管理的思维,跳脱出来,开始构建起互联网数据管理的壁垒,搭建属于自己的互联网帝国,并催生了NoSQL数据库,它再一次普及了针对列、文档、键值和图数据模型的数据库管理系统。
海量数据的存在也为人工智能的发展,如统计方法、机器学习、深度学习提供了充实的养料。人们认为统计技术是从已知的事实中推导出新的事实,它使实际应用中的逻辑方法不像以往那样受人