RDF效率 的评测 – 翻阅资料

“RDF效率” 问题是在建立“知识库”(或者“语义网”)所遇到的一个主要问题,RDF的存储系统在市面上有很多,Jena, Virtuoso, Sesame, BigData, BigOWLIM等开源系统,AllegroGraph,Marklogic等商业系统,大公司Oracle的Spatial and Graph也开始支持RDF的查询。这么多的框架该如何选择,哪个系统最适合手头的项目,这变成了一个重要的问题。该文整理了查阅工作的一些资料和心得,免得以后做重复的工作。

“RDF效率” 的问题,是在建立“知识库”(或者“语义网”)所遇到的一个主要问题,RDF的存储系统在市面上有很多,Jena, Virtuoso, Sesame, BigData, BigOWLIM等开源系统,AllegroGraph,Marklogic等商业系统,大公司Oracle的Spatial and Graph也开始支持RDF的查询。这么多的框架该如何选择,哪个系统最适合手头的项目,这变成了一个重要的问题。该文整理了查阅工作的一些资料和心得,免得以后做重复的工作。

查询关键词:rdf benchmarks,rdf store benchmark,Effective Searching of RDF

信息较集中的网站,可以找到W3给了很多的支持

RDF Store Benchmarkinghttps://www.w3.org/wiki/RdfStoreBenchmarking

按照网站的原话,这个网站搜集了许多RDF的评测,评测结果和论文。所以基本上把这个页面链接的内容搞清楚,基本就了解的差不多了。

Large Triple Storeshttps://www.w3.org/wiki/LargeTripleStores

 这页面给了一些关于大规模三元组部署的摘要。

DB-Engines – http://db-engines.com/en/ranking/rdf+store

这是一家瑞典Solid IT公司做的数据库评测网站,里面给了各种数据库的评测结果,也包括RDF的,结果一直有保持更新,具体的评测标准没有特别的研究,所以没办法就他们给的评级结果一个评价。

从上面的一些网站里面可以找到许多业内常见的评测,比如:

柏林SPARQL评测,是一个建立在电子商务情景下的评测,主要测试几个不同系统的三元组读取效率,查询效率以及数据存储大小。该评测做了一个很详尽的评测标准,可以用他们的方法来评测我们自己的系统。他们最新的一次评测是在2013年做的,是有点老了,不过里面的数据还是值得看的。

Berlin SPARQL Benchmark (BSBM) Specification – V3.1

http://wifo5-03.informatik.uni-mannheim.de/bizer/berlinsparqlbenchmark/results/V7/index.html

该评测测试了Virtuoso,BigData,Jena TDB和BigOWLIM四个系统,同时这个评测的三大特色是:

  1. 三元组数量在1500亿的测试;
  2. 第一次针对商业信息的测试;
  3. 采用了分布式的部署。

Christian Becker – RDF Store Benchmarks with DBpedia

http://wifo5-03.informatik.uni-mannheim.de/benchmarks-200801/

这个评测也介绍几个常见的系统,Virtuoso, Sesame,同时也和传统的关系数据库进行了对比。

文章:

Robin Bloor (2015) The Graph Database and the RDF Database

http://insideanalysis.com/2015/01/the-graph-database-and-the-rdf-database/

该文讲述了图数据库和RDF数据库的区别,即RDF数据库的杀手锏在于“推理”,但是图数据库没有,这样RDF数据库就可以就复杂的问题进行操作。同时他也提及,RDF数据库将来会从图数据库中脱离出去,

Both the RDF and Graph database would handle such a query and return the same results quickly. But if you ask the very different question, “Which influencers have had the same pattern of influence on Twitter over the last six months?” you are asking both for graph processing and set processing at the same time to get to the answer, and the RDF databases do both well. Not only that, but this is an area of analytics, which was virtually untapped until recently, because there was no software that could easily do it.

对于RDF和图数据库的选择一直是一个问题,招目前来看,确实图数据库没有任何的推理能力,但是不知道日后是否会增加这项功能,就非常不好说,所以,我也一直关注着Neo4j,目前市面上排名第一的图数据库。

演讲稿:

Shady Elbassuoni (2011) Effective Searching of RDF Knowledge Bases

http://centres.smu.edu.sg/larc/files/2013/01/Shady_Elbassuoni_Searching_RDF.pdf

Shady在2011年的博士论文的演讲稿,也能找到他的论文,可以拜读一下(目前还没看,看完之后再补上读后感吧)

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.