今天看了Tim Berners-Lee在TED上的演讲,非常有启发。第一次看到了动态的Tim有点吃惊。从之前看过的的照片中,我一直觉得Tim是文质彬彬的非常安静睿智的人。但视频中Tim非常活跃,有点神经质,语素很快,但很清晰,中间还带动观众与他一起大叫,有做励志课程讲师的潜质。
这次的演讲的主题是Linked Data,也算是一个老掉牙的话题了。中心思想是把过去的以视觉呈现为目标的互联网编程数据呈现的互联网。几年前推广XHTML时要求大家使用严格的html语法就有部分这种思想:过去我们用font标签设定某些文字如何显式,现在我们用p之类的标签来说明这些文字是什么,而如何显式就交给CSS来管理。这种做法相当于把Linked Data的思想相当程度上简化了,使之仅仅被用于网页格式输出。Linked Data的思想则更全面,也更难做。
把数据整理成易于处理的形式,在上面加上各种联系,这就是Linked Data。把Linked Data放到互联网上,使数据可以被人们更好的应用。Tim给了我们一个例子:用Google在寻找“What proteins are involved in signal transduction and are related to pyramidal neurons?”的答案,可以得到超过200,000项网页,但没有任何可以回答这个问题,因为之前没有人在网上问过;但搜索Linked Data,Tim得到了32个答案。Google搜索的对象是网页,但常常对我们最关键的是有关联的数据。
Tim说,很多时候人们不分享手中的数据库,只用这些数据来制作漂亮的网页。但我们希望的是“Raw Data”。常常我们被拒绝获取这些数据,尽管我们付了钱。
Linked Data看上去十分美好,但从我看来似乎有很多待解决的问题:
- 如何提取数据
我们已经有了成千上万个包含数据的网页,让我们手工的把这些数据提取出来难度很大。怎么样通过计算来自动提取这些数据?
- 如何记录数据
我们有了数据,需要好的方法来记录。对于文字数据来说,类似XML的文件记录看上去是不错的方案。但如何记录图片中的数据和视频中的数据?是把他们用文字描述出来再记录,还是用另外的方式直接记录?
- 如何表达数据
原始数据有用,但我们不能只把干巴巴的数据扔给读者,而需要“漂亮的”网页来呈现这些数据。前人已经有关于结合XML和TeX的研究,我相信格式方面是没有问题的。但是否能通过计算来自动组织文章,则是一个大的难题。比如我们有了关于奥巴马的数据,如出生日期、教育背景、家庭背景之类的,如何能让机器用语言来组织这些数据,成为一篇奥巴马的建立。这一方面需要期待人工智能和语言研究的发展。什么时候我们能做到这一步,自动写作这个迷人的目标就算实现了。
Tim还举了一个Linked Data的成果例子:DBPedia。DBPedia通过自动索引Wikipedia上的数据,形成了一个数据库。然后用户可以设定各种条件来搜索符合条件的数据。我从这个网站上亲身体验了一下,搜索到的数据通过图形的形式动态的表达出来,形成的网络非常令人震撼。
上网上搜索了一下,Linked Data的记录是用RDF(Resource Description Framework),一种类似XML的东西来完成的。通过这种格式的文章,可以记录大部分的数据。一个例子是用来记录朋友关系,每个人都可以生成自己的rdf文档,并在里面指向其他朋友的rdf文档。我的rdf文档在这里。
另外,通过维基百科之类的网站,发现关于Linked Data的中文资料相当少,例如在维基百科上,Linked Data和RDF的内容相比起英文维基百科页面的内容来少的可怜,需要人们投入精力翻译。有条件的同学不妨尝试着做一下相关的贡献。
2009年3月30日更新:找到了这个演讲用的幻灯片。
《Tim Berners-Lee关于Linked Data的演讲》有2条评论