2019-05-08 CHAPTER 1 What is the Semantic Web?

SMART WEB, DUMB WEB?

Smart web applications

Web充滿了智能應用程序,每天都有新的創(chuàng)新。曾經看似未來主義的想法現在已經司空見慣;搜索引擎使匹配看起來深刻和直觀;商業(yè)網站會以不可思議的方式為你的購買模式提供個性化的聰明建議;地圖站點包括關于世界地理的詳細信息,它們可以規(guī)劃路線和測量距離。天空是web站點所能利用的技術的極限。世界上的每一種信息技術都可以在一個網站上使用,其中很多都是。具有新功能的新站點經常出現。但是Web基礎設施在使這些應用程序“智能”方面扮演什么角色呢?讓Web基礎設施足夠智能,以包含所有這些技術和更多技術,這是很有吸引力的。基礎設施越智能,網絡的性能就越智能,對吧?但是,Web基礎設施不可能為我們可能在Web上使用的所有(甚至任何)技術提供特定的支持。Web中的智能行為來自Web上的智能應用程序,而不是基礎設施。那么,基礎設施在使Web智能化方面扮演了什么角色呢?有角色嗎?我們在Web上有智能應用程序,所以如果基礎設施中沒有智能,我們?yōu)槭裁催€要討論增強Web基礎設施來構建更智能的Web呢?我們改進Web基礎設施的原因是允許智能應用程序發(fā)揮其潛力。即使是最有洞察力和最智能的應用程序,也只能根據其可用的數據來判斷其是否智能。不一致或矛盾的輸入仍然會導致混亂、斷開連接、“愚蠢”的結果,即使是非常智能的應用程序。語義Web設計的挑戰(zhàn)不在于使Web基礎設施盡可能地智能化;它的目的是使基礎設施最適合于集成Web上的信息。語義Web沒有使數據變得智能,因為智能數據不是語義Web所需要的。語義Web只需要將正確的數據放到正確的位置,智能應用程序就可以完成它們的工作。因此,要問的問題不是“我們如何才能使Web基礎設施更智能?”而是“Web基礎設施可以提供什么來提高Web數據的一致性和可用性?”

Connected data is smarter data

即使面對智能應用程序,斷開連接的數據也會導致愚蠢的行為。但是網絡數據并不一定是智能的;這就是應用程序的工作。那么,我們可以從Web應用程序中的數據實際有效地期望什么呢?簡而言之,我們想要的數據不會讓我們驚訝于不一致,這讓我們想說,“這沒有意義!”“我們不需要智能網絡基礎設施,但我們需要一個網絡基礎設施,讓我們能夠將數據連接到智能網絡應用程序,從而增強整個網絡體驗。網絡似乎更智能,因為智能應用程序可以獲得他們需要的數據。

國家公園附近的酒店:兩個網站應該對等,更新了酒店位置,其他列出酒店位置的列表網頁也應該更新。兩個源信息應該同步,不會出現同一個網站在不同頁面現實的信息不同造成混淆。

mapping:會議網站和酒店網站,我們希望能夠互相自動理解并關聯(lián),不應該由人工將信息從一處復制到另一處,輸入起點和終點,網站可以找到最短路徑。

天文網站:可以持續(xù)同步更新。

SEMANTIC DATA

在上述三個例子中,data描述的是信息的表示而不是現實中的實體,能否有一個應用能夠提供完整的對象描述以及對象之間的關系,而不只是信息的表示。

方法一:支持關系數據庫,從數據庫執(zhí)行查詢來生成頁面,通過更新數據庫來更新頁面。困難:對于國家公園和酒店例子,不可能有一個數據庫同時驅動兩個頁面,分屬不同單位維護。解決:給應用加一個有組織的查詢,協(xié)調數據單視圖和表示,但無法解決mapping例子的問題。

方法二:用某種語言編寫程序保持不同地方的數據更新,如XML。缺點:要求根據不同需求編寫代碼。

共同趨勢:不再將人眼能夠看到的數據顯示形式作為主要的數據表示,網站不再是頁面的集合而是數據的集合,并能夠生成頁面。

A distributed web of data?

語義網的主要思想是在數據層支持分布式網,而不是表示層。使用全局引用URIs,一個數據項指向另一個,而不是一個頁面指向另一個。Semantic modeling Web基礎設施提供了一個數據模型,在這個模型中,關于單個實體的信息可以分布在Web上。這種單一的、連貫的應用程序的數據模型并不是存儲在應用程序中,而是作為網絡基礎設施的一部分。檔Mongotel發(fā)布關于酒店和位置的信息時,并不是僅僅發(fā)布一個人眼可見的信息,而是一個分布式的、機器可讀的數據描述。這種語義網基礎設施用來表示分布式網絡數據的數據模型叫做RDF。

這種單一的、分布是的信息模型可以將語義網的基礎設施變成更加智能的網絡。就像Web應用中的數據驅動一樣,語義網基礎設施允許數據驅動表示,這樣不同的web頁面可以為一致的信息體提供視圖。

Features of a Semantic Web

Give me a voice .? .? .?

WWW:.?“A nyone can say A nything about A ny topic

這也意味著網絡就像一個數據荒野——充滿了有價值的寶藏,但過度生長和糾結。即使是您可以找到的有價值的數據,也可以采用多種形式中的任何一種,以適應它自己的那部分荒野。與大型企業(yè)數據中心的情況相反,在大型企業(yè)數據中心中,一個數據庫管理員以鐵腕的方式管理對數據庫的任何添加或修改,而Web沒有看門人。任何東西都可以在那里生長。分布式數據網絡是一個有機的系統(tǒng),它的貢獻來自于所有的資源。對于那些試圖理解網絡信息的人來說,這可能會讓他們抓狂,但正是這種網絡上的言論自由讓它成為了一種自下而上的草根現象。

. So l may speak!

在文檔web的早期,經常會有懷疑這,關于全世界范圍內的網上充滿不同話題,并且之間通過超鏈接連接,他們會問,誰來做這些頁面?

每個人都可以提供內容,很多人都想通過web來說話。導致了合作的眾包,出現了像維基百科、互聯(lián)網電影數據庫

文檔Web的發(fā)展得益于一個稱為網絡效應的良性循環(huán)。在像Web這樣的貢獻者網絡中,基礎設施使任何人都可以發(fā)布。這就是網絡效應的基礎:現在玩游戲的人越多,對新玩家的吸引力就越大。

填充語義Web的大量信息都是從文檔Web開始的,有時是以表、電子表格或數據庫的形式,有時是像Wikipedia這樣有組織的團體工作。誰在做將這些數據轉換為RDF以進行分布式訪問的工作?在語義Web的早期,幾乎沒有這樣做的動機,而這主要是由對語義Web技術本身感興趣的先驅者完成的。隨著越來越多的數據以RDF形式可用,編寫使用這種分布式數據的應用程序變得越來越有用。已經有幾個大型的RDF公共數據源可用,包括一個名為dbpedia的RDF Wikipedia圖像,以及數量驚人的大量政府數據集。小型零售商使用一種名為RDFa的語義Web格式發(fā)布關于其產品的信息。Facebook允許內容管理器使用RDFa和一種名為Open Graph Protocol的格式提供結構化數據。這些數據源的存在使得以鏈接形式為語義Web生成數據更加有用。語義Web設計允許它從驅動文檔Web的相同網絡效應中獲益。

What about the round-worlders?

網絡上的兩個人在很多方面可能會有不同意見。我們將用冥王星作為一顆行星的例子來說明它們中的每一個:

They may fundamentally disagree on some topic。他們可能在某些問題上存在根本分歧。雖然國際天文學聯(lián)合會已經改變了對行星的定義,不再把冥王星包括在內,但并不是所有的天文學俱樂部甚至國家機構都同意這種分類。特別是許多占星家,他們有既得利益考慮冥王星是一個行星,已經決定繼續(xù)考慮冥王星作為一個行星。在這種情況下,不同的消息來源將完全不一致。

Someone might simply be mistaken.?那些推銷描繪九大行星的海報、模型或其他作品的人有充分的理由推遲報告國際天文學聯(lián)合會的結果,甚至散布有關事態(tài)的不確定性。有人可能只是搞錯了。Web站點是由人類構建和維護的,因此它們容易受到人為錯誤的影響。一些網站可能錯誤地將冥王星列為行星,甚至可能錯誤地沒有將八顆“非矮行星”中的一顆列為行星。有些信息可能已經過時了。世界各地都有許多展示太陽系尺度模型的展覽,其中行星的狀態(tài)簡直是刻在石頭上的;這些行星將繼續(xù)把冥王星列為行星,直到有資金為第九顆行星雕刻一個新的描述。網站不是刻在石頭上的,但是更新它們是需要努力的;并不是每個人都急于實現這一目標。

語義網常常被認為是讓大家同意單一的本體,這不是web要做的工作。語義網不是要讓大家都同意,而是要在一個并非所有人都同意的世界中應對問題,并實現某種程度的互操作性??倳卸鄠€本體,就像任何給定主題總會有多個web頁面一樣。Web是創(chuàng)新的,因為它允許所有這些多視點共存。

To each their own

Web基礎設施如何支持這種意見的變化?也就是說,對于同一個話題,兩個人怎么能說不同的話呢?有兩種方法可以解決這個問題。首先,我們要討論一下如何在web上下文中做出任何聲明。

國際天文學聯(lián)合會可以用通俗易懂的英語來陳述冥王星,比如“冥王星是一顆矮行星”,但這樣的陳述充滿了自然語言中固有的歧義和上下文依賴關系。我們認為我們知道“冥王星”指的是什么,但是“矮行星”呢?有沒有可能有人對什么是“矮行星”持不同意見?我們怎么能討論這些事情呢?

在全局web上發(fā)表聲明的第一個要求是使用全局方法來標識我們正在討論的實體。我們需要參考?冥王星的概念,是由國際天文學聯(lián)合會?和?冥王星的概念是由美國聯(lián)邦的占星家?如果我們甚至希望能夠討論是否這兩個組織是由這些名字指的是同一件事。

除了冥王星,另一個天體也被歸類為“矮行星”。這個物體有時被稱為UB313,有時被稱為Xena。我們怎么能說IAU所知的UB313就是它的發(fā)現者邁克爾·布朗所說的“Xena”呢?實現此目的的一種方法是讓名稱的全局仲裁者決定如何引用對象。然后布朗和IAU都可以提到這個“官方”名稱,并表示他們使用了一個私人的“昵稱”。當然,IAU本身就是一個很好的對象,但是命名對象的過程已經花費了兩年多的時間。想出好的、大家都認可的全球品牌并不總是一件容易的事情。

如果沒有這樣的協(xié)議,不同的Web作者將為相同的實際資源選擇不同的uri。布朗的Xena是IAU的UB313。當來自這些不同來源的信息在分布式數據網絡中組合在一起時,Web基礎設施無法知道這些信息是否需要被視為相同的實體。另一方面,我們不能僅僅因為兩個uri是不同的,就假定它們引用不同的資源。語義Web的這種特性稱為非惟一命名假設;也就是說,我們必須假設(除非被告知其他情況),某些Web資源可能被不同的人使用不同的名稱引用。同樣重要的是要注意,有時唯一的名稱可能很好,但這可能是不可能的。例如,IAU以外的其他組織可能決定不接受這個新的命名法。

There’s always one more

在一個分布式的信息網絡中,作為一個規(guī)則,我們不能在任何時候假設我們已經看到了網絡中的所有信息,甚至不能假設我們知道關于一個主題的所有斷言。這在冥王星和UB313的歷史上是顯而易見的。多年來,行星被定義為“任何特定大小的物體繞太陽運行”,這已經足夠說明問題了。“根據當時的信息,很容易就能說太陽周圍有九顆行星。但是關于UB313的新信息改變了這一點;如果一顆行星被定義為任何圍繞太陽運行的特定大小的天體,那么UB313也必須被認為是一顆行星。當然,在20世紀后期,細心的演講者談到了“已知”行星,因為他們知道另一顆行星不僅是可能的,而且是可疑的(所謂的“X行星”,多年來代表未知但可疑的行星)。

語義Web也是如此。不僅可能在任何時候發(fā)現新信息(就像太陽系天文學中的情況一樣),而且,由于Web的網絡化特性,在任何時候都可能無法使用包含一些獨特信息的特定服務器。由于這個原因,在語義Web上,我們很少能得出像“有九大行星”這樣的結論,因為我們不知道會出現什么新信息。

一般來說,Web的這一方面對我們如何從已有的信息中得出結論有著微妙而深刻的影響。它迫使我們把Web看作一個開放的世界,并使用開放世界的假設來對待它。在這個意義上的開放世界中,我們必須在任何時候假定新的信息可能會出現,我們可能不會得出任何結論,而這些結論依賴于假定在任何一點上可用的信息就是所有可用的信息。

對于許多應用程序,開放世界假設沒有影響;如果我們畫一張波士頓所有蒙太爾酒店的地圖,我們就會得到一張我們當時所知道的所有酒店的地圖。Mongotel可能在波士頓擁有更多的酒店(或可能開設一家新酒店),但這并不意味著它已經列出了一些酒店。事實上,對于很多語義Web應用程序,我們可以忽略開放世界的假設,而簡單地理解語義應用程序就像任何其他Web頁面一樣,只是報告一次能夠訪問的信息。

只有當我們想要基于分布式數據得出結論時,Web的開放性才會成為一個問題。如果我們想將波士頓列入不提供Mongotel服務的城市列表(例如,作為針對Mongotels的新地方的市場研究的一部分),那么我們不能僅僅因為我們沒有在波士頓找到Mongotel列表,就假定不存在這樣的酒店。

我們將在接下來的章節(jié)中看到,語義Web包含與我們在現實世界中看到的所有開放世界的工作方式相對應的特性。如果我們說某個清單是所有蒙哥特人的綜合清單,那么我們就可以得出關于失蹤蒙哥特人的結論。我們可以用一個匿名的“行星X”來代表一個未知但可預知的實體。這些技術允許我們處理語義Web中的開放世界假設,就像它們處理人類知識的開放世界一樣。

語義Web什么時候會出現?它已經有了。在為第二版選擇候選示例時,我們必須從各種語義Web部署中進行選擇。我們用兩章來深入研究這些“野外”部署。“在第9章中,我們將看到美國政府如何以一種靈活的方式分享有關其運營的數據,以及Facebook如何使用語義網將所有網頁鏈接到其網絡。第13章展示了語義Web是如何被成千上萬的電子商務Web頁面所使用,從而使大眾市場能夠通過它獲得信息

SUMMARY

我們在這里概述了Web的各個方面——AAA口號、網絡效應、非惟一命名和開放世界假設——已經適用于文檔Web。

水以有序的方式流動,這是由河道的結構決定的。這就是模型在語義Web中所扮演的角色。沒有模型,數據量是無差別的;無法判斷哪些數據可以或應該與其他數據交互。如果沒有數據來描述,模型本身就沒有意義。然而,將兩者結合起來,就形成了一個動態(tài)的信息網絡,其中數據以有原則的、系統(tǒng)的方式從一個點流向另一個點。這就是語義網的愿景——一個有組織的全球系統(tǒng),信息以平穩(wěn)而有序的方式從一個地方流向另一個地方。

Fundamental concepts

The AAA slogan—Anyone can say Anything about Any topic. One of the basic tenets of the Web in general and the Semantic Web in particular.?

Open world/Closed world—A consequence of the AAA slogan is that there could always be something new that someone will say; this means that we must assume that there is always more information that could be known.

Nonunique naming—Since the speakers on the Web won’t necessarily coordinate their naming efforts, the same entity could be known by more than one name.?

The network effect—The property of a web that makes it grow organically. The value of joining in increases with the number of people who have joined, resulting in a virtuous cycle of participation.?

The data wilderness—The condition of most data on the web. It contains valuable information, but there is no guarantee that it will be orderly or readily understandable.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容