合作式網路分級架構

 

林耀聰、 曾憲雄、 江孟峰、 蔡昌均

 

交通大學資訊科學系
新竹市大學路
1001
電話:
(03) 5712121 56658
EMail: sstseng@cis.nctu.edu.tw


 

摘要

  在網路的各式服務中,全球資訊網(World Wide Web)的應用可以說是影響最大的一種方式,在這其中,除了使用者所需要的之外,當然也包含了大量不必要或不適合的內容,在推展網路應用的同時,許多教育單位或是公司行號都面臨了無法管制網路資源的難題。國外在解決此問題方面也有許多的研究發表,其中較具規模與影響力的是由W3C組織推動的PICS協定,其策略分為由網路文件的產生者自行訂定分級或是由某些伺服器加以評定。在以某些伺服器加以評定的方式來說,因為網站的數量非常龐大且更新快速,單靠人工審查的方式,將耗費大量的人力與時間,所以建立一套分級系統有其必要性;為了達到客觀分級的需求,我們設計了一套合作式的分級架構,試圖蒐集眾多使用人口的意見,並將分級結果整合到現行的proxy系統中。這篇論文說明了建立一個合作式網站分級系統所需的架構,在此架構下,分級的結果將較符合客觀的要求,並克服審查人員邀請不易的困難;除此之外,本架構將分級結果與proxy結合,將有助於分級的推動。

 

一、導論

  近年來,台灣在網路方面的建設有大幅度的成長,網路的使用人口也不斷增加,全球資訊網(World Wide Web)的應用層面也逐漸普及,各式各樣的網頁(web page)爭奇鬥豔,令人目不暇給,提供各種服務的網路伺服器(server)也為數不少,網路儼然成為今日的新興媒體。使用者可以隨時獲得各式各樣觀點的文件,所以網路使用不受限制的精神,也是其他媒體所不能比擬的,在這些網站中,除了使用者所需要的之外,當然也包含了大量不必要或不適合的內容。

  正因為網路的開放性,在推展網路應用的同時,許多教育單位或是公司行號都面臨了無法管制網路資源的難題。例如對於一般的中小學學生而言,學校或家長都不希望其接觸暴力或色情的文件,以免誤導其心態,而這類不良的文件在網路上的數量是非常多的。又例如一般公司行號在上班時間,也不希望員工藉著上網路找資料之便,瀏覽一些娛樂類的文件,而影響工作效率。所以如何針對網路上的文件加以分級,讓使用者在使用網路資源的同時,能限制其不能閱讀某類型的文件,是一個很重要的問題,尤其在網路應用日漸普及的今天,更是亟需解決的。

  國外在解決此問題方面也有許多的研究被提出,其中較具規模與影響力的是由W3CWorld Wide Web Consortium[11]所推動的PICS協定(PICSPlatform for Internet Content[10]PICS是由W3C所制訂的一套分級規格,在PICS中完整的定義了網路文件分級所採用的檢索方式,以及網路文件分級標籤的語法。而分級資料的處理,則是以相對於URLmeta-data來傳送,分級程式根據URL所屬的meta-data,便可以判定該URL(包括了HTMLNewsGopher等等資源都可利用URL來定位)內容的分級特性。

  現今市面上也出現一些以資料庫為基礎的分級系統,其主要的作法是先藉由人工審查的方式建立分級資料庫[7],使用時即針對此資料庫查詢,這種方法分級出來的效果非常準確,因為基本上在分級的過程中,完全是以人的觀點做考量,但是也正因需要大量的人力協助,在審查人員邀請不易的情形下,這將增加許多執行上的困難。

  網站的數量非常龐大且更新快速,若只單靠人工審查的方式,將耗費大量的人力與時間,所以建立一套自動的文件分級系統有其必要性,另外,網路的使用人口眾多,假如能透過一些助理系統(Agent)的幫助,使這些使用者能利用它來對所瀏覽的網站加以分級,並整合到本系統中,將有助於分級的客觀要求,並克服審查人員邀請不易的困難。

  國外相關的研究已有多年,但著重以分析使用者使用模式的助理系統及幫助使用者找尋相關資料的方式為重點,類似合作方式的系統發展方式也有學者提出,例如GroupLens[4]等系統,但其中整合多使用者觀點的方式還有待研究,大多也不具自動學習能力。國內對於此方面的研究也開始受到重視,包括中央研究院[13],及中正大學[15]等單位也建立了相關文件檢索系統,但是比較偏重快速資訊擷取及正確查詢的能力表現。

  這篇論文除說明國外PICS協定的作法外,並敘述了建立一個合作式網站分級系統所需的架構,包括我們已發展的一套分級助理系統,這套系統目前正推展給網路使用人口,包括一些公益團體及個人,讓其對所瀏覽的網站加以分級,再透過一個整合的機制蒐集這些意見,使其一致化並去除雜訊後,進而建立系統本身的分級機制,藉由大量審查及整合學習的方式,此分級方式能較客觀。

 

二、 背景說明

  網站分級系統[7]是架構於網路站台與瀏覽器之間,基本上使用者可以依據自身的需要,而決定是否使用本系統,整個系統在網路上扮演的角色可以用圖一表示:


圖一
網站分級系統的角色定位

  對於一般的使用者而言,藉由此架構,使用網路的習慣不須更改,同樣以自己習慣的瀏覽器運用網路資源,系統會依據客觀的分級原則偵測使用者欲瀏覽的文件,進而決定是否同意使用者瀏覽。在安裝系統的同時,系統會要求輸入一組密碼,可以用來區別是否同意解除本系統的安裝,這可以解決目前一般家長擔心孩童閱讀到不適當的網站的疑慮,只要家長在安裝本系統後,除非自行解除安裝,否則網站皆會受其過濾。

  目前國外在文件分級的領域上,由W3C組織[11]所推動的PICS協定[10]屬於其中整合性較高、規格較為嚴謹的一支。PICS是由W3C所制訂的一套分級規格,在PICS中完整的定義了網路文件分級所採用的檢索方式,以及網路文件分級標籤的語法。而分級資料的處理,則是以相對於URLmeta-data來傳送,分級程式根據URL所屬的meta-data,便可以判定該URL(包括了HTMLNewsGopher等等資源都可利用URL來定位)內容的分級特性。

  PICS中所採用的的分級檢索方式,主要可分為兩個部分:一是由網路文件的作者自行對於該篇資料的內容加以分級、分類。其次便是由某些特定的伺服器,根據客觀的判定方式對於網路上的文件資源分門別類後,再由此伺服器來提供查詢分級類別的服務。此兩種方式分別採行的檢索方式如下:

  1. 由使用者自行定義分級資料:
  2.   一般說來,網路文件的作者對於本身所撰寫的文件所屬的性質,應當相當瞭解。因此PICS允許作者在網路文件(目前主要是HTML)的meta-data中,加入符合PICS語法的分級資料。如此一來,當使用者瀏覽此一網頁時,在下載HTML的同時便會一併取得文件所屬的分級資訊,此時在使用者端執行的分級程式便會根據在meta-data中所包含的資訊來決定使用者對於此一網頁的存取權。

  3. 由特定的伺服器來提供分類服務:
  4.   事實上,在PICS規劃的此類分級方式中主要又細分出兩種不同的機制。其中一種是由提供HTML存取功能的HTTP 伺服器來附加PICS文件分級的服務。在此種方式中,首先是由網站架設人員利用不同的方式來取得網站中所屬各網頁的分級資料(分級資料的來源可能是由維護人員自行定義整個網站內容的分級性,亦或是由各子網頁的撰寫人員來決定分類型態),然後在遠端使用者要求瀏覽網頁內容時,由此一HTTP 伺服器附加性地傳送出分級資料。另一種方式則是由一台專門提供分類查詢的伺服器(此類伺服器稱為label bureau)來處理分類資料;當使用者瀏覽Internet上的網頁時,由使用者端的分級程式根據瀏覽網頁的URL位置來對label bureau提出分級查詢的要求,而由使用者端的分級程式根據伺服器的回應來決定此一網頁的分級類別。

綜合以上的概念,建立起一個PICS labeling service,所需進行的步驟如下:

Step 1: 決定由誰來來指定Label,有下列三種方式:

(1) 由網頁內容的提供者自行定義Label
(2) 由僱請的評分員來進行分級的工作。
(3) 利用程式分析網頁內容後進行分級。

Step 2: 決定分級用的字彙(vocabulary)。

Step 3: 依照PICS Label的語法,撰寫出以此分級字彙為準的Label。除了自行撰寫之外,你還可以利用PICS Application IncubatorHTTP://www. si.umich.edu /~presnick/PICS-incubator/)來建置label

Step 4: 將建立出來的label加入適當的位置,有下列三種方式:

(1) 將建立出來的label加入某個PICS label bureau伺服器之中。
(2) 自行建構一個PICS label bureau
(3) 加入HTMLMETA標籤之中,或由某個HTTP伺服器根據對應的文件一同傳送出去。

  現今一般分級系統的分級方法是先藉由人工審查的方式建立分級資料庫[7],使用時即針對此資料庫查詢,基本上在分級的過程中,不太可能完全以機器取代人工,但在審查人員邀請不易的情形下,這將增加許多執行上的困難。

  其實網路上的使用人口非常多,其中包括了許多熱心的個人及公益團體,為了整合這些大量的人力資源,我們設計了一套分級助理系統,並在Internet上廣為散佈,以蒐集各方不同的意見,使分級的結果更客觀。

  在建立分級助理系統的過程中,將使用核心部分的proxy server技術,proxy server的功能在於將瀏覽過的網路資料(例如HTML, FTP的檔案等等)暫存在某一台網路上的主機中。如此一來使用者便可在較近端的伺服器找到遠端機器的資料。其工作原理是由瀏覽器程式將所有的requestHTTP, FTP等等)指向此台伺服器,如果伺服器中有此筆資料且時間相符便傳回,反之便在網路上抓取此筆資料,暫存在伺服器中並傳回。現行的proxy server所接收的request格式是在傳統的HTTP request中附加上資料所屬的URL位置,如 “GET http://www.cis.nctu.edu.tw HTTP/1.0” 的格式。這樣一來proxy server才能確知所要求資料的位置。

  在蒐集到不同評分者的分級結果後,接下來必須將這些結果整合到我們的proxy系統中,以便提供分級服務。

 

三、 分級系統架構


圖二
系統架構圖

  首先說明整個架構的流程,我們主要可以把這個系統分為兩個部分,在提供網路分級的服務前,必須收集對於各網站的分級資料,也就是每個網頁所屬的分級特性。在我們所規劃的架構中,這些分級資料是由各個使用者熱心提供的分級資料中,加以整理規劃而得。為了能夠收集這些由使用者評定的資料,我們首先發展了一套專門用以收集資料的分級助理系統,這個系統的角色主要是介於網路上的HTTP伺服器與使用者用以瀏覽網頁用的WWW瀏覽器,當使用者欲瀏覽WWW網頁時,使用者的瀏覽器會對文件所屬的HTTP伺服器發出要求訊息,這時我們的分級助理系統會先將這個訊息攔截下來,並且將其中的URL資訊加以記錄,同時也將這個訊息再原封不動的送往所屬的HTTP伺服器。之後由HTTP伺服器又傳回使用者所要求的資料,此時分級助理系統就將這些資料經過一些必須的處理再傳回給使用者,讓使用者可以在閱讀網頁之後便對這個網業進行評分,這些評分資料會送往我們所架設的伺服器,伺服器便將資料記錄下來,供作將來提供分級服務之用。

  但是為了不要更改使用者使用瀏覽器的習慣,因此我們並沒有自行發展一套瀏覽器系統來提供分級的功能,而另外發展了一套分級助理系統,這套分級助理系統是獨立於瀏覽器之外,但這也造成了一些問題,其中最關鍵的問題也就是我們無法及時取得瀏覽器正在瀏覽的網頁URL資料,因此為了解決這個問題,我們必須把分級功能加入到每個網頁之中,也就是說,在分級助理系統由網路HTTP伺服器取得資料後,必須在這些文件資料上稍做處理,也就是用以分級的評分按鈕。不過這樣的處理並不會改變文件的內容,唯一的差別只是在文件下方加入了評分按鈕。

  當我們收集到這些分級資料後,我們會針對這些資料進行基本的統計作業,之後就是真正可以用以提供分級服務的資料。在我們的架構中,我們會將這些資料與原有的proxy系統進行整合以提供分級服務,這樣的作法同樣可以讓使用者不需要更改使用瀏覽器的習慣,僅需將瀏覽器所使用的proxy伺服器指向我們所架設的伺服器,就可以得到我們所提供的分級服務。

  當我們的proxy收到使用者對於HTTP檔案的要求後,便往該文件所屬的HTTP伺服器要求此一檔案,當檔案的資料回傳後,此proxy首先會在記錄分級資料的資料庫中根據該檔案的URL找尋該文件的分級特性,之後會在該文件資料(目前我們僅處理文字型資料,例如HTML文件資料)加入分級服務所需要的rating label。這些rating label是加入到文件所屬的meta-data中,所謂的meta-data,是指說明該文件特性的一些資料,像是文件的content-typecontent-length等等,這些meta-data本身完全不會改變文件的內容,因此加入的meta-data對於使用者並不會有太大的差異。

  我們所加入的rating label遵循的是PICSrating label語法,因此當使用者端使用了與PICS相容的瀏覽器或分級軟體時,就可以享用我們所提供的分級服務,目前國外有許多分級軟體都是遵循W3C組織所提出的PICS語法,例如微軟的Internet Explorer 4.0等等,所以在我們的架構中,可以同時兼顧更多的相容性與通用性。

 

四、 成果

  我們目前已完成分級助理系統的製作,主要是利用Visual C++ 5.0作為開發語言,其作業流程可以說明如下:將瀏覽器的proxy server位置設定為此程式所執行的機器(通常為使用者所屬的機器),這樣一來每當瀏覽器中送出新的proxy request時,便會先經過此一程式處理。此程式記錄下位置後,再將此proxy request送往真正提供proxy功能的伺服器,以同樣的方式,送回的資料也會經由此程式。此時程式在送回的HTML檔案中加入一段CGI程式碼,以供使用者將分類資料送往收集資料的CGI-Server

  例如,當使用者欲連接 “http://www.nctu.edu.tw” 站台時,瀏覽器會送出訊息 “GET http://www.nctu.edu.tw HTTP/1.0” proxy server,而在傳回的HTML文件中,此程式會加上CGI程式碼,使得每次在瀏覽器載入此份HTML文件時,便會在網頁中顯示按鈕以供使用者進行分類。

 

五、 結論及未來方向

  在網路的各式服務中,WWW的應用可以說是影響最大的一種方式,除了使用者所需要的之外,當然也包含了大量不必要或不適合的內容。正因為網路的開放性,在推展網路應用的同時,許多教育單位或是公司行號都面臨了無法管制網路資源的難題。網站的數量非常龐大且更新快速,若只單靠專家審查的方式,將耗費大量的人力與時間,所以建立一套合作式分級系統有其必要性,使眾多的網路使用者能利用它來對所瀏覽的網站加以分級,並整合到本分級系統中,將有助於分級的客觀要求,並克服審查人員邀請不易的困難。

  這篇論文說明建立一個合作式網站分級系統的架構,並說明我們已發展的一套分級助理系統,這套系統目前正推展給網路使用人口,包括一些公益團體及個人,讓其對所瀏覽的網站加以分級,再透過一個整合的機制蒐集這些意見,使其一致化並去除雜訊後,進而建立系統本身的分級機制,藉由大量審查的方式,此分級機制能較客觀。

  在未來,系統的推廣以及進而建立網站分級標準的工作還須作進一步的探討,以利網路分級成效的落實。

感謝財團法人工業研究院電腦與通訊研究所提供部份經費補助。

參考文獻

[1] M. S. Chen, J. Han, and P. S. Yu, "Data mining: an overview from a database perspective," IEEE Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, pp. 866-883, December 1996.

[2] D. W. Cheung, V. T. Ng, A. W. Fu, and Y. Fu, "Efficient Mining of association rules in distributed databases," IEEE Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, pp. 911-922, December 1996.

[3] K. A. DeJohn, "Learning with genetic algorithm: an overview," Machine Learning, vol. 3, pp. 121-138, 1988.

[4] GroupLens, http://www.cs.umn.edu/Research/GroupLens/grouplens.html

[5] G. J. Hwang and S. S. Tseng, "Knowledge elicitation and integration from multiple experts," Journal of Information Science and Engineering, vol. 10, no. 1, pp. 99-109, March 1994.

[6] G. J. Hwang and S. S. Tseng, "EMCUD: A knowledge acquisition method which captures embedded meanings under uncertainty," International Journal of Man Machine Studies, Vol. 33, 1990, pp. 431-451.

[7] P. Resnick and H. R. Varian, "Recommender systems," Communications of The ACM, vol. 40, no. 3, pp. 56-58, March 1997.

[8] C. Y. Suen, Y. S. Huang and A. Bloch, "Multiple expert systems and multi-expert systems," The Second World Congress on Expert Systems, pp. 207-212, 1994.

[9] P. H. Winston, Artificial Intelligence, Third Edition, Addison-Wesley Publishing, 1992.

[10] PICS, Platform for Internet Content Selection, http://www.w3.org/PICS

[11] W3C, World Wide Web Consortium, http://www.w3.org

[12] 梁婷,「中文文件擷取中以字為基礎的特徵法之研究」,交大博士論文,1995.

[13] 簡立峰,「尋易(CSMART)的智慧型中文檢索系統」,中央研究院資訊所,1995.

[14] 江孟峰、曾憲雄、蔡昌均、劉昭復,「架構在全球資訊網上的法規導引諮詢檢索系統」,台灣區網際網路研討會,TANet’96, 1996

[15] 吳昇,「阿里山全文檢索系統」中文資訊檢索技術及應用研討會,1994.