心得筆記(6) @ 程式設計者天堂

研究報告

我的研究：http://140.129.20.147/swpweb/

我到底想要做什麼？(目的)
Web application demands for more intelligent search functionality provide many opportunities for applications of artificial intelligence techniques. Web sites are encompassing more complex content and functionality and are becoming more difficult to search by standard web search engines. Even today, many sites need to provide their own search functionality in order to (i) limit the scope of the search, (ii) exploit knowledge of the structure of the internal site, and (iii) exploit understanding of the content of the site. Many of these searches are beginning to use artificial intelligence techniques to provide better organization of, understanding of, access to, and reasoning with information.

描述現在的網路應用趨向於使用越來越複雜的查詢，而且被要求更多智慧型的搜尋功能，搜尋是為了在有限的範圍做搜尋而設計，而且必須知道知識的結構，並了解知識的內容

我該做什麼？
Preliminary market research indicated that the major technical improvements needed to our online offerings were smarter search and personalization.

根據一般使用者市場研究，必須提供更精良的搜尋和個人化

An organization scheme and synonym based searching was particularly important in this site.
We want that we can return documents to the user according to the meaning of the query but not return just according to the words in the query.

例如：使用者想要找姓陳的學生的電話，首先先將範圍縮小至學生類別，因為根據使用者所想要查詢資料的意思來看，他是想找學生資料，然後查詢條件是所有姓陳的學生，目標是找到電話，經過推理與搜尋之後將答案回傳，目的就是要把學生，姓名與電話三者的關係建立起來

問題：使用ontology-based來建立資料結構與使用關聯資料庫所建出的資料有何差異？有何好處？
答：

天馬行空，胡思亂想：思考一下Amaya(是一個工具軟體，是一個瀏覽器，協助使用者能將網頁加上註解)的做法，能否直接透過網頁(利用一般瀏覽器)利用個人化的做法將網頁修改訊息存下來，提供一個portal將原網頁與修改過的資料做結合

現在網路上的資源越來越豐富，人們也似乎已經適應了網路時代的到來，幾乎所有的事情都可以搬到網路上去做，例如網路上可以買書和收發電子郵件。人們也越來越樂於將資料儲存在網路上，例如以往人們都習慣把電子郵件收到自己的電腦在打開閱讀，但是現在有不少人習慣把這些郵件暫存於未知的機器上，等到想看信件時，直接上網觀看，又例如學校的網路硬碟或是網頁空間，雖然上面有標示不安全的因素，但我相信漸漸會有越來越多的人開始信任此空間，造成網路上的資源越來越豐富，而存放在單機上的資源變得很有限，在以後的電腦世界中，個人電腦或許只是擔任暫存的動作，或許電腦中根本不需要有硬碟，只要靠著1G大小的記憶體就可以工作，這樣的模式將會在未來的生活中慢慢實現。人們開始信任網路中所存在的未知空間，到底我們會把資料網哪邊放可能將變成未知。

[與老師討論系統規劃與經驗]

1.建立RDF store:
sesame的RDF資料庫對中文的處理有部分問題，尚待我們去解決
KAON的RDF Server他也是一個RDF的資料儲存庫，我們再安裝時也出了一些問題，目前仍然無法使用
目前使用python的rdflib來處理rdf資料，中文問題目前已經被解決，但是尚未知道如何存到資料庫中，目前正在研究
使用RDFlib的心得報告，我們稍微測試他的用法，我們能把RDF文件剖析成triple，並對各種編碼做測試，最後發現iso-8859-1 的編碼可以使用，想要在IE瀏覽器看到中文字，第一行xml的encoding必須是big5，IE瀏覽器不認得ISO-8859-1的編碼而在parser中要剖析中文資料必須將編碼改成iso-8859-1，parser程式不懂big5的編碼，以上是我的研究心得
結果網址
 我們所測試的RDF
2.建立一般性和特殊領域的ontology
在建立特殊領域方面，我們參考各方面專家所提供的意見，參照CIDOC、 CIDOC、動物暨植物主題小組後設資料共通元素和中研院歷史語言研究所藏青銅器拓片資料庫來建立我們特殊領域的ontology
一般性的ontology如event、people、organization、project和product等我們參考KA2、KAON和DAML的ontology library，建立適用於一般性的ontology
3.前一陣子的突發奇想漸漸實體化，在2003年9月14日的天馬行空胡思亂想中，提到欲將把Amaya的程式做成使用一編瀏覽器來達成漸漸有些結果，根據我們的討論結果，這種方式可能也能列入資料取得的一種方式，我們根據匯入不同的網頁資料，一般來說是你感興趣的網頁，我們可以配上一組ontology來規定未目前網頁標標記的意義，例如你只是想對這一編網頁做中英文的翻譯，那我們搭配上翻譯字典的ontology標記出一份中英論文對照的文件。或者你想針對這篇文件寫入註解或是抒發心得感想，我們可能可以套用另一種不同的ontology來搭配使用。處理完這樣的一份文件之後這些經過標記註解之後的文件或許可以轉成RDF或者是XML文件將它儲存起來，成為系統的知識之一。或許還有更多的其他用途可以應用。初步構想的例子：範例
目前範例中所提供只有初步的一個概念，我們先針對我們所準備好的這篇文章來做註解，未來可能可以透過連結的方式，將遠端的文件拿來直接做處理。目前也尚未考慮ontology的架構，所以目前所加上的所有標籤都只是視為comment 只是提出這樣的構想。