認識 search＠想像力比知識更重要｜PChome Online 個人新聞台

2008-08-13 18:13:28| 人氣1,122| 回應1 | 上一篇 | 下一篇

認識 search

推薦 0 收藏 0 轉貼0 訂閱站台

什麼都不會慢慢研究中

●全文檢索(full-text search)：

從文本或數據庫中，不限定資料字段，自由地萃取出訊息的技術。

●搜索引擎(search engine)：

執行全文檢索任務的程序，一般稱作搜索引擎(search engine)，它將使用者隨意輸入的文字，試圖從數據庫中，找到符合的內容。

上面是來自百科全書的兩個名詞的解釋。

目前一般用戶理解的搜索引擎，通常是指自動從互聯網蒐集信息，經過一定整理以後，提供給用戶進行查詢的系統。互聯網上的信息浩瀚萬千，而且毫無秩序，所有的信息象汪洋上的一個個小島，網頁鏈接是這些小島之間縱橫交錯的橋樑，而搜索引擎，則為用戶繪製一幅一目瞭然的信息地圖，供用戶隨時查閱。其實還有桌面搜索引擎，網站站內搜索引擎等

對於英文，需要經過語根處理 (stemming)，符素解析(token parser)，分詞(word segmentation)，索引(index)等處理後，才可以進行查詢(Search/Query)，中文沒有詞形的變化，不需要語根處理 (stemming)，但是中文分詞不像英文那樣可以按照空格來劃分，相對比較複雜，目前採用的技術比較普遍的是1-gram, 2-gram, N-gram。

索引(index)效率比較高的算法是反向索引（inverted index），通常也成為倒排索引。

搜索引擎處理的對象一般是文本(Text)，可以通過《利用Minidx Extract-Text Com組件從Word,Xls,Pdf……等文件中讀取文本內容》中的技術，對doc,xls等非文本文件進行文本抽取，但是這些都屬於搜索引擎外圍部件。

評測一個搜索引擎的好壞，查全率(recall rate)和查准率(precision)是兩個非常重要的參數，互聯網由於海量的信息量，所以有了Google PageRank和百度的中文搜索由超鏈分析技術，使得用戶可以更加快速的找到自己需要的。

引用 URL ：http://blog.minidx.com/2008/01/03/340.html

我要檢舉

台長：大D QQ

您可能對以下文章有興趣

Web crawler architectures

人氣(1,122) | 回應(1)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 不分類 | 個人分類: search 相關 |
此分類下一篇:Web crawler architectures

回應(0)

想像力比知識更重要 文章作者已不可考 若有侵權 請來信告知 3,845愛的鼓勵 0訂閱站台

認識 search

您可能對以下文章有興趣

想像力比知識更重要文章作者已不可考若有侵權請來信告知
3,845愛的鼓勵 0訂閱站台