24h購物| | PChome| 登入
2008-08-13 18:13:28| 人氣1,122| 回應1 | 上一篇 | 下一篇

認識 search

推薦 0 收藏 0 轉貼0 訂閱站台

什麼都不會 慢慢研究中

●全文檢索(full-text search):

從文本或數據庫中,不限定資料字段,自由地萃取出訊息的技術。

●搜索引擎(search engine):

執行全文檢索任務的程序,一般稱作搜索引擎(search engine),它將使用者隨意輸入的文字,試圖從數據庫中,找到符合的內容。

上面是來自百科全書的兩個名詞的解釋。

目前一般用戶理解的搜索引擎,通常是指自動從互聯網蒐集信息,經過一定整理以後,提供給用戶進行查詢的系統。互聯網上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋樑,而搜索引擎,則為用戶繪製一幅一目瞭然的信息地圖,供用戶隨時查閱。其實還有桌面搜索引擎,網站站內搜索引擎等

對於英文,需要經過語根處理 (stemming),符素解析(token parser),分詞(word segmentation),索引(index)等處理後,才可以進行查詢(Search/Query),中文沒有詞形的變化,不需要語根處理 (stemming),但是中文分詞不像英文那樣可以按照空格來劃分,相對比較複雜,目前採用的技術比較普遍的是1-gram, 2-gram, N-gram。

索引(index)效率比較高的算法是反向索引(inverted index),通常也成為倒排索引。

搜索引擎處理的對象一般是文本(Text),可以通過《利用Minidx Extract-Text Com組件從Word,Xls,Pdf……等文件中讀取文本內容》中的技術,對doc,xls等非文本文件進行文本抽取,但是這些都屬於搜索引擎外圍部件。

評測一個搜索引擎的好壞,查全率(recall rate)和查准率(precision)是兩個非常重要的參數,互聯網由於海量的信息量,所以有了Google PageRank和百度的中文搜索由超鏈分析技術,使得用戶可以更加快速的找到自己需要的。

引用 URL :http://blog.minidx.com/2008/01/03/340.html



台長: 大D QQ

您可能對以下文章有興趣

人氣(1,122) | 回應(1)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 不分類 | 個人分類: search 相關 |
此分類下一篇:Web crawler architectures

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文