網站首頁 文學常識 簡歷 公文文書 文學名著 實用文 人生哲理 作文 熱點話題作文
當前位置:文萃咖 > 實用範文 > 論文

網對網和Web數據挖掘在搜索引擎中的運用論文

欄目: 論文 / 發佈於: / 人氣:1.06W

摘 要:當今網絡信息技術日益發展,傳統意義上的搜索引擎更加難以滿足廣大用户日益增長的信息檢索需求。在這種趨勢下,智能技術在搜索引擎中的應用顯得越來越重要。只有將智能技術引進搜索引擎,才能提高用户的工作效率,滿足人們日益增長的客觀需求。主要介紹瞭如今搜索引擎的幾大分類,傳統搜索引擎需要改進的不足以及兩大智能技術在搜索引擎中的應用。在智能技術將會更加智能更加發達的未來,搜索引擎也將不斷地更新和發展,為人們提供更加高效的搜索體驗。

網對網和Web數據挖掘在搜索引擎中的運用論文

 關鍵詞:智能技術;搜索引擎;網對網技術;數據挖掘。

搜索引擎是根據一定的策略,運用特定的計算機程序來搜索互聯網上的信息,在對信息進行組織和處理後,將處理後的結果顯示給用户,是為用户提供檢索服務的系統。而智能技術在搜索引擎中的實際應用也越來越廣泛,不斷有新興的智能技術,搜索引擎也不斷地結合這些智能技術來進行自身的變革和發展。這是一個漸進的過程。本文將詳細介紹 2 種智能技術在搜索引擎中的應用。

1.搜索引擎的分類。

搜索引擎可分為以下 3 類:①全文搜索引擎。全文搜索引擎是最標準的搜索引擎,國外的主要代表是 Google,而國內的主要代表則是百度。全文搜索引擎的主要原理是在互聯網中檢索與所查目標相匹配的內容,繼而建立數據庫,按序排列並且將其展示給用户。②目錄搜索引擎。從本質來説,目錄搜索引擎其實不能算是真正的搜索引擎。只是將網站鏈接目錄分類,用户並不需要輸入關鍵字,根據目錄就完全可以找到想要的信息。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用户的搜索請求後,可以在各個搜索引擎上同時搜索,隨後將結果顯示給用户。這一種搜索引擎的國內代表是搜星搜索引擎。

2.傳統搜索引擎相比網絡信息檢索的缺點。

傳統搜索引擎作為用户在互聯網進行信息檢索的一個重要途徑,給廣大用户提供了相當大的便利,隨着互聯網的迅速發展,用户對搜索引擎又提出了搜索速度更快、搜索效率更高等諸多要求。正是用户的這些需求刺激着搜索引擎的快速發展。傳統搜索引擎越來越滿足不了用户的需求,主要存在以下幾點不足:①搜索引擎從互聯網搜索的各種網頁水準不一,存在着根本沒用或者暫時性的網頁。這嚴重加大了用户檢索信息的困難程度,並且嚴重影響了檢索速度。②主流搜索引擎大多采用關鍵詞來檢索,由於用户水平的差異,極少數可以總結出關鍵詞或關鍵詞組,以至於用户搜索不到想要的內容,從而加大了檢索難度。③每個搜索引擎覆蓋的範圍雖然不小,但與龐大的互聯網相比,簡直是九牛一毛。④檢索的結果不準確、不唯一,搜索結果為零或者為數萬的情況時有發生。⑤不能智能搜索,難以滿足用户深層次的需求。

3.智能技術的運用。

由於傳統引擎的各種缺點,用户越來越渴望更好用、更便捷的搜索方式出現。在這種刺激下,智能技術在搜索引擎中的應用大量出現。這使得搜索引擎需具有一定的智能化和理解能力。當前主要有以下兩大智能技術。

3.1 網對網技術。

顧名思義,“網對網技術”就是網絡和網絡對應起來的意思。這其中又要提到兩個概念了,是兩個單詞。一個單詞我們都相當熟悉了--Internet.我們常説的互聯網,就是這個單詞。而在這裏,這個單詞指的是一個信息網絡,也就是我們所説的網絡中的信息網。我們想要搜索什麼東西時,將它輸入搜索引擎中,引擎就會在這個網絡庫中查找,找到相關信息,然後呈現在我們面前。而另一個詞可能就有一些陌生了--Innernet.表面上看起來與 Internet 很像,英文詞典中並沒有這個詞,我們在這裏叫它“內聯網”.與看起來更像數據庫的 Internet 比起來,內聯網更像是人類大腦的一個信息網絡。這裏面不僅僅有我們生活和工作中所用到的各種各樣的信息,更重要的是,信息之間繁雜又緊密的聯繫。就像我們在生活中和他人交流,提到“小夥伴”這個詞,我們會想到其他與之有聯繫的詞彙,比如“朋友”“同學”等。同樣的,當提到“師父”,我們的大腦也會迅速聯想到“師門”“師生”這樣的相關詞彙。我們所説的內聯網,它所着重的,也是信息與信息之間這樣息息相關的聯繫。Internet 和 Innernet都是知識的網絡,互聯網時代的信息社會發展日新月異,因此無論是哪個網絡,其內的信息都是不斷變化着的。人們將這個技術運用在搜索引擎中,大大提高了搜索引擎的實用性。作為內聯網的 Innernet 和 Internet 聯結起來,運用信息之間存在的各種各樣的聯繫,將用户輸入搜索引擎中,將複雜的聯繫正確分割開,然後各自拓展出一些對人們而言有用的信息,將 Internet 中龐大、雜亂的信息進行有序化的篩選和整理,最終將信息呈現在人們的眼前。這大大提高了搜索引擎的可操作性,縮短了人們不斷刪改語句來配合 Internet 的時間,自然也就提高了用户的工作效率。

3.2 Web 數據挖掘技術。

數據挖掘作為一門交叉學科,其原理比較複雜,可以從龐大的數據中將更有用、更有新意的數據挖掘出來,而 Web 挖掘,便是將數據挖掘和 Web 發展聯繫起來。Web 數據挖掘有 3 種不同的挖掘形式,即內容挖掘、結構挖掘和使用記錄的挖掘。

3.2.1 內容挖掘。

內容挖掘指的是從 Web 文檔中或是描述中挖掘,在網頁中進行數據挖掘,其中包括文本、超鏈接、圖像和視頻等,而半結構化的數據和無結構的文本便是主要的挖掘對象。

3.2.2 結構挖掘。

Web 結構挖掘則是通過網頁中的超鏈接,發現其中信息之間的結構及其緊密或稀疏的聯繫。在平時上網時,我們只能看到一個個的.網頁,打開瀏覽或者關閉。但是在這些頁面的背後,其實隱藏着無數個結構鏈接。Web 數據挖掘就能夠通過這些結構上的鏈接,發現頁面與頁面、數據與數據之間的聯繫,隨後對它們分類,以便為用户提供含有相似信息的更多頁面,幫助用户完善自己想要在搜索引擎中得到的信息。

3.2.3 使用記錄的挖掘。

與前兩者相比,Web 使用記錄的挖掘讓我們感覺更加熟悉,至少“使用記錄”4 個字是我們上網過程中能夠看到的。當我們點擊一下搜索引擎的輸入框想要輸入文本時,搜索引擎會自動下拉出我們前幾次使用時所查詢的內容,以便我們重複查看相似內容的信息。搜索引擎有時也會為我們推薦一些內容的信息。這些信息也會是我們所感興趣的一些內容,是搜索引擎結合了我們之前的使用記錄,為我們提供感興趣的相類似的內容。這些都是 Web 使用記錄挖掘在搜索引擎中的實用例子,但並不是全部。搜索引擎會從用户的訪問痕跡中挖掘出很多有意義的數據,包括數據端、服務器端和代理端的數據。而其獲得這些數據的途徑又分為 KDD 和專業化追蹤。這些方法和深度的挖掘,使搜索引擎更加“智能”地瞭解用户的興趣和需要。

4.總結。

搜索引擎是我們工作、學習和生活中必不可少的實用性技術,正如一個調查中所顯示的,85%的人都是通過搜索引擎獲取到他們所需要的信息和所喜愛的網站,可見搜索引擎的重要性。隨着智能技術的不斷更新,人們的生活變得越來越智能,對搜索引擎的要求也會隨之越來越高,因此不斷利用新的技術完善和提高搜索引擎的智能性,是用户的選擇,也是時代的選擇,是搜索引擎在現在和未來的發展中必然的趨勢,且將一直持續下去。

參考文獻:

[1]陳勇躍,張玉峯。智能技術在搜索引擎中的應用[J].情報雜誌,2004(02):2-3,6.

[2]楊佔華,楊燕。數據挖掘在智能搜索引擎中的應用[J].微計算機信息,2006(12):244-246.

[3]朱素媛,馬溪俊,樑昌勇。人工智能技術在搜索引擎中的應用[J].合肥工業大學學報(自然科學版),2003(S1):657-661.