網站首頁 文學常識 簡歷 公文文書 文學名著 實用文 人生哲理 作文 熱點話題作文
當前位置:文萃咖 > 實用範文 > 論文

關於Frame頁面網絡日誌數據挖掘預處理方法的論文

欄目: 論文 / 發佈於: / 人氣:3.23W

摘 要

關於Frame頁面網絡日誌數據挖掘預處理方法的論文

本文結合網絡日誌數據挖掘技術,通過對Frame頁面和SubFrame頁面進行分析,提出基於改進的Frame頁面數據挖掘預處理方法。該方法從SubFrame頁面信息着手,從而提高預處理過程中的信息識別能力。實驗表明,該方法在網絡日誌的數據挖掘預處理過程中,有效提高了信息的精準度。

【關鍵詞】數據挖掘 Frame頁面 SubFrame頁面

1 引言

隨着互聯網技術的迅猛發展,簡單的信息搜索技術已經不能滿足現階段網絡信息獲取的需求。網絡日誌數據挖掘技術是結合網絡日誌用户的訪問行為規律、興趣需求等信息,加以分析,優化網絡內容與網絡文本文檔的組織結構,以此提高網絡站點的競爭力。我們發現網絡日誌記錄往往十分龐大,傳統的預處理方法,並不能很好解決日誌頁面對站點組織結構的影響。因此,進行網絡日誌預處理方法的研究,具有一定的現實意義。

對於傳統的網絡日誌的數據挖掘,預處理階段的.Frame頁面和SubFrame頁面在用户會話文件出現的概率很高,這就降低了會話識別的興趣度。因此,必須消除Frame頁面對網絡日誌數據挖掘的影響。我們將Frame頁面以及其SubFrame頁面被看為一個整體,用Frame頁面代替通過會話文件尋找Frame頁面和Subframe頁面,並剔除多餘的頁面,以提高日誌數據挖掘的興趣性。

2 改進的Frame頁面數據挖掘預處理方法

通過對Frame頁面過濾方法,結合實際情況分析,我們利用ID3決策樹算法,提出基於改進的Frame頁面過濾方法,以提高網絡日誌數據挖據的效率。該方法如下:

輸入:FS表(pidframne , pidsubframe)所對應的集合;集合屬性包括 {index.html,top.html,left.html,main.html,…}

輸出:判定策略

For each users session

{

currentframe=null

make_node(web)

if((cerrenframe, pid, ∈FS) make_tree(currentframe,web_left)

Else if pid, ∈dom(FS)

{curremtframe pidi make_decition_tree(currentframe,web_left}

else make_decition-tree(currentframe,web_rleft

if attribute_list=null{make_decition_tree(currentframe,web_right);}

else if(one ofattribute_list)>allgain

currentframe=test-attribute;

make_decition(ai,web_left)

Else generate_decision_tree(ai,web_right)

}

上述策略認為,訪問站點的頁面為根節點,具有信息增益最高的特徵,currentframe變量記錄web當前頁面pidi。若當前頁面pidi不屬於frame頁面,則歸類左子樹,反之當前頁面pidi歸入右子樹。即pid,∈DOM(FS)。而frame頁面的subframe頁面歸類左子樹。這樣一來,frame頁面為決策樹右樹,subframe頁面為決策樹左樹,subframe頁面在會話識別階段得到保留,以便後續路徑補充。該方法優化了站點的組織結構,較好提升了網絡日誌數據預處理效率。

3 實驗分析

我們通過Frame頁面過濾預處理方法實驗,驗證本文提出的改進方法。實驗提取700個日誌所記錄的訪問頁面,共20萬條日誌文件,結合本文提出的改進Frame頁面網絡日誌數據挖掘預處理方法,與傳統頁面預處理方法進行對比測試。結果如表1所示。

在表1中,絕對支持度表示用户頻繁訪問頁面的最小會話數,FSi表示用户頻繁訪問頁面集合數,*為用户不感興趣的頁面集,△表示頁面集是用户感興趣的,△△表示頁面集用户感興趣程度加強。實驗表明,改進Frame頁面過濾方法相比傳統方法,預處理結果得到提高,因此,網絡日誌的數據挖掘效率得到加強。

4 小結

本文通過對網絡日誌數據挖掘預處理技術進行分析,結合預處理過程中的實際情況,着重考慮SubFrame頁面剔除對站點組織結構的影響,提出了改進的Frame頁面網絡日誌數據挖掘預處理方法,實驗表明,該方法較好的提高了網絡日誌數據挖掘的預處理精度和效率。

參考文獻

[1]方元康等.一種改進的Web日誌會話識別方法[J].計算機技術與發展,2008,18(11):214-216.

[2]朱明.數據挖掘[M].合肥:中國科技大學出版社,2008:13-56.

[3]朱志國等.持久偏愛的Web用户訪問路徑信息挖掘方法[J].情報學報,2010,29(2).

[4]凌海峯等.基於混合蟻羣算法的web用户會話聚類[J].計算機工程與應用,2013(22).

[5]韓法旺.Web日誌挖掘數據預處理過程研究[J].南京工業職業技術學院學報,2012(2).

[6]凌海峯等.基於聚類的web用户會話識別優化方法[J].計算機應用研究,2012(8).