數據挖掘技術在科技期刊網站中的應用論文

欄目: 論文 / 發佈於: / 人氣:1.06W

隨着互聯網技術的快速發展，學術研究環境較以前更加開放，對傳統的科技出版業提出了開放性、互動性和快速性的要求; 因此，以信息技術為基礎的現代數字化出版方式對傳統的科技出版業產生着深刻的影響。為了順應這一趨勢，不少科技期刊都進行了數字化建設，構建了符合自身情況、基於互聯網B /S 結構的稿件處理系統。

以中華醫學會雜誌社為代表的部分科技期刊出版集團均開發使用了發行系統、廣告登記系統、在線銷售系統以及站。這些系統雖然積累了大量的原始用户業務數據; 但從工作系統來看，由於數據本身只屬於編輯部的業務數據，因此一旦相關業務工作進行完畢，將很少再對這些數據進行分析使用。

隨着目前人工智能和機器學習技術的發展，研究人員發現利用最新的數據挖掘方法可以對原始用户業務數據進行有效分析和學習，找出其中數據背後隱含的內在規律。這些有價值的規律和寶貴的經驗將對後續科技期刊經營等工作提供巨大的幫助。

姚偉欣等指出，從STM 期刊出版平台的技術發展來看，利用數據存取、數據管理、關聯數據分析、海量數據分析等數據挖掘技術將為科技期刊的出版和發行提供有力的幫助。通過使用數據挖掘( data mining) 等各種數據處理技術，人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數據中，提取隱藏在其中有價值的信息，從而對後續科技期刊出版工作起到重要的知識發現和決策支持的作用。

1 數據挖掘在科技期刊中應用的現狀

傳統的數據庫對數據的處理功能包括增、刪、改、查等。這些技術均無法發現數據內在的關聯和規則，更無法根據現有數據對未來發展的趨勢進行預測。現有數據挖掘的任務可以分為對數據模型進行分類或預測、數據總結、數據聚類、關聯規則發現、序列模式發現、依賴關係發現、異常或例外點檢測以及趨勢發現等，但目前國內科技期刊行業利用數據挖掘方法進行大規模數據處理仍處在起步階段。張品純等對中國科協所屬的科技期刊出版單位的現狀進行分析後發現，中國科協科技期刊出版單位多為單刊獨立經營，單位的規模較小、實力較弱，多數出版單位不具備市場主體地位。這樣就導致國內大部分科技期刊既沒有能力進行數據挖掘，也沒有相應的數據資源準備。以數據挖掘技術應用於期刊網站為例，為了進行深入的數據分析，期刊經營人員需要找到稿件與讀者之間、讀者羣體之間隱藏的內在聯繫。目前，數據挖掘的基本步驟為: 1) 明確數據挖掘的對象與目標;2) 確定數據源; 3) 建立數據模型; 4) 建立數據倉庫; 5)數據挖掘分析; 6) 對象與目標的數據應用和反饋。

2 期刊數據的資源整合

編輯部從稿件系統、發行系統、廣告系統、站等各個系統中將相關數據進行清洗、轉換和整理，然後加載到數據倉庫中。進一步，根據業務應用的範圍和緊密度，建立相關數據集市。期刊數據資源的整合過程從數據體系上可分為數據採集層、數據存儲處理層和數據展現層。

要獲得能夠適合企業內部多部門均可使用、挖掘和分析的數據，可以從業務的關聯性分析數據的準確性、一致性、有效性和數據的內在關聯性。

3 期刊數據的信息挖掘

信息挖掘為了從不同種類和形式的業務進行抽取、變換、集成數據，最後將其存儲到數據倉庫，並要對數據的質量進行維護和管理。數據挖掘可以有效地識別讀者的閲讀行為，發現讀者的閲讀模式和趨勢，對網站改進服務質量、取得更好的用户黏稠度和滿意度、提高科技期刊經營能力有着重要的意義。作為一個分析推薦系統，我們將所分析的統計結果存儲於服務器中，在用户或決策者需要查詢時，只需輸入要找尋的用户信息，系統將從數據庫中抽取其個人信息，並處理返回到上網時間分佈、興趣點所在、適配業務及他對於哪些業務是有價值客户，甚至包括他在什麼時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。

網站結構挖掘是挖掘網站中潛在的鏈接結構模式。通過分析一個網頁的鏈接、鏈接數量以及鏈接對象，建立網站自身的鏈接結構模式。在此過程中，如果發現某一頁面被較多鏈接所指向，則説明該頁面信息是有價值的，值得期刊工作人員做更深層次的挖掘。網站結構挖掘在具體應用時採用的結構和技術各不相同; 但主要過程均包括預處理、模式發現和模式分析3 部分。為了反映讀者興趣取向，就需要對數據庫中的數據按用户進行抽樣分析，得到興趣點的統計結果，而個人的興趣分析也可基於此思路進行。下面以《中華醫學雜誌》為例做一介紹。

預處理預處理是網站結構挖掘最關鍵的一個環節，其處理得到的數據質量直接關係到使用數據挖掘和模式分析方法進行分析的結果。預處理步驟包括數據清洗、用户識別、會話識別、路徑補充和事件識別。以《中華醫學雜誌》網站www. nmjc. net. cn 的日誌分析為例。首先給出一條已有的Log，其內容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML，+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容，工作人員可以得到相關信息，如用户IP、用户訪問頁面事件、用户訪問的頁面、用户請求的方法、返回HTTP 狀態以及用户瀏覽的上一頁面等內容。

由於服務器同時部署了多個編輯部網站，這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日誌，去除由爬蟲軟件產生的記錄。這些記錄一般都會在日誌結尾包含“Spider”的字樣。同時，還需要去除不是由GET 請求產生的日誌以及請求資源不是頁面類型的日誌。最後，工作人員還需要去除訪問錯誤的請求，可以根據日誌中請求的狀態進行判斷。一般認為，請求狀態在( 200， 300) 範圍內是訪問正確的日誌，其他如403、400 和500 等都是訪問錯誤的日誌。用户識別可以根據用户的IP 地址和用户的系統信息來完成。只有在IP 地址和系統信息都完全一致的情況下，才識別為一個用户。會話識別是利用面向時間的'探索法，根據超時技術來識別一個用户的多次會話。如果用户在一段時間內沒有任何操作，則認為會話結束。用户在規定時間後重新訪問，則被認為不屬於此次會話，而是下次會話的開始。

利用WebLogExplore 分析日誌、用户和網頁信息在獲得了有效的日誌數據後，工作人員可以利用一些有效數據挖掘算法進行模式發現。目前，主要的數據挖掘方法有統計分析、關聯規則、分類、聚類以及序列模式等技術。本文主要討論利用Apriori 算法來發現科技期刊日誌數據中的關聯規則。本質上數據挖掘不是用來驗證某個假定的模式的正確性，而是在數據庫中自己尋找模型，本質是一個歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用於度量事件A 與B 同時出現的概率。如果事件A 與B 同時出現的概率較小，説明事件A 與B 的關係不大; 如果事件A 與B 同時出現非常頻繁，則説明事件A 與B 總是相關的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現時，事件B 是否也會出現或有多大概率出現。如果置信度為100%，則事件A 必然會導致事件B 出現。置信度太低，説明事件A 的出現與事件B 是否出現關係不大。

對所有的科技期刊日誌數據進行預處理後，利用WebLogExplore 軟件可得到日誌彙總表。表中存儲了所有用户訪問網站頁面的詳細信息，工作人員可將其導入數據庫中。以查看到所選擇用户訪問期刊頁面的詳細信息。

同樣，在WebLogExplore 軟件中選擇感興趣的頁面，可以查看所有用户訪問該頁面的統計信息，如該頁面的訪問用户數量等。工作人員可以對用户訪問排名較高的頁面進行進一步的模式分析。

步驟1: 將圖2 日誌信息彙總表中的數據導入數據庫中，建立日誌總表。

步驟2: 在數據庫中建立一個新表命名為tj。

步驟3: 通過查詢程序得到日誌總表中每一個用户訪問的頁面，同時做distinct 處理。

步驟4: 將查詢得到的用户訪問頁面記錄進行判斷。如果用户訪問過排名前20 位的某個頁面，則在數據庫中寫入true，否則寫入false。依次循環判斷寫入數據庫中。

步驟5: 統計每個訪問排名靠前頁面的支持度，設置一維項目集的最小閥值( 10%) 。

步驟6: 統計大於一維閥值的頁面，寫入數組，並對數組內部頁面進行兩兩組合，統計每個組合2 個頁面值均為true 時的二維項目集的支持度。

步驟7: 設置二維項目集支持度的閥值，依次統計三維項目集支持度和置信度( A≥B) ，即當A 頁面為true 時，統計B 頁面為true 的數量，除以A 為true 的數量。設置相應的置信度閥值，找到訪問排名靠前頁面之間較強的關聯規則。

4 數據挖掘技術應用的意義

1) 對頻繁訪問的用户，可以使用用户識別技術分析此用户的歷史訪問記錄，得到他經常訪問的頁面。當該用户再次登錄系統時，可以對其進行個性化提示或推薦。這樣，既方便用户使用，也可將系統做得更加友好。很多OA 期刊網站，不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用户來講其實十分重要，隱含了用户對文章的篩選過程，所以對用户經常訪問的頁面需要進行優化展示，不能僅僅提供鏈接地址，需要將文章題名、作者、關鍵詞等信息以列表的方式予以顯示。

2) 由數據挖掘技術而產生的頻繁項目集的分析，可以對網站的結構進行改進。支持度很高的頁面，説明該頁面的用户訪問量大。為了方便用户以及吸引更多的讀者，可以將這些頁面放置在更容易被訪問的位置，科技期刊的網站內容一般以年、卷、期的形式展示。用户如果想查看某一篇影響因子很高的文章，也必須通過年卷期的方式來查看，非常不方便而且頁面友好性不高。通過數據挖掘的分析，編輯部可以把經常被訪問或者高影響因子的文章放在首頁展示。

3) 對由數據挖掘技術產生的頻繁項目集的分析，可以發現用户的關注熱點。若某些頁面或項目被用户頻繁訪問，則可以用這些數據對用户進行分析。一般來説科技期刊的讀者，每個人的專業和研究方向都是不同的，編輯部可以通過數據挖掘技術來判斷讀者的研究方向和感興趣的熱點，對每一個用户進行有針對性的內容推送和消息發送。

4) 網站管理者可以根據在不同時間內頻繁項目集的變化情況對科技期刊網站進行有針對性的調整，比如加入更多關於該熱點的主題資源。目前大多數科技期刊網站首頁的內容，均為編輯部工作人員後台添加、置頂、高亮來吸引用户的; 通過數據挖掘技術，完全可以擯棄這種展示方式。編輯部網站的用户訪問哪些頁面頻繁，系統便會自動將這些頁面的文章推向首頁，不需要編輯部的人工干預，整個網站實現自動化運行。

5 後記

本文重點討論了數據挖掘技術與科技期刊網站頁面之間的關係。其實我們還可以從很多方面進行數據挖掘，比如可以對網站的用户和內容進行數據挖掘，通過分析可以為後期的期刊經營做好鋪墊。

有一點很重要，沒有一種數據挖掘的分析方法可以應付所有的需求。對於某一種問題，數據本身的特性會影響你的選擇，需要用到許多不同的數據挖掘方法以及技術從數據中找到最佳的模型。

在目前深化文化體制改革，推動社會主義文化大發展、大繁榮的政治形勢下，利用數據挖掘技術從中進行提取、分析和應用，能有效地幫助企業瞭解客户、改進系統、制訂合理的市場策略、提高企業的銷售水平和利潤。通過利用數據挖掘技術準確定位優質客户，向客户提供更精確、更有價值的個性化服務。這將成為未來科技期刊經營十分重要的突破點和增長點。

Tags：技術科技期刊論文網站數據挖掘