科技文獻語義檢索系統的分類與功能特點論文

欄目: 論文 / 發佈於: / 人氣:1.18W

1 引言

語義檢索是信息檢索的發展趨勢，早在 20 世紀80 年代，語義檢索的思想就已經出現，並且信息檢索領域已經開展了相關研究工作。企業級的語義搜索引擎近幾年已經開始應用，例如 Kosmix 和等，特別等讓搜索變得更智慧。百度框計算搜狗知立方代表了國內搜索引擎在該領域的成功實踐。在文獻信息檢索領域，作為語義檢索系統的典型代表，做出了開創性的工作，一些面向科技文獻的語義檢索系統不斷出現。

傳統基於關鍵詞的檢索系統具有一定的侷限性，如無法解決詞彙的模糊性問題，分散在多個文檔中的相關信息不容易被發現等。語義檢索基於含義而不是通過關鍵詞匹配尋找用户查詢的答案，用以實現實體檢索、概念檢索、分類檢索、關係查詢等知識檢索方式來滿足用户的多種信息需求，使得搜索智能化，根據用户的意圖給出用户想要的結果。目前，語義檢索主要有兩個方向：語義網資源的檢索和對於傳統檢索系統的語義擴展。面向科技文獻的語義檢索研究主要偏向於後者，利用語義技術改進傳統文獻檢索系統，利用敍詞表、主題詞表、本體等知識組織體系實現語義豐富化，採用語義標註、自動抽取、關係發現的文本挖掘技術從非結構化的文本中發現細粒度的數據，使得檢索系統更智能化。本文根據文本語義處理程度對科技文獻語義檢索系統進行分類，提出科技文獻語義檢索系統的基本框架，並探討科技文獻語義檢索系統的功能特性。

2 科技文獻語義檢索系統分類

根據系統的智能化、語義化程度，將現有科技文獻語義檢索系統分為：語義查詢擴展的檢索系統、以概念或實體為中心的檢索系統、以關係為中心的檢索系統、面向知識發現的檢索系統 4 種類型。這 4 類檢索系統對科技文獻的文本語義化處理程度不同，檢索系統的智能化和語義化程度也不同，如圖 1 所示：

【1】

2.1 語義查詢擴展的檢索系統

語義查詢擴展的檢索系統在傳統關鍵詞檢索基礎上，對檢索詞進行處理，利用受控詞表和本體對檢索詞進行擴展。PubMed支持基於 MeSH 的查詢擴展，也有利用 UMLS 的同義詞對 PubMed 查詢進行擴展,QuExT執行面向概念的查詢擴展，檢索結果根據用户預先分配給概念類別的不同權重進行排序。

GO2PUB利用基因本體中術語之間的語義繼承對PubMed 查詢進行語義擴展，基因名稱、符號和同義詞都作為額外的關鍵詞提交給查詢處理器。

2.2 以概念或實體為中心的檢索系統

以概念或實體為中心的檢索系統利用本體、主題詞表、敍詞表等對科技文獻進行語義標註，識別文獻中的知識，檢索過程通過匹配用户查詢和語義標註結果執行，這使得檢索系統能夠利用標註信息查詢到更精確的結果。GoPubMed是這類系統中最典型的，它利用 Gene 本體和 MeSH 標引 PubMed 文獻，並用於檢索結果的結構化展示，可以讓用户看到與查詢相關的主要的生物醫學概念。相比 PubMed, GoPubMed 可以更快地找到相關的檢索結果。NextBio 文獻檢索系統利用基於本體的語義工具和創新界面，對 ScienceDirect 內容和 PubMed、臨牀實驗、生物醫學新聞等授權開放使用的研究數據進行文本挖掘，並通過自然語言處理技術實現命名實體識別和消歧，從而提高檢索性能。Kleio 系統對文本的語義概念（如 genes、protein和其他生物醫學術語）進行標註，提供對於 MEDLINE的文本和元數據相結合的檢索，利用標註的命名實體類型對檢索結果進行分面，從而實現檢索結果的過濾。

2.3 以關係為中心的檢索系統

以關係為中心的檢索系統通過文本挖掘技術從科技文獻中發現概念或實體之間的關係，能夠提供基於關係的檢索服務。Quertle是一個關係驅動的生物醫學文獻檢索工具，使用基於語義的自然語言處理方法從生物醫學文獻集中抽取主謂賓關係，發現生物醫學實體（如疾病、基因、藥物）之間的一般或特殊關係。

用"咖啡因偏頭痛"作為搜索詞， Quertle 會發現兩個檢索詞之間的關係如"咖啡因治療偏頭痛", 而不是通常搜索 PubMed 所返回的同時包含"咖啡因"和"偏頭痛"兩個檢索詞的記錄。CoPub是以共現關係為中心的檢索工具，利用文本挖掘技術檢測 PubMed 摘要中共現的生物醫學概念，如基因本體中的人類/鼠基因、生物過程、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在 CoPub 系統中檢索某個生物醫學概念，可以獲得與其共現的其他生物醫學概念以及共同出現的文摘。PolySearch抽取人類疾病、基因、突變、藥物和代謝物之間的關係，利用各種文本挖掘和信息檢索技術對內容摘要、段落或句子進行識別和排序，支持面向十幾個不同類型的文本、科學文摘或生物信息學數據庫的50多種查詢類型，例如檢索"與乳腺癌有關的基因".

2.4 面向知識發現的檢索系統

面向知識發現的檢索系統通過發現隱含的關係和知識，從而為用户提供更深層次的語義檢索服務。

CoPub 5.0在 CoPub 共現關係挖掘的基礎上開發了稱為CoPub Discovery的新技術，從文獻中挖掘間接關係，用於研究疾病背後的機理、連接基因和途徑，發現現有藥物的新型應用等。CoPub 5.0 提供了三種分析模式， "term search"模式為一個術語檢索文摘和術語關係， "pair search"模式分析術語對之間的已知關係或新關係， "set terms"模式用以給出多個術語之間的關係。

FACTA++從 MEDLINE 文摘中發現並可視化如基因、疾病、化合物等生物醫學概念之間的間接關聯，利用機器學習模型發現文本中的生物分子事件，利用概念之間的共現關係統計出信息挖掘隱藏的關聯。EvidenceFinder實現對 PMC 全文數據從化合物基因、蛋白質、疾病等生物醫學實體到如磷酸化、綁定、激活等生物相關性事實的多層次文本標註。Evidence-Finder 將標註事實轉化為一系列的問題，作為文獻檢索的推薦，幫助用户找到問題答案對應的文章。例如，輸入檢索詞"粘蛋白", 系統自動給出一系列相關問題，如"降低腸道粘蛋白的是什麼？"、"什麼產生粘蛋白？"等。

3 科技文獻語義檢索系統的基本框架

根據對典型科技文獻語義檢索系統的分析，提出系統基本框架，分為語義知識獲取、數據集成與融匯、語義索引構建、查詢處理、結果展示 5 個主要的系統功能，如圖 2 所示。實現科技文獻的語義豐富化，基於領域敍詞表或本體，利用語義標註、實體抽取、關係抽取等技術從科技文獻文本信息中獲取語義知識。以這些語義知識為基礎，藉助實體或概念匹配、本體集成、Linked Data 之間的關聯實現潛在語義知識、科技文獻以及外部資源的數據集成與融匯，支持細粒度的語義檢索以及相關知識的擴展檢索。在文獻元數據索引的基礎上，構建實體、概念、關係、文本事實依據的索引，支撐基於語義的檢索功能。在查詢處理方面，採用術語匹配、自然語言處理、相似度計算、知識庫圖遍歷、本體推理等技術手段理解用户的搜索意圖，通過基於語義知識的分類、聚類、排序等對檢索結果進行重新優化計算。通過結果列表、可視化展示、分面瀏覽、樹形導航、本體導航等方式將檢索結果展示給用户，同時提供基於語義知識的相關推薦和統計預測等功能。

4 科技文獻語義檢索系統的功能特點

語義信息的引入影響了科技文獻檢索系統從數據處理、索引構建、查詢處理到結果管理的各個方面，使得檢索系統具有一些新的特性。

4.1 科技文獻語義豐富化

在傳統文獻標引的基礎上，一些文獻檢索系統已經進行了深層的語義豐富化處理，並且在此基礎上提供更準確的檢索服務。例如， ProQuest在文本標引基礎上將藴含在學術出版物中的表格、地圖、照片和其他圖形中的數據、變量以及其他內容進行深度的標引，平均使用8個術語描述一個圖像。Wiley的SmartArticle技術[14]針對化學期刊新增了化合物索引，提供對於內容的深層檢索，此外對文獻中的化學術語進行標註，使用不同顏色對不同類型的化學術語進行高亮顯示，以方便用户閲讀。在醫學文獻檢索領域， PubMed使用MeSH主題詞表進行文獻標引，隨着文本挖掘技術的成熟，一些工具和系統在PubMed基礎上對科技文獻進行了更為深入的語義豐富化處理[15].例如， EBIMed[16]

從文獻中抽取蛋白質、基因本體標註、藥物和物種，基於共現分析識別抽取概念之間的關係。PubTator工具[17]支持對PubMed檢索結果的標註，識別的生物醫學實體包括基因、化學物質、疾病、變異、物種等。

4.2 基於實體或概念的數據集成與融合科技文獻的數據集成已轉變為以實體或概念為中心的數據集成和融合，實現不同應用系統之間的語義互操作，促進更廣泛的共享與應用。AGRIS 國際農業科學和技術信息系統利用 OKKAM 實體名稱系統框架[18]創建關聯數據模型，將書目數據庫轉換為關聯數據服務.一方面，使用 AGROVOC 敍詞表與其他敍詞表映射，另一方面將書目記錄與外部資源建立連接，如 DBPedia、WordBank、Google Custom SearchAPI、Nature OpenSearch 等。在 AGRIS 檢索結果的詳細頁面中，除書目信息外，還提供相關外部資源的結果揭示，藉助文獻標引使用的 AGROVOC 詞彙、書目關聯數據等實現以實體或概念為中心的知識頁面之間的融匯。Elsevier 提出 Smart Content 的概念, 組織醫學專家在 UMLS 基礎上構建 EMMeT 醫學詞彙分類體系，將 Elsevier 的臨牀醫學期刊、論文、書目章節、表格、圖像等數據映射到合適的醫學術語上，從而加強對 Content 的理解，使其提升到實體、概念和關係的知識層面上，以便各類應用程序更好地理解和處理內容上的內涵信息。

4.3 面向文本分析結果的索引機制。為實現對文本分析結果的檢索，語義檢索系統構建了文本中概念、實體、關係、事實與文獻之間的索引。例如， Kleio系統應用Lucene對識別出來的蛋白質、基因、代謝物和醫學術語構建索引，即對與文本相關的概念構建索引，而不是個體或規範詞形式，這意味着系統可以檢索與某個指定概念相關的文檔，無論概念的表現形式是它的拼寫變體還是縮寫形式.

EvidenceFinder 系統藉助基因、蛋白質、藥物、疾病和代謝物的詞表以及表示生物醫學過程和關係的詞典，對 Europe PMC 倉儲全文數據進行語法分析和文本挖掘，將所有可能包含相關事實的句子構建索引。NLMplus使用 Solr 對語義層進行索引，支撐檢索服務。而 Quertle建立語義關係索引、關鍵詞索引和輔助索引三種索引，用於查找用户輸入的檢索詞和提問，並返回檢索結果。

4.4 查詢處理

由於一個搜索請求可能代表多重含義，對用户輸入的檢索詞進行語義分析是語義檢索系統的首要任務。通常，語義檢索系統從用户輸入字符開始提供自動完成功能，對用户輸入的檢索詞和語句進行識別和分析，給出相關的查詢建議，通過理解用户查詢意圖和搜索空間的含義改進檢索質量。

（1）基於受控詞表和本體的自動完成功能

目前，搜索引擎大多數都具有自動完成功能，利用預存的術語自動將用户的檢索詞對應到可能匹配術語上並提示給用户，簡化用户輸入操作。文獻檢索系統通常利用受控詞表和本體實現自動完成功能，GoPubMed將輸入的術語匹配 MeSH 和 Gene 本體術語； Semedico將查詢建議放在分類樹中允許用户選擇一個廣義術語作為檢索詞，在括號中列出其同義詞；NextBio可以列出匹配的基因、化合物、SNPs、疾病、組織、生物學團體和作者等； Elsevier 的 ClinicalKey 醫學信息平台在用户輸入檢索詞後提供檢索建議，如相關醫學主題、內容來源和作者等。

（2）查詢分析

檢索系統在執行查詢前，採用語言學方法將用户輸入的檢索詞映射到受控詞表或本體的概念、實體上，將關鍵詞檢索轉化為概念或實體的`檢索。利用受控詞表的同義、廣義、窄義等術語以及基於本體上下位關係實現查詢的邏輯推理，用於解釋用户的查詢，並給出查詢建議。Kleio 系統將摘要中命名實體進一步分類，結合語義分類信息執行查詢，可以降低搜索空間，提高檢索效率.一些文獻檢索系統允許用户使用自然語言進行提問，如 Quertle、EvidenceFinder 等，在執行查詢處理前，需要對查詢語句進行預處理，利用自然語言處理技術將查詢語句進行重構。NLMplus使用敍詞表和本體對 PubMed Review 進行語義標引，利用構建的知識庫對查詢進行分析和解析，以檢索到更精確的結果。iPubMed[23]提供一個交互式檢索界面，當用户在搜索框中輸入幾個字符時，系統將立即顯示任何包含這些字符的引用，便於縮小搜索目標，此外該系統還允許小的拼寫錯誤。ClinicalKey 通過 EMMeT建立關係的語義框架，促進內容發現，使得被傳統關鍵詞檢索忽略的潛在關聯能夠被揭示出來，並且保證了ClinicalKey能夠為用户的檢索請求提供具體並且有針對性的答案，比如查找"myocardial infarction",ClinicalKey 智能檢索可以識別其縮略詞、同義詞、相關外科手術和治療藥物，並且知道這是一種與高膽固醇相關的心血管疾病[20].

4.5 查詢結果管理在傳統文獻檢索系統的基礎上，語義檢索系統對於查詢結果的呈現方式更加多樣，表達的信息也更加豐富，基於本體的結果精煉、知識導航等為用户帶來了新的檢索體驗。

（1）查詢結果呈現方式語義檢索系統為用户提供了最直接的結果呈現方式，如檢索的目標概念（實體）、關係、事實、回答等信息。GoPubMed[5]在文獻結果列表中只顯示文摘中與檢索目標相關的句子，反映檢索詞的事實，而不是全部摘要信息。Quertle[8]同樣顯示文摘中相關的事實信息，並對檢索目標進行高亮顯示。FACTA++[12]將與查詢目標相關的概念通過不同分類列表的方式顯示，並可以按照相關的頻次排序。CoPub[9]返回查詢術語的詳細信息、共現術語的分類和文摘數量。EvidenceFinder[13]在文獻檢索列表中直接給出查詢問題的答案並高亮顯示。

（2）概念/實體層級結構分類與導航GoPubMed[5]通過本體的層級結構對查詢結果進行聚集，實現了大規模結果的快速導航，用户可以快速獲取相關的生物醫學概念，同時可以在檢索中發現新的檢索目標或過濾檢索條件，使得檢索更有深度和廣度。NextBio[6]將從摘要和正文中抽取的生物醫學術語，以Tag雲的方式顯示，並提供這些術語的分類，可以利用它們進一步過濾和優化查詢結果。Kleio[7]將檢索結果根據文獻標註命名實體的語義分類進行組織，並列出最高關聯頻率的概念，方便用户瀏覽和過濾檢索結果。ClinicalKey 允許用户根據有臨牀意義的子分類篩選檢索結果，比如內容類型、專科、疾病名稱、身體部位等[20].

（3）文本挖掘結果顯示與相關知識導航在結果頁面或文獻詳細頁面對語義標註結果進行呈現，並提供相關知識的簡介、鏈接與導航，例如GoPubMed[5]在標註概念下方用虛線標記，點擊後可實現對標註概念的重新檢索和二次檢索，以及直接給出標註概念的詳細信息、W kipedia 鏈接。EvidenceFinder系統[13]在文獻詳細頁面將識別的生物實體統計情況以圖形化的方式顯示，並根據不同的類型分別列出，點擊標註實體可以直接鏈接到 UniProtKB的相關檢索界面，查看相關信息。ClinicalKey平台在檢索結果頁面提供文獻摘要的預覽窗口，同時對語義標註的結果進行展示，並且提供 2 000 多個疾病主題頁，可以快速訪問疾病的流行病學、風險因素、臨牀表現、治療等方面的信息，以及與特定專科相關的答案和藥物鏈接[20].

（4）基於概念/實體的文獻統計分析。通過對文獻的文本挖掘，語義檢索系統可以實現基於概念/實體而不是關鍵詞等元數據信息的文獻統計分析功能。例如，在 GoPubMed[5]平台上點擊左側導航的概念或文本標註概念都可以看到該概念相關文獻的時間軸，不僅可以展示相關文獻的演化過程，也可以預測其發展趨勢。

5 結語

科技文獻語義檢索系統相比傳統檢索系統，其優勢在於能夠處理語義信息，從非結構化文本中發現潛在知識，實現知識檢索，滿足用户更高的檢索需求。通過研究和分析現有科技文獻語義檢索系統可以發現系統的語義化程度依賴於對文獻的語義挖掘深度，藉助現有的文本挖掘、自然語言處理、語義網等技術以及受控詞表和本體，在很大程度上實現了對指定信息的挖掘和發現，然而由於受控詞表和本體的領域侷限性和覆蓋率問題，科技文獻語義檢索系統的研究主要集中在生物醫學領域，而在科技文獻檢索領域實現通用的語義檢索仍然困難重重。

Tags：語義文獻科技文獻語義檢索系統的分類與功能特點論文檢索系統論文