核心期刊學術咨詢服務
您當前的位置:首頁 > 學術論文 > 電子信息論文 > 一種基于圖計算的網絡實體行為評估算法設計

一種基于圖計算的網絡實體行為評估算法設計

來源:核心期刊咨詢網位置:電子信息論文時間:2020-11-21 10:5312

  一.引言

  圖是一種揭示實體之間關系的語義網絡,以符號形式對現實世界的事物及其相互關系進行形式化地描述。其基本組成單位“實體-關系-實體”三元組,以及實體及其相關屬性值對,實體間通過關系相互聯結構成網狀的結構,F階段圖計算在各個領域都有廣泛的應用,例如:信息檢索/搜索,自然語言理解,問答系統,推薦系統,公安刑偵,社交類業務等。通過圖的方式可以更好的展示實體之間的關系。

  互聯網上的各類數據以圖的方式存儲則可以更清晰直觀的展現各個實體的行為以及實體間的關系。一種典型的場景是,當用戶產生登錄運營商服務器,訪問互聯網網站,下載文件等行為時,以及運營商內部一些資產服務器上的應用自動訪問互聯網用于軟件更新,一些監控服務對其他資產服務器進行安全掃描等等。運營商都會記錄下這些行為日志并進行相應的分析審計。通常的行為日志內容表述如下:

計算機信息管理論文

  A用戶 - 在某個時間 - 登錄了 - a應用

  B用戶 - 在某個時間 - 訪問了 - b網站

  C用戶 - 在某個時間 - 下載了 - c文件

  A設備 - 在某個時間 - 連接了 - a服務

  B應用 - 在某個時間 - 掃描了 - C設備

  上述日志條目中,頭尾兩端的字段為網絡實體(用戶,設備,應用等),中間的字段為關系(登錄,訪問,下載,連接,掃描等),時間屬性則作為實體或關系的屬性值。

  使用圖的形式展現網絡實體行為關系更為清晰直觀,但存在的問題是當網絡規模變大,網絡中實體數量大幅增加時,例如實體數量達到數以千計萬計時,如此龐大的數量以圖的形式展現將變的無法適應,審計人員無法從千萬個節點以及千萬條邊中找出需要關注最有價值的數據。所以采用圖的形式展現,和傳統數據表形式展現相比同樣需要一套數據的評估排序篩選的方法,以找出最有價值的數據。

  從龐大的圖數據集中找出更有價值的數據用于呈現有一些方法,比較常見的一種是在圖中為每個實體計算若干項評估指標,例如該實體的最后更新時間,該實體出現的次數,該實體關聯關系數等。審計人員從若干項指標中人工選擇需要關注的按數值大小按升序或降序排列,最終篩選出topN項實體及其關聯關系。

  進一步出現了上述方法的改進方法,在計算出每個實體的若干項評估指標的基礎上,給每種指標賦一個經驗權重值,再計算所有指標的加權平均值,審計人員直接按最終的加權平均值的數值大小升序或降序排列實體,同樣最終列出topN項實體及其關聯關系。

  針對上述例舉的現有方法中的第一種,最大的弊端是通過單個指標的排序并不能完整的評價某個實體的真實情況,并且這種單一維度的評價方法本質上和采用圖表方式的存儲并無本質區別,并不能很好發揮出圖的關聯關系特性。

  針對上述例舉的現有方法的改進方法,該方法雖然通過多個指標對實體做了多維度的綜合評估,但其對每種指標權重的選擇完全基于人工經驗,而這種基于經驗確定的權重值并不能保證其合理性,不合理的權重值會導致某幾項指標在計算加權平均后完全失去了效果,影響最終的評估結果。

  和上述兩種現有方法相比較,本文設計的算法避免了通過單個指標對實體評估的單一性,同時在采用多個指標綜合評估的基礎上,改進了通過人工設置經驗權重這種不太合理的方法,充分利用了圖的特性,采用一種基于動態指標的評估方法,可以更加全面準確的對實體進行評估,在圖中篩選并展現出更合理的網絡實體及其關聯關系。

  二.網絡實體行為評估算法設計

  (一)評估算法總體流程設計

  運營商記錄的其網絡中各種網絡實體的各種操作記錄的日志,提取抽象以后通常都可以用以下屬性來描述:

  上表中舉例的行為記錄表示:

  用戶Tom在2020.08.01 12:23:45下載了名叫Manual的pdf文件。

  通常情況下,運營商服務器每時每刻都會記錄下上述大量的行為日志,本設計算法收到這些日志后,按如下流程處理:

  步驟①,獲取指定時間范圍內運營商服務器所產生的各種行為日志,時間范圍長短不做限制。

  步驟②,將日志中的“實體”以及“作用對象實體”作為頂點,“行為”作為邊,采用圖的方法存儲,即按頂點的關鍵字分組。

  步驟③,統計圖中上述指定時間范圍內的每個頂點的各項指標,即每一組中實體的相關指標,這些指標包括并不限于:頂點上報次數,度中心性,緊密中心性,中介中心性等。

  步驟④,計算每個實體每種指標在上述時間范圍內的數據中相應的概率密度(對于離散型隨機變量即指其分布律),即該計算的概率密度數值只基于本次獲取的這批數據得出。

  步驟⑤,計算每個實體所有指標概率密度結果的數學期望,即求每個頂點所有指標的算術平均值。

  步驟⑥,將每個實體按按數學期望大小排序,選出其topN實體及其關聯關系作為最終結果展現給審計人員查看。

  (二)實體行為圖存儲方式設計

  圖是由(V, E)來表示的,對于無向圖來說,其中 V =(v0, v1, ... , vn),E = { (vi,vj) (0 <= i, j <= n且i 不等于j)},對于有向圖,E = { < vi,vj > (0 <= i, j <= n且i 不等于j)}。V是頂點的集合,E是邊的集合。圖可以有兩種典型的表示方法,一個是鄰接矩陣,另一個是鄰接鏈表,這兩種方法都可以表示有向圖和無向圖。

  鄰接矩陣是用兩個數組來表示一個圖:一個一維數組用來存儲每個頂點的信息;一個二維數組(即鄰接矩陣)用來存儲圖中的邊或弧信息。對于圖G =(V, E)來說,鄰接矩陣matrix是一個|V|*|V|的方陣,假設1 <= i, j <= |V|,如果matrix[i][j] == 0,則表示頂點i和頂點j之間沒有邊相連;反之,如果matrix[i][j] != 0,則表示表示頂點i和頂點j之間有邊相連,且matrix[i][j]存儲的值即為該邊的權重。

  推薦閱讀:計算機信息管理專業論文文獻

電子信息論文發表流程

電子信息論文發表流程-核心期刊咨詢網
論文發表咨詢

相關論文閱讀

期刊論文問答區

電子信息優質期刊

最新期刊更新

精品推薦