網絡流量數據是實現更好的網絡管理的必要條件,作為整個網絡的概述,它是許多網絡任務的關鍵輸入參數,如流量工程、容量規劃和異常檢測。由于流量測量系統受硬件和傳輸的影響,在采集過程中,不可靠的連接和傳輸協議造成流量數據結構丟失。如何有效地處理這些缺失數據仍然是一個挑戰。因此,準確地從流量數據中恢復缺失值非常重要。
目前,數據填充算法主要包括基于機器學習的K近鄰法(K-nearest neighbors, KNN)等,基于矩陣的稀疏正則化矩陣分解(sparsity regularized matrix factorization, SRMF)和奇異值閾值算法(singular value thresholding, SVT)等,以及基于張量的張量最小交替二乘法(tensor alternating least squares, TenALS)和低秩張量填充算法(tensor matrix completion, TMac)等。
在對網絡流量的缺失數據進行處理時,上述方法都存在著一些缺點。例如,K近鄰法需要大量的歷史數據,造成計算量過大;基于矩陣的方法不能利用數據的多維特性,導致數據恢復的精確度仍然較低;基于張量的方法沒有充分考慮數據潛在的時空相關性,無法達到令人滿意的恢復結果。
交替最小二乘法是矩陣分解中使用的一種算法,它能有效地估算稀疏矩陣中的缺失值,因此,在眾多領域中得到廣泛應用。如,運用多元曲線分辨-交替最小二乘法(multivariate curve resolution- alternating least squares, MCR-ALS)研究各種藥物之間的相互作用,以及在Spark框架下利用交替最小二乘法優化各種推薦算法等。
時空張量(矩陣)填充算法利用數據之間的時空相關性來提高缺失數據的恢復準確性。如,Roughan等人利用時空矩陣填充算法估算網絡流量矩陣的缺失值,以及Lin等人利用時空張量填充算法提高交通數據張量的恢復精度。
為了提高網絡流量缺失數據的恢復精度,本文提出了一種基于交替最小二乘法的時空張量填充算法。該算法不僅利用了張量分解及其低維表示,還充分考慮了網絡流量數據的時空相關性,進一步提高了流量數據恢復的準確性。
本文研究了網絡流量數據的缺失問題。為了減少數據估計的誤差,本文利用張量CP分解和網絡流量數據的時空相關性,提出了一種基于ALS的時空張量填充算法(TenALS-ST)以恢復流量數據的缺失值。本文使用真實的網絡數據集對提出的算法進行測試,實驗結果表明,所提出的方法在各種缺失率下都能實現較好的恢復精確度。