用電信息采集系統、自動化技術等在配電網的應用,為智能配電網運用大數據技術解決各種問題提供了路徑。但是在電力數據的采集、傳輸及存儲過程中常常會出現數據缺失、數據異常等質量問題,這些異常數據的存在使配電網的運行、調度、分析實驗等工作受到潛在的影響。因此,如何對這些數據進行修復成為當前研究的一個重要熱點問題。
事實上,針對缺失數據的處理技術廣泛存在于各行各業之中,缺失數據處理工作隨著各個領域特征的不同,以及數據應用目的的不同可采用多種方法。實際處理時,往往根據缺失數據的特征屬性、數據處理需要達到的目的、數據缺失的具體原因等選擇最佳的處理方法以求達到最好的效果。
配電網負荷數據往往存在時空特征明顯、數據的規律性較強、數據在電力系統規劃、調度、運行等各個環節的應用面較廣等特征,所以需要對缺失的數據進行較為精準的填充和修補。
針對配電網負荷數據具有時間規律的特點,對缺失數據的填充修補主要分為三種類型:
①采用構造映射的方法,根據數據規律的相似性,構造已有數據對缺失數據的映射進行修補;
②采用多重填補的方法,通過構造或者模擬影響其變動規律的相關因素的運動軌跡,推斷出缺失數據的可能范圍,再進一步通過統計、綜合分析等方法從中優選最匹配結果;
③采用機器學習的方法,在海量數據集中進行數據集的聚類分析,通過去噪、壓縮感知等方法匹配與缺失數據所屬數據集最為接近的特征,從而完成對缺失數據的填補。
在配電網負荷數據有較多積累的現狀下,采用聚類分析,并按照特征匹配的方法填補缺失數據已成為針對具有時間特性規律數據的一種廣泛而有效的方法。針對電力負荷數據,主要采用的聚類方法包括最近鄰加權聚類、K均值聚類、熵權聚類等多種分析方法,這些方法的基本思想均為先將數據對象聚類,劃分成多個簇,根據簇內相似對象對缺失數據進行修補。
其中,基于密度的含噪聲應用空間聚類(density-based spatial clustering of applications with noise, DBSCAN)方法對數據集的分布不敏感,抗噪性好,且對于數據集的識別能力較強,針對空間分布較為廣泛的配電網負荷數據聚類具有較好的適應性,但該方法在處理大量龐雜數據時的計算速度還有待進一步提高。
基于上述背景,內蒙古電力經濟研究院的研究人員依據配電網負荷數據的時序特性,提出一種改進的DBSCAN二次聚類方法對配電網負荷缺失數據進行修補。
圖1 數據修補算法流程
首先依據負荷數據長周期特征的關鍵指標,提取每一個數據記錄的關鍵信息,針對縮減的數據集進行初步聚類,然后在初步聚類的基礎上針對完整數據再次進行DBSCAN空間密度二次聚類,以利于縮短由于龐大數據集而延長的聚類時間。其次通過負荷數據的數值屬性相似度和記錄值相似度比較,以相似度最大為原則、以同類數據屬性相同為原則修復缺失的負荷數據。最后將仿真結果與實測數據進行對比,驗證所提方法對配電網負荷數據修復的有效性和準確性。
圖2 本方法對缺失負荷曲線的修補結果
研究人員最后得出如下結論:
1)在針對配電網負荷數據進行缺失數據修補時,DBSCAN二次聚類算法可以較好地依據負荷特性對負荷數據進行修補,且修補效果較好。
2)改進的DBSCAN二次聚類算法,通過首先按照長時間周期特征對數據進行初步聚類形成子集,再在每一個子集內按照短時間周期二次聚類的方法,有效提高了聚類算法的計算速度。
3)算例分析結果表明,DBSCAN二次聚類算法進行數據修補有更高的準確度,且針對連續性數據缺失也能取得較好的修補效果。
后續研究還需要重點結合兩方面問題進行考慮:一是兩次DBSCAN聚類中,參數Eps和MinPts大小的適度配合,尤其是面向更大量數據的時候,兩者的相互配合直接關系到計算速度的提升幅度;二是負荷記錄綜合相似度包含多種負荷屬性特征,針對不同類型的數據修補問題,各權重大小如何取值才能取得更好的數據修補效果。
本文編自2021年第12期《電氣技術》,論文標題為“基于DBSCAN二次聚類的配電網負荷缺失數據修補”,作者為蔡文斌、程曉磊 等。