隨著全球經濟的快速發展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環境污染問題,新能源以其安全性、環保性和可再生性等優勢在世界范圍內得到了高度重視和廣泛應用,并呈現出良好的發展前景。
據統計,在2019年第一季度,我國新增風電裝機容量478萬kW,累計并網裝機容量達到1.89億kW,全國風電發電量1041億kW?h,同比增長6.3%;新增光伏裝機容量478萬kW,累計并網裝機容量達到1.797億kW,全國光伏發電量440億kW?h,同比增長26%。
然而,由于新能源發電的隨機性和不確定性,新能源大規模并網后對電力系統的穩定運行造成了巨大的挑戰。提前對新能源進行發電功率預測,能夠協助調度部門調整運行方式,進而保證電網的安全和穩定。近十年來,國內外許多學者都致力于研究新能源的功率預測方法,并取得了豐富的成果。
進行新能源功率預測時,需要對從新能源場站收集到的海量原始數據進行挖掘。然而,由于電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁干擾或設備故障等原因,導致原始數據中存在大量不完整的數據和異常的數據。這些不良數據嚴重影響預測模型的參數估計,造成預測精度低、預測偏差大等后果。因此在功率預測前,有必要進行有效的數據清洗處理。
目前針對新能源功率預測的數據預處理方面的綜述較少,因此有必要對新能源功率預測背景下的數據清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構兩個方面,詳細地闡述、分析和歸納了新能源異常數據的類別和清洗方法。最后對數據清洗在新能源功率預測中需要進一步研究的方向進行了展望。
精確的功率預測有利于調度部門的決策,可以提高新能源場站的控制性能,進而減少棄風、棄光所導致的發電損失,解決供需不平衡所帶來的系統穩定性問題,增強新能源場站的市場競爭力。然而,精準的功率預測依賴于準確的測量數據,因此有效的數據清洗是新能源功率預測必不可少的步驟。
新能源功率預測時所用到的數據有數值天氣預報(numerical weather prediction, NWP)數據、新能源運行實測數據和新能源地理信息數據等。
當下學者主要以預測變量和被預測量為數據清洗對象。其中,預測變量可以為風速、輻照度等,被預測量一般為新能源機組輸出功率。圖1所示為采用文獻計量分析法得出的數據清洗方法分類示意圖。
圖1 數據清洗方法分類
2.1 功率曲線中異常數據的分類
功率曲線是新能源發電的預測變量與被預測量之間的關系曲線。學者們根據異常數據的分布特征,把出現頻率高的異常數據類型分成了4類。以風速-風機功率散點圖為例,采用比恩法繪制風電功率曲線圖,4類異常數據的分布如圖2所示。
1)類型1:曲線上方的堆積型異常數據,通常是由于傳感器失靈、通信或測量設備故障導致的。
圖2 異常數據的分布
2)類型2:曲線中部的堆積型異常數據,通常是由限電或通信故障造成的。
3)類型3:曲線周圍的分散型異常數據,通常是由于氣象波動、信號傳播噪聲等隨機情況造成的。
4)類型4:曲線下方的堆積型異常數據,通常是機組故障、停機檢修造成的。
2.2 異常值剔除方法
1)統計量分析法
采用統計量分析的方法,重點在于對變量做描述性統計,從而查看哪些數據是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預測變量的取值是否超出范圍。若檢測到功率小于等于零的數據則進行剔除,實現數據的清洗整定。統計量分析方法可以簡單有效地完成對新能源數據的檢查,適合處理不在有效數據范圍內的堆積型數據,但是不適用于處理大量的分散型異常數據。
2)3sigma法
3sigma法又稱為拉依達準則。如果數據服從正態分布,分布在(◆-3◆, ◆ +3◆)中的數據的概率為99.73%,而分布在距離平均值3◆之外的數據的概率不到0.3%,屬于極小概率事件,其中◆為標準差,◆為平均值。因此在3◆原則下,將超過3倍的標準差的數據值視為異常值。
然而,實際新能源的發電數據往往并不嚴格服從正態分布,且由于堆積型異常數據的影響,導致識別出的異常值個數少于實際異常值個數。因此,將這種方法用于非正態分布數據的異常值識別時,其有效性有限。
3)小波奇異點檢測法
新能源異常數據可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩信號,并從非平穩信號中精確辨識出奇異點的位置。通常來說,對奇異點位置的辨識依賴于小波變換系數正負模極大值線在低尺度上的交點。正負模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點的位置,之后再對其進行修正。
但是由于新能源發電功率有波動性,即使是正常的數據在小波變換之后也可能會存在奇異點,所以判斷出奇異點后還應區分正常的奇異點和錯誤奇異點。此外,在實際應用中,選取合適的小波函數是使正負模極大值線能相交于一點的關鍵,否則將無法識別出奇異點的位置。
4)四分位算法
5)支持向量機回歸算法
支持向量機回歸算法(support vector machine regression, SVMR)的核心是用函數擬合數據,在數據中含有大量異常值的情況下,曲線在回歸估計過程中會因趨近異常數據而發生畸變,從而造成回歸曲線的擬合效果不理想。
在SVMR算法的結構風險函數中加入不敏感損失函數,可以控制異常數據對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數據與回歸值之間的殘差十分顯著,從而更容易將異常數據進行分離。
6)K最近鄰聚類算法
K最近鄰(K-nearest neighbor, KNN)算法在分類上根據最鄰近的一個或幾個數據的類別決定該數據的類別。借助距離參數表征數據的偏離程度,可以對異常數據進行檢測并剔除。常用的距離有歐氏距離和馬氏距離。當某數據點與其他數據點的距離都大于一個閾值時,就被判定為異常數據。該方法簡單易懂,但是在訓練歷史數據構建數學模型時學習速度較慢,泛化能力較差,且需要大量的數據進行訓練,否則訓練誤差會較大。
7)組內最優方差法
在使用組內最優方差法(optimal interclass variance, OIV)時,首先要設置一個初始方差閾值S,然后將預測變量劃分成n個區間,區間劃分的間隔通常取0.5個單位的預測變量,例如將風速區間間隔定為0.5m/s。再根據初始閾值S將每一個區間里的異常數據和正常數據進行區分,最后對所有區間的數據進行歸納,從而找出所有的異常數據。
采用OIV進行新能源功率曲線分析時,可以快速準確地清洗數據。與其他學習算法相比,此方法不需要歷史數據集進行訓練便可以識別出發電性能偏低的數據簇,且處理速度快,操作過程簡便,通用性強。但是此方法需要人工反復試探才能確定閾值。
8)基于密度的離群點檢測算法
離群點檢測算法(local outlier factor, LOF)通過聚類的方法識別離群點。由聚類生成的一組數據對象集合稱為簇,同一簇中數據對象周圍的密度與其鄰域周圍的密度相似,而落在簇集合之外的數值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同,將離群點刪除就能實現異常數據的剔除。
LOF算法可以有效實現對分散性數據的識別,但是識別密度較高的堆積型數據能力較差,而且LOF的閾值設置有一定的難度,要根據經驗或者多次嘗試才能達到理想效果。
9)組合模型清洗法
僅僅使用單個數學方法或者人工智能算法進行異常數據清洗存在著一定的局限性。為了彌補單個算法的不足,有學者提出一種四分位法和聚類分析的組合模型用于識別異常數據。組合模型在使用時,四分位法用于剔除分散型異常數據,而聚類法用于剔除堆積型異常數據。有學者提出使用四分位法與變點分組法的組合模型對異常數據進行識別并清洗。
以上的方法都可以改進使用單一四分位法時識別堆積型異常數據較差這一局限。
當只是針對數據本身進行清洗時,雖然具有普遍性,但是沒有考慮新能源場站的物理特性,導致異常數據的識別效果變差甚至會誤刪正常數據。為了解決這個問題,在清洗數據時可以將新能源出力之間的相關性和自身出力特性考慮進去,識別效果會明顯提高。
2.3 仿真測試
以福建某風電場為例,該風電場有24臺額定功率為2MW的風電機組。風電機組的切入風速為3m/s,額定風速為15m/s,切出風速為25m/s。風電場風速采集時間間隔為10min,采集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數據中有12%的異常數據。
圖3 風速-功率散點圖
分別采用數學方法中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優勢進行互補,進而實現較好的清洗效果。
在異常數據占比較高的情況下,數據清洗過程中的異常值剔除量將隨之變高,進而破壞了原始數據的完整性和充裕度。這不僅會影響新能源功率的預測模型,而且不利于數據再利用。通過對被剔除數據進行重構,能夠保持數據的完整性和有效性。
采用文獻計量分析方法得出主流的缺失值重構方法有:①基于統計學的重構方法;②基于機器學習的重構方法;③基于物理特性的重構方法。
3.1 基于統計學的重構方法
基于統計學的重構方法有均值重構法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。
三次樣條插值函數一般會使用三彎矩插值法去構造。當連續的異常數據點少于等于5時可以直接利用三次樣條插值函數對數據進行重構;當大于5時,則需用改進的多點三次樣條采樣法進行重構。基于統計學的重構方法較為簡便快速,但是重構的數據偏差較大,且忽略了新能源數據的時序信息。
3.2 基于機器學習的重構方法
常用的基于機器學習的重構方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據歐式距離用于確定缺失數據樣本周圍最近的K個樣本,將K個值加權平均用于估計缺失值;回歸算法根據數據集建立回歸方程,將缺失值的已知屬性帶入方程去估計缺失值;EM假設模型對于完整樣本是正確的,通過觀察數據的邊際分布進而對缺失值進行極大似然估計。
這些算法都是根據已有數據建立相應模型,然后使用模型來估計該樣本的缺失數據,應用較為普遍但卻未考慮相鄰數據間的時序信息。
自回歸滑動平均模型(auto regressive moving average, ARMA)彌補了這個缺點,此算法將預測指標隨時間推移形成的數據序列看作是一個隨機序列,這組隨機變量所具有的依存關系體現著原始數據在時間上的延續性,從而用于缺失數據的插補。
3.3 基于物理特性的重構方法
目前新能源場站都是大規模集中開發,每個電場附近都會有許多相鄰的風電場,因此新能源的出力會有一定的相關性。有學者利用相鄰電場的功率比值時間序列有一定程度的模式性重構數據,有學者利用出力的延時相關性重構數據,這兩種方法都充分利用了新能源出力的物理特性,實現通過已知的新能源場站輸出功率求得待重構電場的輸出功率,能有效改善數據重構效果。
由于目前有關風電數據重構的研究較少,且缺失數據重構的評定方法沒有一個量化的標準,本次研究將不對缺失值的重構方法進行仿真分析。用于判斷重構數據的成功率和準確率的評定技術有待進一步研究。
新能源發電機組中的異常數據會導致功率預測的精度降低,有效的數據清洗可以提高數據的質量,提升新能源功率預測結果的準確性。當前學者在新能源功率預測數據清洗領域的研究雖已展開但不完善,因此對數據清洗的研究需要更加深入。
以下幾點問題需要進一步研究:
1)在結合幾種清洗方法同時處理數據時,方法的優勢可能會互補,也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序對數據清洗結果的影響。
2)當前學者們在數據清洗領域的研究主要分為異常值剔除和缺失值重構兩部分,范圍較窄。未來考慮將數據清洗概念進行擴展,比如當采樣數據未保持時間同步時,考慮將這些數據進行時刻糾偏,而不是直接剔除再重構,其中時刻糾偏也應屬于數據清洗的范疇。
3)現有文獻中對新能源的數據清洗和接下來功率預測的建模都進行了分離,未來可以考慮融合這兩個環節,形成清洗-建模-清洗的閉環結構。
4)功率預測前除了要對新能源的運行數據進行清洗以外,還需要考慮氣象數據、地理因素數據的清洗,這些數據也會因為種種原因變得異常或缺失。因此未來還需加強氣象數據、地理因素數據的清洗。
5)除了經典的數據分類外,還可以針對諸如氣象、地理因素等異常數據所產生的出力偏差傾向進行挖掘、歸納、推理和建模,從而達到根據出力偏差反推異常數據類型的目的。未來可以探索這種偏差識別和異常數據挖掘技術。
6)經過多年的積累,我國已經有自主研發的功率預測系統,比如FR3000F、WPPS和SPWF-3000等。開發針對新能源功率預測的數據清洗系統將成為未來的發展目標,這樣的系統可以高效且強通用性地對數據進行預處理,為功率預測提供堅強的數據支撐。
本文結合國內外最新文獻,從異常值剔除和缺失值重構兩個角度,總結了當前主流數據清洗方法的優缺點。最后針對數據清洗在新能源功率預測中存在的不足,闡述了數據清洗研究的關鍵性問題,并對未來的研究方向進行了展望。