隨著全球經(jīng)濟的快速發(fā)展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環(huán)境污染問題,新能源以其安全性、環(huán)保性和可再生性等優(yōu)勢在世界范圍內(nèi)得到了高度重視和廣泛應(yīng)用,并呈現(xiàn)出良好的發(fā)展前景。
據(jù)統(tǒng)計,在2019年第一季度,我國新增風(fēng)電裝機容量478萬kW,累計并網(wǎng)裝機容量達到1.89億kW,全國風(fēng)電發(fā)電量1041億kW?h,同比增長6.3%;新增光伏裝機容量478萬kW,累計并網(wǎng)裝機容量達到1.797億kW,全國光伏發(fā)電量440億kW?h,同比增長26%。
然而,由于新能源發(fā)電的隨機性和不確定性,新能源大規(guī)模并網(wǎng)后對電力系統(tǒng)的穩(wěn)定運行造成了巨大的挑戰(zhàn)。提前對新能源進行發(fā)電功率預(yù)測,能夠協(xié)助調(diào)度部門調(diào)整運行方式,進而保證電網(wǎng)的安全和穩(wěn)定。近十年來,國內(nèi)外許多學(xué)者都致力于研究新能源的功率預(yù)測方法,并取得了豐富的成果。
進行新能源功率預(yù)測時,需要對從新能源場站收集到的海量原始數(shù)據(jù)進行挖掘。然而,由于電場運行時機組棄風(fēng)、棄光、檢修、極端天氣情況、外界電磁干擾或設(shè)備故障等原因,導(dǎo)致原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這些不良數(shù)據(jù)嚴(yán)重影響預(yù)測模型的參數(shù)估計,造成預(yù)測精度低、預(yù)測偏差大等后果。因此在功率預(yù)測前,有必要進行有效的數(shù)據(jù)清洗處理。
目前針對新能源功率預(yù)測的數(shù)據(jù)預(yù)處理方面的綜述較少,因此有必要對新能源功率預(yù)測背景下的數(shù)據(jù)清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構(gòu)兩個方面,詳細地闡述、分析和歸納了新能源異常數(shù)據(jù)的類別和清洗方法。最后對數(shù)據(jù)清洗在新能源功率預(yù)測中需要進一步研究的方向進行了展望。
精確的功率預(yù)測有利于調(diào)度部門的決策,可以提高新能源場站的控制性能,進而減少棄風(fēng)、棄光所導(dǎo)致的發(fā)電損失,解決供需不平衡所帶來的系統(tǒng)穩(wěn)定性問題,增強新能源場站的市場競爭力。然而,精準(zhǔn)的功率預(yù)測依賴于準(zhǔn)確的測量數(shù)據(jù),因此有效的數(shù)據(jù)清洗是新能源功率預(yù)測必不可少的步驟。
新能源功率預(yù)測時所用到的數(shù)據(jù)有數(shù)值天氣預(yù)報(numerical weather prediction, NWP)數(shù)據(jù)、新能源運行實測數(shù)據(jù)和新能源地理信息數(shù)據(jù)等。
當(dāng)下學(xué)者主要以預(yù)測變量和被預(yù)測量為數(shù)據(jù)清洗對象。其中,預(yù)測變量可以為風(fēng)速、輻照度等,被預(yù)測量一般為新能源機組輸出功率。圖1所示為采用文獻計量分析法得出的數(shù)據(jù)清洗方法分類示意圖。
圖1 數(shù)據(jù)清洗方法分類
2.1 功率曲線中異常數(shù)據(jù)的分類
功率曲線是新能源發(fā)電的預(yù)測變量與被預(yù)測量之間的關(guān)系曲線。學(xué)者們根據(jù)異常數(shù)據(jù)的分布特征,把出現(xiàn)頻率高的異常數(shù)據(jù)類型分成了4類。以風(fēng)速-風(fēng)機功率散點圖為例,采用比恩法繪制風(fēng)電功率曲線圖,4類異常數(shù)據(jù)的分布如圖2所示。
1)類型1:曲線上方的堆積型異常數(shù)據(jù),通常是由于傳感器失靈、通信或測量設(shè)備故障導(dǎo)致的。
圖2 異常數(shù)據(jù)的分布
2)類型2:曲線中部的堆積型異常數(shù)據(jù),通常是由限電或通信故障造成的。
3)類型3:曲線周圍的分散型異常數(shù)據(jù),通常是由于氣象波動、信號傳播噪聲等隨機情況造成的。
4)類型4:曲線下方的堆積型異常數(shù)據(jù),通常是機組故障、停機檢修造成的。
2.2 異常值剔除方法
1)統(tǒng)計量分析法
采用統(tǒng)計量分析的方法,重點在于對變量做描述性統(tǒng)計,從而查看哪些數(shù)據(jù)是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預(yù)測變量的取值是否超出范圍。若檢測到功率小于等于零的數(shù)據(jù)則進行剔除,實現(xiàn)數(shù)據(jù)的清洗整定。統(tǒng)計量分析方法可以簡單有效地完成對新能源數(shù)據(jù)的檢查,適合處理不在有效數(shù)據(jù)范圍內(nèi)的堆積型數(shù)據(jù),但是不適用于處理大量的分散型異常數(shù)據(jù)。
2)3sigma法
3sigma法又稱為拉依達準(zhǔn)則。如果數(shù)據(jù)服從正態(tài)分布,分布在(◆-3◆, ◆ +3◆)中的數(shù)據(jù)的概率為99.73%,而分布在距離平均值3◆之外的數(shù)據(jù)的概率不到0.3%,屬于極小概率事件,其中◆為標(biāo)準(zhǔn)差,◆為平均值。因此在3◆原則下,將超過3倍的標(biāo)準(zhǔn)差的數(shù)據(jù)值視為異常值。
然而,實際新能源的發(fā)電數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布,且由于堆積型異常數(shù)據(jù)的影響,導(dǎo)致識別出的異常值個數(shù)少于實際異常值個數(shù)。因此,將這種方法用于非正態(tài)分布數(shù)據(jù)的異常值識別時,其有效性有限。
3)小波奇異點檢測法
新能源異常數(shù)據(jù)可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩(wěn)信號,并從非平穩(wěn)信號中精確辨識出奇異點的位置。通常來說,對奇異點位置的辨識依賴于小波變換系數(shù)正負(fù)模極大值線在低尺度上的交點。正負(fù)模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點的位置,之后再對其進行修正。
但是由于新能源發(fā)電功率有波動性,即使是正常的數(shù)據(jù)在小波變換之后也可能會存在奇異點,所以判斷出奇異點后還應(yīng)區(qū)分正常的奇異點和錯誤奇異點。此外,在實際應(yīng)用中,選取合適的小波函數(shù)是使正負(fù)模極大值線能相交于一點的關(guān)鍵,否則將無法識別出奇異點的位置。
4)四分位算法
5)支持向量機回歸算法
支持向量機回歸算法(support vector machine regression, SVMR)的核心是用函數(shù)擬合數(shù)據(jù),在數(shù)據(jù)中含有大量異常值的情況下,曲線在回歸估計過程中會因趨近異常數(shù)據(jù)而發(fā)生畸變,從而造成回歸曲線的擬合效果不理想。
在SVMR算法的結(jié)構(gòu)風(fēng)險函數(shù)中加入不敏感損失函數(shù),可以控制異常數(shù)據(jù)對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數(shù)據(jù)與回歸值之間的殘差十分顯著,從而更容易將異常數(shù)據(jù)進行分離。
6)K最近鄰聚類算法
K最近鄰(K-nearest neighbor, KNN)算法在分類上根據(jù)最鄰近的一個或幾個數(shù)據(jù)的類別決定該數(shù)據(jù)的類別。借助距離參數(shù)表征數(shù)據(jù)的偏離程度,可以對異常數(shù)據(jù)進行檢測并剔除。常用的距離有歐氏距離和馬氏距離。當(dāng)某數(shù)據(jù)點與其他數(shù)據(jù)點的距離都大于一個閾值時,就被判定為異常數(shù)據(jù)。該方法簡單易懂,但是在訓(xùn)練歷史數(shù)據(jù)構(gòu)建數(shù)學(xué)模型時學(xué)習(xí)速度較慢,泛化能力較差,且需要大量的數(shù)據(jù)進行訓(xùn)練,否則訓(xùn)練誤差會較大。
7)組內(nèi)最優(yōu)方差法
在使用組內(nèi)最優(yōu)方差法(optimal interclass variance, OIV)時,首先要設(shè)置一個初始方差閾值S,然后將預(yù)測變量劃分成n個區(qū)間,區(qū)間劃分的間隔通常取0.5個單位的預(yù)測變量,例如將風(fēng)速區(qū)間間隔定為0.5m/s。再根據(jù)初始閾值S將每一個區(qū)間里的異常數(shù)據(jù)和正常數(shù)據(jù)進行區(qū)分,最后對所有區(qū)間的數(shù)據(jù)進行歸納,從而找出所有的異常數(shù)據(jù)。
采用OIV進行新能源功率曲線分析時,可以快速準(zhǔn)確地清洗數(shù)據(jù)。與其他學(xué)習(xí)算法相比,此方法不需要歷史數(shù)據(jù)集進行訓(xùn)練便可以識別出發(fā)電性能偏低的數(shù)據(jù)簇,且處理速度快,操作過程簡便,通用性強。但是此方法需要人工反復(fù)試探才能確定閾值。
8)基于密度的離群點檢測算法
離群點檢測算法(local outlier factor, LOF)通過聚類的方法識別離群點。由聚類生成的一組數(shù)據(jù)對象集合稱為簇,同一簇中數(shù)據(jù)對象周圍的密度與其鄰域周圍的密度相似,而落在簇集合之外的數(shù)值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同,將離群點刪除就能實現(xiàn)異常數(shù)據(jù)的剔除。
LOF算法可以有效實現(xiàn)對分散性數(shù)據(jù)的識別,但是識別密度較高的堆積型數(shù)據(jù)能力較差,而且LOF的閾值設(shè)置有一定的難度,要根據(jù)經(jīng)驗或者多次嘗試才能達到理想效果。
9)組合模型清洗法
僅僅使用單個數(shù)學(xué)方法或者人工智能算法進行異常數(shù)據(jù)清洗存在著一定的局限性。為了彌補單個算法的不足,有學(xué)者提出一種四分位法和聚類分析的組合模型用于識別異常數(shù)據(jù)。組合模型在使用時,四分位法用于剔除分散型異常數(shù)據(jù),而聚類法用于剔除堆積型異常數(shù)據(jù)。有學(xué)者提出使用四分位法與變點分組法的組合模型對異常數(shù)據(jù)進行識別并清洗。
以上的方法都可以改進使用單一四分位法時識別堆積型異常數(shù)據(jù)較差這一局限。
當(dāng)只是針對數(shù)據(jù)本身進行清洗時,雖然具有普遍性,但是沒有考慮新能源場站的物理特性,導(dǎo)致異常數(shù)據(jù)的識別效果變差甚至?xí)`刪正常數(shù)據(jù)。為了解決這個問題,在清洗數(shù)據(jù)時可以將新能源出力之間的相關(guān)性和自身出力特性考慮進去,識別效果會明顯提高。
2.3 仿真測試
以福建某風(fēng)電場為例,該風(fēng)電場有24臺額定功率為2MW的風(fēng)電機組。風(fēng)電機組的切入風(fēng)速為3m/s,額定風(fēng)速為15m/s,切出風(fēng)速為25m/s。風(fēng)電場風(fēng)速采集時間間隔為10min,采集時間為2015年2月1日00:00至2015年7月31日24:00。風(fēng)速-功率散點圖如圖3所示。其中原始數(shù)據(jù)中有12%的異常數(shù)據(jù)。
圖3 風(fēng)速-功率散點圖
分別采用數(shù)學(xué)方法中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結(jié)果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優(yōu)勢進行互補,進而實現(xiàn)較好的清洗效果。
在異常數(shù)據(jù)占比較高的情況下,數(shù)據(jù)清洗過程中的異常值剔除量將隨之變高,進而破壞了原始數(shù)據(jù)的完整性和充裕度。這不僅會影響新能源功率的預(yù)測模型,而且不利于數(shù)據(jù)再利用。通過對被剔除數(shù)據(jù)進行重構(gòu),能夠保持?jǐn)?shù)據(jù)的完整性和有效性。
采用文獻計量分析方法得出主流的缺失值重構(gòu)方法有:①基于統(tǒng)計學(xué)的重構(gòu)方法;②基于機器學(xué)習(xí)的重構(gòu)方法;③基于物理特性的重構(gòu)方法。
3.1 基于統(tǒng)計學(xué)的重構(gòu)方法
基于統(tǒng)計學(xué)的重構(gòu)方法有均值重構(gòu)法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。
三次樣條插值函數(shù)一般會使用三彎矩插值法去構(gòu)造。當(dāng)連續(xù)的異常數(shù)據(jù)點少于等于5時可以直接利用三次樣條插值函數(shù)對數(shù)據(jù)進行重構(gòu);當(dāng)大于5時,則需用改進的多點三次樣條采樣法進行重構(gòu)。基于統(tǒng)計學(xué)的重構(gòu)方法較為簡便快速,但是重構(gòu)的數(shù)據(jù)偏差較大,且忽略了新能源數(shù)據(jù)的時序信息。
3.2 基于機器學(xué)習(xí)的重構(gòu)方法
常用的基于機器學(xué)習(xí)的重構(gòu)方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據(jù)歐式距離用于確定缺失數(shù)據(jù)樣本周圍最近的K個樣本,將K個值加權(quán)平均用于估計缺失值;回歸算法根據(jù)數(shù)據(jù)集建立回歸方程,將缺失值的已知屬性帶入方程去估計缺失值;EM假設(shè)模型對于完整樣本是正確的,通過觀察數(shù)據(jù)的邊際分布進而對缺失值進行極大似然估計。
這些算法都是根據(jù)已有數(shù)據(jù)建立相應(yīng)模型,然后使用模型來估計該樣本的缺失數(shù)據(jù),應(yīng)用較為普遍但卻未考慮相鄰數(shù)據(jù)間的時序信息。
自回歸滑動平均模型(auto regressive moving average, ARMA)彌補了這個缺點,此算法將預(yù)測指標(biāo)隨時間推移形成的數(shù)據(jù)序列看作是一個隨機序列,這組隨機變量所具有的依存關(guān)系體現(xiàn)著原始數(shù)據(jù)在時間上的延續(xù)性,從而用于缺失數(shù)據(jù)的插補。
3.3 基于物理特性的重構(gòu)方法
目前新能源場站都是大規(guī)模集中開發(fā),每個電場附近都會有許多相鄰的風(fēng)電場,因此新能源的出力會有一定的相關(guān)性。有學(xué)者利用相鄰電場的功率比值時間序列有一定程度的模式性重構(gòu)數(shù)據(jù),有學(xué)者利用出力的延時相關(guān)性重構(gòu)數(shù)據(jù),這兩種方法都充分利用了新能源出力的物理特性,實現(xiàn)通過已知的新能源場站輸出功率求得待重構(gòu)電場的輸出功率,能有效改善數(shù)據(jù)重構(gòu)效果。
由于目前有關(guān)風(fēng)電數(shù)據(jù)重構(gòu)的研究較少,且缺失數(shù)據(jù)重構(gòu)的評定方法沒有一個量化的標(biāo)準(zhǔn),本次研究將不對缺失值的重構(gòu)方法進行仿真分析。用于判斷重構(gòu)數(shù)據(jù)的成功率和準(zhǔn)確率的評定技術(shù)有待進一步研究。
新能源發(fā)電機組中的異常數(shù)據(jù)會導(dǎo)致功率預(yù)測的精度降低,有效的數(shù)據(jù)清洗可以提高數(shù)據(jù)的質(zhì)量,提升新能源功率預(yù)測結(jié)果的準(zhǔn)確性。當(dāng)前學(xué)者在新能源功率預(yù)測數(shù)據(jù)清洗領(lǐng)域的研究雖已展開但不完善,因此對數(shù)據(jù)清洗的研究需要更加深入。
以下幾點問題需要進一步研究:
1)在結(jié)合幾種清洗方法同時處理數(shù)據(jù)時,方法的優(yōu)勢可能會互補,也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序?qū)?shù)據(jù)清洗結(jié)果的影響。
2)當(dāng)前學(xué)者們在數(shù)據(jù)清洗領(lǐng)域的研究主要分為異常值剔除和缺失值重構(gòu)兩部分,范圍較窄。未來考慮將數(shù)據(jù)清洗概念進行擴展,比如當(dāng)采樣數(shù)據(jù)未保持時間同步時,考慮將這些數(shù)據(jù)進行時刻糾偏,而不是直接剔除再重構(gòu),其中時刻糾偏也應(yīng)屬于數(shù)據(jù)清洗的范疇。
3)現(xiàn)有文獻中對新能源的數(shù)據(jù)清洗和接下來功率預(yù)測的建模都進行了分離,未來可以考慮融合這兩個環(huán)節(jié),形成清洗-建模-清洗的閉環(huán)結(jié)構(gòu)。
4)功率預(yù)測前除了要對新能源的運行數(shù)據(jù)進行清洗以外,還需要考慮氣象數(shù)據(jù)、地理因素數(shù)據(jù)的清洗,這些數(shù)據(jù)也會因為種種原因變得異常或缺失。因此未來還需加強氣象數(shù)據(jù)、地理因素數(shù)據(jù)的清洗。
5)除了經(jīng)典的數(shù)據(jù)分類外,還可以針對諸如氣象、地理因素等異常數(shù)據(jù)所產(chǎn)生的出力偏差傾向進行挖掘、歸納、推理和建模,從而達到根據(jù)出力偏差反推異常數(shù)據(jù)類型的目的。未來可以探索這種偏差識別和異常數(shù)據(jù)挖掘技術(shù)。
6)經(jīng)過多年的積累,我國已經(jīng)有自主研發(fā)的功率預(yù)測系統(tǒng),比如FR3000F、WPPS和SPWF-3000等。開發(fā)針對新能源功率預(yù)測的數(shù)據(jù)清洗系統(tǒng)將成為未來的發(fā)展目標(biāo),這樣的系統(tǒng)可以高效且強通用性地對數(shù)據(jù)進行預(yù)處理,為功率預(yù)測提供堅強的數(shù)據(jù)支撐。
本文結(jié)合國內(nèi)外最新文獻,從異常值剔除和缺失值重構(gòu)兩個角度,總結(jié)了當(dāng)前主流數(shù)據(jù)清洗方法的優(yōu)缺點。最后針對數(shù)據(jù)清洗在新能源功率預(yù)測中存在的不足,闡述了數(shù)據(jù)清洗研究的關(guān)鍵性問題,并對未來的研究方向進行了展望。