久久88香港三级台湾三级中文-久久91-久久91精品国产91久-久久91精品国产91久久-久久91精品国产91久久户

  • 頭條數(shù)據(jù)清洗在新能源功率預(yù)測中的研究綜述和展望
    2021-11-16 作者:武佳卉 邵振國 等  |  來源:《電氣技術(shù)》  |  點擊率:
    分享到:
    導(dǎo)語新能源功率預(yù)測是提高新能源場站控制,保障高比率新能源發(fā)電接入電網(wǎng)安全穩(wěn)定運行的關(guān)鍵技術(shù)。目前,由于通信故障、設(shè)備異常、人為限電等不確定性問題,導(dǎo)致新能源場站的實測數(shù)據(jù)中含有高比例異常數(shù)據(jù),進而降低了功率預(yù)測的精度。有效的數(shù)據(jù)清洗可以提高數(shù)據(jù)質(zhì)量,使新能源功率預(yù)測結(jié)果更加精確。福州大學(xué)電氣工程與自動化學(xué)院、福建省電器智能化工程技術(shù)研究中心、福建省莆田供電公司、福建莆田荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌,在2020年第11期《電氣技術(shù)》雜志上撰文,首先概述了數(shù)據(jù)清洗的主流方法;然后對異常數(shù)據(jù)進行詳細分類,從異常值剔除和缺失值重構(gòu)兩個方面重點闡述和分析了現(xiàn)有數(shù)據(jù)清洗方法的基本思路、應(yīng)用條件以及優(yōu)缺點;最后指出了未來數(shù)據(jù)清洗中值得關(guān)注的問題和方向。

    隨著全球經(jīng)濟的快速發(fā)展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環(huán)境污染問題,新能源以其安全性、環(huán)保性和可再生性等優(yōu)勢在世界范圍內(nèi)得到了高度重視和廣泛應(yīng)用,并呈現(xiàn)出良好的發(fā)展前景。

    據(jù)統(tǒng)計,在2019年第一季度,我國新增風(fēng)電裝機容量478萬kW,累計并網(wǎng)裝機容量達到1.89億kW,全國風(fēng)電發(fā)電量1041億kW?h,同比增長6.3%;新增光伏裝機容量478萬kW,累計并網(wǎng)裝機容量達到1.797億kW,全國光伏發(fā)電量440億kW?h,同比增長26%。

    然而,由于新能源發(fā)電的隨機性和不確定性,新能源大規(guī)模并網(wǎng)后對電力系統(tǒng)的穩(wěn)定運行造成了巨大的挑戰(zhàn)。提前對新能源進行發(fā)電功率預(yù)測,能夠協(xié)助調(diào)度部門調(diào)整運行方式,進而保證電網(wǎng)的安全和穩(wěn)定。近十年來,國內(nèi)外許多學(xué)者都致力于研究新能源的功率預(yù)測方法,并取得了豐富的成果。

    進行新能源功率預(yù)測時,需要對從新能源場站收集到的海量原始數(shù)據(jù)進行挖掘。然而,由于電場運行時機組棄風(fēng)、棄光、檢修、極端天氣情況、外界電磁干擾或設(shè)備故障等原因,導(dǎo)致原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這些不良數(shù)據(jù)嚴(yán)重影響預(yù)測模型的參數(shù)估計,造成預(yù)測精度低、預(yù)測偏差大等后果。因此在功率預(yù)測前,有必要進行有效的數(shù)據(jù)清洗處理。

    目前針對新能源功率預(yù)測的數(shù)據(jù)預(yù)處理方面的綜述較少,因此有必要對新能源功率預(yù)測背景下的數(shù)據(jù)清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構(gòu)兩個方面,詳細地闡述、分析和歸納了新能源異常數(shù)據(jù)的類別和清洗方法。最后對數(shù)據(jù)清洗在新能源功率預(yù)測中需要進一步研究的方向進行了展望。

    1 考慮數(shù)據(jù)清洗的新能源功率預(yù)測

    精確的功率預(yù)測有利于調(diào)度部門的決策,可以提高新能源場站的控制性能,進而減少棄風(fēng)、棄光所導(dǎo)致的發(fā)電損失,解決供需不平衡所帶來的系統(tǒng)穩(wěn)定性問題,增強新能源場站的市場競爭力。然而,精準(zhǔn)的功率預(yù)測依賴于準(zhǔn)確的測量數(shù)據(jù),因此有效的數(shù)據(jù)清洗是新能源功率預(yù)測必不可少的步驟。

    新能源功率預(yù)測時所用到的數(shù)據(jù)有數(shù)值天氣預(yù)報(numerical weather prediction, NWP)數(shù)據(jù)、新能源運行實測數(shù)據(jù)和新能源地理信息數(shù)據(jù)等。

    當(dāng)下學(xué)者主要以預(yù)測變量和被預(yù)測量為數(shù)據(jù)清洗對象。其中,預(yù)測變量可以為風(fēng)速、輻照度等,被預(yù)測量一般為新能源機組輸出功率。圖1所示為采用文獻計量分析法得出的數(shù)據(jù)清洗方法分類示意圖。

    數(shù)據(jù)清洗在新能源功率預(yù)測中的研究綜述和展望

    圖1 數(shù)據(jù)清洗方法分類

    2 異常值剔除

    2.1 功率曲線中異常數(shù)據(jù)的分類

    功率曲線是新能源發(fā)電的預(yù)測變量與被預(yù)測量之間的關(guān)系曲線。學(xué)者們根據(jù)異常數(shù)據(jù)的分布特征,把出現(xiàn)頻率高的異常數(shù)據(jù)類型分成了4類。以風(fēng)速-風(fēng)機功率散點圖為例,采用比恩法繪制風(fēng)電功率曲線圖,4類異常數(shù)據(jù)的分布如圖2所示。

    1)類型1:曲線上方的堆積型異常數(shù)據(jù),通常是由于傳感器失靈、通信或測量設(shè)備故障導(dǎo)致的。

    數(shù)據(jù)清洗在新能源功率預(yù)測中的研究綜述和展望

    圖2 異常數(shù)據(jù)的分布

    2)類型2:曲線中部的堆積型異常數(shù)據(jù),通常是由限電或通信故障造成的。

    3)類型3:曲線周圍的分散型異常數(shù)據(jù),通常是由于氣象波動、信號傳播噪聲等隨機情況造成的。

    4)類型4:曲線下方的堆積型異常數(shù)據(jù),通常是機組故障、停機檢修造成的。

    2.2 異常值剔除方法

    1)統(tǒng)計量分析法

    采用統(tǒng)計量分析的方法,重點在于對變量做描述性統(tǒng)計,從而查看哪些數(shù)據(jù)是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預(yù)測變量的取值是否超出范圍。若檢測到功率小于等于零的數(shù)據(jù)則進行剔除,實現(xiàn)數(shù)據(jù)的清洗整定。統(tǒng)計量分析方法可以簡單有效地完成對新能源數(shù)據(jù)的檢查,適合處理不在有效數(shù)據(jù)范圍內(nèi)的堆積型數(shù)據(jù),但是不適用于處理大量的分散型異常數(shù)據(jù)。

    2)3sigma法

    3sigma法又稱為拉依達準(zhǔn)則。如果數(shù)據(jù)服從正態(tài)分布,分布在(◆-3◆, ◆ +3◆)中的數(shù)據(jù)的概率為99.73%,而分布在距離平均值3◆之外的數(shù)據(jù)的概率不到0.3%,屬于極小概率事件,其中◆為標(biāo)準(zhǔn)差,◆為平均值。因此在3◆原則下,將超過3倍的標(biāo)準(zhǔn)差的數(shù)據(jù)值視為異常值。

    然而,實際新能源的發(fā)電數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布,且由于堆積型異常數(shù)據(jù)的影響,導(dǎo)致識別出的異常值個數(shù)少于實際異常值個數(shù)。因此,將這種方法用于非正態(tài)分布數(shù)據(jù)的異常值識別時,其有效性有限。

    3)小波奇異點檢測法

    新能源異常數(shù)據(jù)可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩(wěn)信號,并從非平穩(wěn)信號中精確辨識出奇異點的位置。通常來說,對奇異點位置的辨識依賴于小波變換系數(shù)正負(fù)模極大值線在低尺度上的交點。正負(fù)模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點的位置,之后再對其進行修正。

    但是由于新能源發(fā)電功率有波動性,即使是正常的數(shù)據(jù)在小波變換之后也可能會存在奇異點,所以判斷出奇異點后還應(yīng)區(qū)分正常的奇異點和錯誤奇異點。此外,在實際應(yīng)用中,選取合適的小波函數(shù)是使正負(fù)模極大值線能相交于一點的關(guān)鍵,否則將無法識別出奇異點的位置。

    4)四分位算法

    數(shù)據(jù)清洗在新能源功率預(yù)測中的研究綜述和展望

     

    5)支持向量機回歸算法

    支持向量機回歸算法(support vector machine regression, SVMR)的核心是用函數(shù)擬合數(shù)據(jù),在數(shù)據(jù)中含有大量異常值的情況下,曲線在回歸估計過程中會因趨近異常數(shù)據(jù)而發(fā)生畸變,從而造成回歸曲線的擬合效果不理想。

    在SVMR算法的結(jié)構(gòu)風(fēng)險函數(shù)中加入不敏感損失函數(shù),可以控制異常數(shù)據(jù)對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數(shù)據(jù)與回歸值之間的殘差十分顯著,從而更容易將異常數(shù)據(jù)進行分離。

    6)K最近鄰聚類算法

    K最近鄰(K-nearest neighbor, KNN)算法在分類上根據(jù)最鄰近的一個或幾個數(shù)據(jù)的類別決定該數(shù)據(jù)的類別。借助距離參數(shù)表征數(shù)據(jù)的偏離程度,可以對異常數(shù)據(jù)進行檢測并剔除。常用的距離有歐氏距離和馬氏距離。當(dāng)某數(shù)據(jù)點與其他數(shù)據(jù)點的距離都大于一個閾值時,就被判定為異常數(shù)據(jù)。該方法簡單易懂,但是在訓(xùn)練歷史數(shù)據(jù)構(gòu)建數(shù)學(xué)模型時學(xué)習(xí)速度較慢,泛化能力較差,且需要大量的數(shù)據(jù)進行訓(xùn)練,否則訓(xùn)練誤差會較大。

    7)組內(nèi)最優(yōu)方差法

    在使用組內(nèi)最優(yōu)方差法(optimal interclass variance, OIV)時,首先要設(shè)置一個初始方差閾值S,然后將預(yù)測變量劃分成n個區(qū)間,區(qū)間劃分的間隔通常取0.5個單位的預(yù)測變量,例如將風(fēng)速區(qū)間間隔定為0.5m/s。再根據(jù)初始閾值S將每一個區(qū)間里的異常數(shù)據(jù)和正常數(shù)據(jù)進行區(qū)分,最后對所有區(qū)間的數(shù)據(jù)進行歸納,從而找出所有的異常數(shù)據(jù)。

    采用OIV進行新能源功率曲線分析時,可以快速準(zhǔn)確地清洗數(shù)據(jù)。與其他學(xué)習(xí)算法相比,此方法不需要歷史數(shù)據(jù)集進行訓(xùn)練便可以識別出發(fā)電性能偏低的數(shù)據(jù)簇,且處理速度快,操作過程簡便,通用性強。但是此方法需要人工反復(fù)試探才能確定閾值。

    8)基于密度的離群點檢測算法

    離群點檢測算法(local outlier factor, LOF)通過聚類的方法識別離群點。由聚類生成的一組數(shù)據(jù)對象集合稱為簇,同一簇中數(shù)據(jù)對象周圍的密度與其鄰域周圍的密度相似,而落在簇集合之外的數(shù)值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同,將離群點刪除就能實現(xiàn)異常數(shù)據(jù)的剔除。

    LOF算法可以有效實現(xiàn)對分散性數(shù)據(jù)的識別,但是識別密度較高的堆積型數(shù)據(jù)能力較差,而且LOF的閾值設(shè)置有一定的難度,要根據(jù)經(jīng)驗或者多次嘗試才能達到理想效果。

    9)組合模型清洗法

    僅僅使用單個數(shù)學(xué)方法或者人工智能算法進行異常數(shù)據(jù)清洗存在著一定的局限性。為了彌補單個算法的不足,有學(xué)者提出一種四分位法和聚類分析的組合模型用于識別異常數(shù)據(jù)。組合模型在使用時,四分位法用于剔除分散型異常數(shù)據(jù),而聚類法用于剔除堆積型異常數(shù)據(jù)。有學(xué)者提出使用四分位法與變點分組法的組合模型對異常數(shù)據(jù)進行識別并清洗。

    以上的方法都可以改進使用單一四分位法時識別堆積型異常數(shù)據(jù)較差這一局限。

    當(dāng)只是針對數(shù)據(jù)本身進行清洗時,雖然具有普遍性,但是沒有考慮新能源場站的物理特性,導(dǎo)致異常數(shù)據(jù)的識別效果變差甚至?xí)`刪正常數(shù)據(jù)。為了解決這個問題,在清洗數(shù)據(jù)時可以將新能源出力之間的相關(guān)性和自身出力特性考慮進去,識別效果會明顯提高。

    2.3 仿真測試

    以福建某風(fēng)電場為例,該風(fēng)電場有24臺額定功率為2MW的風(fēng)電機組。風(fēng)電機組的切入風(fēng)速為3m/s,額定風(fēng)速為15m/s,切出風(fēng)速為25m/s。風(fēng)電場風(fēng)速采集時間間隔為10min,采集時間為2015年2月1日00:00至2015年7月31日24:00。風(fēng)速-功率散點圖如圖3所示。其中原始數(shù)據(jù)中有12%的異常數(shù)據(jù)。

    數(shù)據(jù)清洗在新能源功率預(yù)測中的研究綜述和展望

    圖3 風(fēng)速-功率散點圖

    分別采用數(shù)學(xué)方法中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結(jié)果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優(yōu)勢進行互補,進而實現(xiàn)較好的清洗效果。

    3 缺失值重構(gòu)

    在異常數(shù)據(jù)占比較高的情況下,數(shù)據(jù)清洗過程中的異常值剔除量將隨之變高,進而破壞了原始數(shù)據(jù)的完整性和充裕度。這不僅會影響新能源功率的預(yù)測模型,而且不利于數(shù)據(jù)再利用。通過對被剔除數(shù)據(jù)進行重構(gòu),能夠保持?jǐn)?shù)據(jù)的完整性和有效性。

    采用文獻計量分析方法得出主流的缺失值重構(gòu)方法有:①基于統(tǒng)計學(xué)的重構(gòu)方法;②基于機器學(xué)習(xí)的重構(gòu)方法;③基于物理特性的重構(gòu)方法。

    3.1 基于統(tǒng)計學(xué)的重構(gòu)方法

    基于統(tǒng)計學(xué)的重構(gòu)方法有均值重構(gòu)法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。

    三次樣條插值函數(shù)一般會使用三彎矩插值法去構(gòu)造。當(dāng)連續(xù)的異常數(shù)據(jù)點少于等于5時可以直接利用三次樣條插值函數(shù)對數(shù)據(jù)進行重構(gòu);當(dāng)大于5時,則需用改進的多點三次樣條采樣法進行重構(gòu)。基于統(tǒng)計學(xué)的重構(gòu)方法較為簡便快速,但是重構(gòu)的數(shù)據(jù)偏差較大,且忽略了新能源數(shù)據(jù)的時序信息。

    3.2 基于機器學(xué)習(xí)的重構(gòu)方法

    常用的基于機器學(xué)習(xí)的重構(gòu)方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據(jù)歐式距離用于確定缺失數(shù)據(jù)樣本周圍最近的K個樣本,將K個值加權(quán)平均用于估計缺失值;回歸算法根據(jù)數(shù)據(jù)集建立回歸方程,將缺失值的已知屬性帶入方程去估計缺失值;EM假設(shè)模型對于完整樣本是正確的,通過觀察數(shù)據(jù)的邊際分布進而對缺失值進行極大似然估計。

    這些算法都是根據(jù)已有數(shù)據(jù)建立相應(yīng)模型,然后使用模型來估計該樣本的缺失數(shù)據(jù),應(yīng)用較為普遍但卻未考慮相鄰數(shù)據(jù)間的時序信息。

    自回歸滑動平均模型(auto regressive moving average, ARMA)彌補了這個缺點,此算法將預(yù)測指標(biāo)隨時間推移形成的數(shù)據(jù)序列看作是一個隨機序列,這組隨機變量所具有的依存關(guān)系體現(xiàn)著原始數(shù)據(jù)在時間上的延續(xù)性,從而用于缺失數(shù)據(jù)的插補。

    3.3 基于物理特性的重構(gòu)方法

    目前新能源場站都是大規(guī)模集中開發(fā),每個電場附近都會有許多相鄰的風(fēng)電場,因此新能源的出力會有一定的相關(guān)性。有學(xué)者利用相鄰電場的功率比值時間序列有一定程度的模式性重構(gòu)數(shù)據(jù),有學(xué)者利用出力的延時相關(guān)性重構(gòu)數(shù)據(jù),這兩種方法都充分利用了新能源出力的物理特性,實現(xiàn)通過已知的新能源場站輸出功率求得待重構(gòu)電場的輸出功率,能有效改善數(shù)據(jù)重構(gòu)效果。

    由于目前有關(guān)風(fēng)電數(shù)據(jù)重構(gòu)的研究較少,且缺失數(shù)據(jù)重構(gòu)的評定方法沒有一個量化的標(biāo)準(zhǔn),本次研究將不對缺失值的重構(gòu)方法進行仿真分析。用于判斷重構(gòu)數(shù)據(jù)的成功率和準(zhǔn)確率的評定技術(shù)有待進一步研究。

    4 展望

    新能源發(fā)電機組中的異常數(shù)據(jù)會導(dǎo)致功率預(yù)測的精度降低,有效的數(shù)據(jù)清洗可以提高數(shù)據(jù)的質(zhì)量,提升新能源功率預(yù)測結(jié)果的準(zhǔn)確性。當(dāng)前學(xué)者在新能源功率預(yù)測數(shù)據(jù)清洗領(lǐng)域的研究雖已展開但不完善,因此對數(shù)據(jù)清洗的研究需要更加深入。

    以下幾點問題需要進一步研究:

    1)在結(jié)合幾種清洗方法同時處理數(shù)據(jù)時,方法的優(yōu)勢可能會互補,也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序?qū)?shù)據(jù)清洗結(jié)果的影響。

    2)當(dāng)前學(xué)者們在數(shù)據(jù)清洗領(lǐng)域的研究主要分為異常值剔除和缺失值重構(gòu)兩部分,范圍較窄。未來考慮將數(shù)據(jù)清洗概念進行擴展,比如當(dāng)采樣數(shù)據(jù)未保持時間同步時,考慮將這些數(shù)據(jù)進行時刻糾偏,而不是直接剔除再重構(gòu),其中時刻糾偏也應(yīng)屬于數(shù)據(jù)清洗的范疇。

    3)現(xiàn)有文獻中對新能源的數(shù)據(jù)清洗和接下來功率預(yù)測的建模都進行了分離,未來可以考慮融合這兩個環(huán)節(jié),形成清洗-建模-清洗的閉環(huán)結(jié)構(gòu)。

    4)功率預(yù)測前除了要對新能源的運行數(shù)據(jù)進行清洗以外,還需要考慮氣象數(shù)據(jù)、地理因素數(shù)據(jù)的清洗,這些數(shù)據(jù)也會因為種種原因變得異常或缺失。因此未來還需加強氣象數(shù)據(jù)、地理因素數(shù)據(jù)的清洗。

    5)除了經(jīng)典的數(shù)據(jù)分類外,還可以針對諸如氣象、地理因素等異常數(shù)據(jù)所產(chǎn)生的出力偏差傾向進行挖掘、歸納、推理和建模,從而達到根據(jù)出力偏差反推異常數(shù)據(jù)類型的目的。未來可以探索這種偏差識別和異常數(shù)據(jù)挖掘技術(shù)。

    6)經(jīng)過多年的積累,我國已經(jīng)有自主研發(fā)的功率預(yù)測系統(tǒng),比如FR3000F、WPPS和SPWF-3000等。開發(fā)針對新能源功率預(yù)測的數(shù)據(jù)清洗系統(tǒng)將成為未來的發(fā)展目標(biāo),這樣的系統(tǒng)可以高效且強通用性地對數(shù)據(jù)進行預(yù)處理,為功率預(yù)測提供堅強的數(shù)據(jù)支撐。

    5 結(jié)論

    本文結(jié)合國內(nèi)外最新文獻,從異常值剔除和缺失值重構(gòu)兩個角度,總結(jié)了當(dāng)前主流數(shù)據(jù)清洗方法的優(yōu)缺點。最后針對數(shù)據(jù)清洗在新能源功率預(yù)測中存在的不足,闡述了數(shù)據(jù)清洗研究的關(guān)鍵性問題,并對未來的研究方向進行了展望。

主站蜘蛛池模板: 亚洲国产婷婷香蕉久久久久久| 七色永久性tv网站免费看| 国产麻豆免费| 国产免费不卡视频| 青青草97国产精品免费观看| 在线观看国产精成人品| 午夜a爱| 欧美成人免费看片一区| 黄色片视频在线观看| 国产国产精品人在线视| 色综合图| 亚洲视频综合| 久久永久免费中文字幕| 中文字幕在线播| 亚洲第一视频| 欧美中文字幕第一页| 视频一区二区三区自拍| 精品视频在线免费| 久爱青草视频在线观看| 亚洲另类在线观看| 2021国产精品一区二区在线| 人与牲动交bbbbxxxx| 尤物国产在线| 日韩免费视频网站| 成人国产网站v片免费观看| 欧美日韩亚洲色图| 欧洲一级鲁丝片免费| 国产精品嫩草研究院成人| 成人精品在线观看| 久久婷婷伊人| 欧美日韩亚洲国产一区二区三区 | 一级影院| 久热精品在线视频| 亚洲爱婷婷色婷婷五月| 成人亚州| 青青伊人精品| 国产日韩线路一线路二| 性感美女香蕉视频| 看免费毛片| 国产精品免费观在线| 福利视频精品|