準確可信的數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(Super- visory Control And Data Acquisition, SCADA)運行數(shù)據(jù)是風電機組發(fā)電性能預測、故障預測與健康管理等工作的基礎。然而,由于機組運行環(huán)境惡劣,很多現(xiàn)場采集的數(shù)據(jù)質(zhì)量較差,特別是因棄風限電、工況波動等原因?qū)е碌臄?shù)據(jù)異常問題尤為突出。高比例異常數(shù)據(jù)對運行數(shù)據(jù)的真實規(guī)律、特征參量的相關(guān)性關(guān)系等信息的挖掘與應用影響極大,因此風電機組數(shù)據(jù)清洗工作至關(guān)重要。
風電機組數(shù)據(jù)清洗方法主要從特征空間的距離、概率和密度等角度界定異常值。但是目前的研究多以風功率數(shù)據(jù)為清洗對象,主要研究機組發(fā)電性能預測,而數(shù)據(jù)清洗方法在機組健康狀態(tài)預測中的應用研究目前仍較少。
在風電機組整機性能預測與健康狀態(tài)評估的應用中,有關(guān)研究指出,模型分析法如神經(jīng)網(wǎng)絡更適合于異常檢測,而高斯混合模型、主成分分析及其改進算法等概率統(tǒng)計方法對機組性能退化的預測適應性更好。
然而,概率統(tǒng)計方法對數(shù)據(jù)質(zhì)量要求較高,數(shù)據(jù)清洗的應用方向不同時,清洗對象、需要清洗的異常數(shù)據(jù)以及清洗方法均會有所差別,因此有必要對風電機組健康狀態(tài)預測中的異常數(shù)據(jù)清洗工作進行針對性研究。
首先,選擇運行數(shù)據(jù)中可反映機組性能退化的關(guān)鍵特征參量構(gòu)成清洗對象,如風速-功率、轉(zhuǎn)速-功率數(shù)據(jù),而軸溫、油溫等參量作為機組健康狀態(tài)預測與故障檢測的重要特征依據(jù),剔除其中的異常點反而可能造成故障信息丟失,不能輕易清洗。其次,確定待清洗的異常數(shù)據(jù),包括堆積點與離群點。
離群點可能反映了工況變化,在基于模型分析法預測發(fā)電性能或故障時可以不清洗,但離群點分散性較大,對其進行合理清洗將有利于基于概率統(tǒng)計方法預測機組的健康狀態(tài)。
此外,不同機組的運行數(shù)據(jù)存在采樣周期不同、概率分布特征呈差異化等特點,隨著機組性能的逐漸退化,數(shù)據(jù)分布特征更趨復雜,這些都對數(shù)據(jù)清洗方法的通用性、精度、運算效率、穩(wěn)定性以及工程適用性提出了較高要求。因此,有必要針對風電機組健康狀態(tài)預測深入研究運行數(shù)據(jù)關(guān)鍵特征參量的選擇,以及堆積點和離群點的在線清洗方法。
目前,可用于解決運行數(shù)據(jù)特征參量選擇的方法有Relief、互信息、隨機森林與鄰域粗糙集 等。其中,Relief和互信息基于相關(guān)性度量,屬于過濾法,具有快速高效、獨立于預測模型的優(yōu)點,但Relief為有監(jiān)督法,而SCADA數(shù)據(jù)往往沒有分類標簽;隨機森林屬于封裝法,可與鄰域粗糙集應用于負荷預測或故障識別中對特征集的尋優(yōu)與約簡。
因此,基于互信息選擇與機組運行狀態(tài)相關(guān)性強的關(guān)鍵特征參量有利于簡單、快速地確定清洗對象,并利用Copula函數(shù)無需假設數(shù)據(jù)的分布形態(tài)即可描述其實際分布規(guī)律的特點,解決互信息計算中聯(lián)合概率密度函數(shù)估計難的問題。
為保證數(shù)據(jù)清洗方法的識別精度與運算效率,聯(lián)合考慮關(guān)鍵特征參量的概率分布、時序特征與密度分布:利用單一Copula建立風速-功率、轉(zhuǎn)速-功率等多元特征參量的置信等效功率區(qū)間,解決傳統(tǒng)概率統(tǒng)計方法在樣本分布不均、異常值較多時識別精度低的問題,同時避免采用混合Copula,確保算法的運算效率;僅考慮置信邊界外的可疑數(shù)據(jù),結(jié)合其時序特征和密度分布依次清洗堆積點與離群點,解決DBSCAN算法無法在線清洗[10-11]的問題;進一步基于Copula模擬實際異常數(shù)據(jù),解決數(shù)據(jù)清洗模型定量分析的問題。
基于上述研究背景,內(nèi)蒙古工業(yè)大學的研究人員針對風電機組健康狀態(tài)預測中異常數(shù)據(jù)的在線清洗進行研究。分析風電機組性能退化過程中的數(shù)據(jù)特征,在此基礎上,提出基于經(jīng)驗Copula-互信息(Empirical Copula-based Mutual Information, ECMI)法選擇關(guān)鍵特征參量,并基于Copula結(jié)合異常值的時序特征與密度分布建立數(shù)據(jù)清洗模型(Copula-based data cleaning model combining Time-series Features and Density Distribution, Copula-TFDD),對堆積點和離群點等典型異常數(shù)據(jù)進行在線識別。
圖1 Copula-TFDD數(shù)據(jù)清洗模型流程
科研人員通過研究得出如下結(jié)論:
1)提出基于ECMI的特征參量選擇方法。選擇反映風電機組整機性能的關(guān)鍵特征參量構(gòu)成清洗對象,對實測風速-功率、轉(zhuǎn)速-功率數(shù)據(jù)中的堆積點和離群點等典型異常數(shù)據(jù)進行清洗。
2)基于風電機組實測運行數(shù)據(jù)的概率分布、時序特征與密度分布提出Copula-TFDD數(shù)據(jù)清洗模型。該方法可以對具有不同采樣周期和差異化概率分布的運行數(shù)據(jù)實現(xiàn)在線清洗,且能有效提升機組健康狀態(tài)預測的性能。
3)基于Copula給出了人工模擬符合實際異常數(shù)據(jù)分布特征的數(shù)據(jù)集的方法。通過對Copula- TFDD的精度、運算效率和穩(wěn)定性的定量分析,驗證了該數(shù)據(jù)清洗方法的工程應用性較強。
本文編自2021年第10期《電工技術(shù)學報》,論文標題為“風電機組健康狀態(tài)預測中異常數(shù)據(jù)在線清洗”,作者為馬然、栗文義、齊詠生。