在第 20 屆 CCF 全國高性能計算學術年會 (CCF HPC China 2024)——數(shù)值模擬工程應用中的智能超算融合技術論壇上,來自中國科學院計算機網(wǎng)絡信息中心人工智能部工程師萬萌分享了團隊在光伏發(fā)電、電力負荷中積累的實際應用及方法方案,以及深度學習在時間序列預測領域的前沿研究動態(tài),為新能源預測提供新的技術思路和方法。
**HyperAI超神經在不違原意的前提下,對本次深度分享進行了整理匯總,共分為時間序列、新能源背景概況、研究基礎、研究進展 4 個部分。**以下為演講實錄。
時間序列應用廣泛,涵蓋多個方面
我們所研究的時間序列旨在對特定對象的未來發(fā)展趨勢或狀態(tài),進行科學的預測和判斷。在我們的現(xiàn)實生活中,時間序列的應用廣泛,涵蓋了交通流量、金融經濟、氣象天氣、病毒傳播以及能源等多個方面。
**當前時間序列的研究方向主要分為 4 個部分。第 1 部分是時序未來預測,**可以根據(jù)我們已知的歷史序列來預測未來的序列,包括光伏預測、氣象預測、股票預測等。第 2 部分是時序空值填補,包括輿情監(jiān)測、傳感器故障、工業(yè)設備維護等,如工業(yè)場景下的傳感器故障導致部分運行數(shù)據(jù)缺失。第 3 部分是時間序列的異常檢測(時序異常流量),這也是網(wǎng)絡流量方面十分常見的現(xiàn)象,如網(wǎng)絡異常攻擊、異常環(huán)境監(jiān)測、金融欺詐識別等。第 4 部分是時間序列的分類,例如醫(yī)學中的心電圖分類,語音分類以及地震監(jiān)測等。
接下來,我們將探討時間序列與傳統(tǒng)語言序列之間的顯著差異。人類語言序列通常由句子組成,是離散的表示形式,具有高語義密度。相比之下,時間序列大多由自然信號組成,可能包含連續(xù)的數(shù)值點,其主要特征是語義密度相對較低。
午間消納困難與晚峰電力供應緊張矛盾凸顯,新能源預測面臨 3 大挑戰(zhàn)
在探討如何解決這一問題時,我將重點介紹我們團隊在時間序列新能源方向的的研究進展,具體內容為光伏發(fā)電出力的預測。
由于光伏發(fā)電具有午間發(fā)電量大、晚間幾乎無出力的特性,增加了整個電力系統(tǒng)的調節(jié)難度。特別是在午后,新能源的消納變得較為困難,同時晚峰時段的電力供應也面臨緊張,這種矛盾尤為突出。因此,對于日前發(fā)電計劃的制定、日內電力平衡的調整以及電力市場的運行,對光伏發(fā)電預測的準確性需求空前強烈。
光伏發(fā)電當前背景概況
然而目前對于新能源預測面臨 3 大重要挑戰(zhàn)。首先是是數(shù)值天氣預報目前不滿足高精度光伏電站的預測需求;其次是集中式光伏電站模型不足以描述功率波動,難以適應多時刻多氣象條件下預測需要;第三是分布式光伏電站缺乏地面輻照度數(shù)據(jù),時空特征分布不足,無法滿足多時間尺度預測。
構建集中式光伏電站與分布式光伏多時間尺度功率預測模型
面對一系列挑戰(zhàn),我們提出了多項模型研究方案,旨在構建集中式光伏電站與分布式光伏多時間尺度功率預測模型。我們首先收集了多源氣象數(shù)據(jù),涵蓋不同時間尺度和氣象類型的數(shù)據(jù),包括衛(wèi)星云圖、數(shù)值天氣預報數(shù)據(jù)、地面測量數(shù)據(jù)以及光伏電站的測量數(shù)據(jù)。
其次,基于這些數(shù)據(jù),我們在上一層構建了輻照度預測模型,用于指導集中式和分布式光伏電站的超短期預測。在此基礎上,我們進一步構建了超短期、中期、短期及其他時間尺度的預測模型。最后,我們搭建了一個全時間尺度的預測平臺。
總體研究思路架構圖
多源氣象數(shù)據(jù)
首先,針對光伏電站的地表太陽輻照度超短期預測模型,當前的主要問題在于數(shù)值天氣預報通常每 12 小時更新一次,且其空間分辨率和精度較低,難以滿足光伏電站預測空間和時間分辨率需求。
為解決這一問題,我們結合了葵花 8 號 (Himawari-8) 衛(wèi)星云圖和數(shù)值天氣預報數(shù)據(jù)???8 號的云圖具有 4km*4km 的空間分辨率和 10 分鐘的時間分辨率,但存在 20 分鐘的延遲。而數(shù)值天氣預報的時間分辨率為 15 分鐘,空間分辨率為 9km*9km,更新頻率為每 12 小時一次。
光伏電站的地表太陽輻照度超短期預測模型技術路線
輻射度預測模型
**面對這些差異,我們開發(fā)了超短期預測模型,采用多種插值方法對多源氣象數(shù)據(jù)進行平行對齊,解決了數(shù)據(jù)延遲的問題。**通過基于 Res-UNet 和雙線性插值的地表短波輻照度預測方法,我們在多種氣象條件下預測的 MAE 和 RMSE 分別平均降低了 31.31% 和 22.18%。右下圖展示了河北涉縣東皇中電投站點的實際案例,結果表明,Res-UNet 相較于 NWP 和 UNet 更能準確預測輻照度的抖動性和峰值。
光伏電站的地表太陽輻照度超短期預測模型架構及案例
光伏功率預測模型
對于集中式光伏電站的超短期預測模型,其問題主要體現(xiàn)在對數(shù)值天氣預報的嚴重依賴和精度不足。針對這一問題,我們提出了基于雙編碼變換器的集中式光伏超短期功率預測方法,結合地面觀測數(shù)據(jù)與衛(wèi)星云圖中的云層變化特征數(shù)據(jù),打破了光伏預測單純依賴數(shù)值天氣預報數(shù)據(jù)的局限性。
UNet 云圖特征提取骨干網(wǎng)絡與多源數(shù)據(jù)融合雙編碼變換器
在集中式光伏電站短期功率預測方面,單一模型的預測誤差較大,易受突發(fā)天氣的影響。為此,我們提出了基于分時-長短期記憶網(wǎng)絡的集中式光伏短期功率預測方法,綜合運用輻照度、環(huán)境溫度、濕度等歷史氣象數(shù)據(jù)與光伏發(fā)電功率的時間相關性特征,解決了單一預測模型難以適應復雜多變氣象條件問題,有效提升了復雜氣象條件下的預測精度。
集中式光伏電站短期預測模型技術路線
針對中長期預測,主要挑戰(zhàn)是如何捕捉光伏發(fā)電的季節(jié)性、周期性和長期趨勢變化。為解決這一問題,我們提出了基于雙重注意力編碼器的集中式光伏中期功率預測方法,綜合運用周期性、季節(jié)性和趨勢性氣象特征數(shù)據(jù),實現(xiàn)了對不同季節(jié)、連續(xù)多時間特征的精準捕捉,率先實現(xiàn)了時間序列周期和趨勢自動提取。相關成果已發(fā)表在 AAAI 會議上。
基于交互式并行注意力和進化季節(jié)性、趨勢分解的中期功率預測方法
對于分布式光伏電站的全時間尺度預測模型,主要問題在于其規(guī)模小、分布廣,缺乏精確的現(xiàn)場氣象觀測數(shù)據(jù)。當前的預測模型未充分考慮多源數(shù)據(jù)的時空融合,導致精度不足。為此,我們分別提出了針對超短期、短期和中期的分布式光伏電站功率預測模型。
我們還提出了多層圖注意力機制,批量自動提取海量分布式光伏與周邊集中式光伏電站實測氣象數(shù)據(jù)、衛(wèi)星云圖的時空相關性;提出了基于雙重注意力網(wǎng)絡的分布式光伏短期功率預測模型,通過站內和站間注意力機制,融合分布式電站的數(shù)值天氣預報數(shù)據(jù)和集中式光伏電站的地面量測數(shù)據(jù),實現(xiàn)預測模型在地理空間特征融合;提出了基于地理感知多層注意力機制的分布式光伏中期功率預測方法,通過灰色關聯(lián)分析篩選強相關集中式光伏電站,采用站間-站內多層次細粒度注意力機制,自動提取集中式光伏電站氣象特征與分布式光伏電站功率的時空相關性。
分布式光伏電站全時間尺度預測模型技術路線
綜合性平臺
最終,我們開發(fā)了一套全電壓等級多時間尺度省級輻照度資源與光伏發(fā)電監(jiān)視、預測和調控系統(tǒng)平臺,包括光伏資源及運行數(shù)據(jù)監(jiān)測功能模塊、集中式光伏全時間尺度預測功能模塊、分布式光伏全時間尺度預測功能模塊以及光伏一體化控制功能模塊。
* 光伏資源及運行數(shù)據(jù)監(jiān)測功能模塊:實現(xiàn)了氣象數(shù)據(jù)實測及展示,集中式光伏電站與海量低壓分布式光伏全景監(jiān)視。
* 集中式光伏全時間尺度預測功能模塊:實現(xiàn)了光伏全時間尺度的實時監(jiān)測、異常預警、模型自學習等。
* 分布式光伏全時間尺度預測功能模塊:實現(xiàn)了 NWP 數(shù)據(jù)管理,光伏站實測數(shù)據(jù)、基礎數(shù)據(jù)管理,區(qū)域功率預測,光伏站功率預測,系統(tǒng)管理等功能。
* 光伏一體化控制功能模塊:實現(xiàn)了全面數(shù)據(jù)監(jiān)測與協(xié)同優(yōu)化調度,集中式與分布式預測相結合,自動調節(jié)與優(yōu)化,異常檢測與警報,保障電網(wǎng)安全穩(wěn)定運行和新能源高水平消納。
全電壓等級多時間尺度省級輻照度資源與光伏發(fā)電監(jiān)視、預測和調控系統(tǒng)平臺
時間序列在非新能源領域取得的兩大工作進展
接下來,我將主要介紹時間序列在非新能源領域取得的工作進展。一方面,我們提出了基于語義增強和多流管道的通用無損壓縮框架,主要包括字節(jié)流語義增強、多流管道加速、顯存優(yōu)化 3 個研究內容。
在字節(jié)流語義增強方面,我們開發(fā)了一系列新的方法來獲取復雜的語義信息,其中包括 Patch 維度融合和自適應滑動窗口等技術。
在多流管道加速方面,我們研發(fā)了針對 GPU 多復制引擎的多流加速模塊和面向 CPU 多核的隊列模型。
字節(jié)流語義增強和多流管道框架
在顯存優(yōu)化方面,我們首次提出了多流場景下顯存優(yōu)化策略。具體而言,我們首先使用分析器分析內存分配和釋放的順序,以識別可以共享的內存塊。我們關注的是那些很少但占用大部分內存的內存塊,以最大限度地提高內存重用率。
基于此,我們設計一個共享池策略來管理流之間的共享內存塊,它使用的大型連續(xù)內存塊被釋放回共享池并標記為保留塊;下一個阻塞流可以通過將其指針調整到這些塊的地址來訪問這些保留塊。當 S2 請求新的內存空間時,它會在共享池中搜索可用的保留塊。如果找到合適的塊,malloc 會在下一個流中重用它們,從而顯著節(jié)省內存。
顯存優(yōu)化框架
我們取得的主要成果有:對深度學習的壓縮器,在圖像、文本、音頻、視頻、異構混合數(shù)據(jù)上,平均有 3% 以上的壓縮率和 35% 以上的壓縮速度增強,與 PAC 壓縮器結合達到目前的 SOTA;語義增強方法可以拓展到時間序列等任務中,進一步提升時序預測的精度;多流管道加速可以拓展到有損壓縮等領域,提升整體壓縮速度。
壓縮結果
另一方面,我們提出了面向通用時間序列的多尺度模型 CSIformer。首先,我們設計了自適應 Patch 劃分網(wǎng)絡,通過學習中心點和左右邊界,實現(xiàn)對傳統(tǒng)超參的自動適配。此外,我們還提出了自適應 Stride 策略,利用掩碼矩陣實現(xiàn)對不同語義密度塊的步長調整。最后,為了增強對長序列信息的捕獲和感知,我們還設計了金字塔融合策略,從而提升了模型在長序列中的表現(xiàn)。
多尺度模型 CSIformer
在光伏預測的多級序列分解模型方面,我們重點研究了小波分解單元 (WTDU)、季節(jié)趨勢分解單元 (STDU) 以及 SEEDTrans 架構。值得注意的是,該模型在中國河北的 6 個發(fā)電站中,預測精度相比傳統(tǒng) ARIMA 模型提高了 40% 以上。
關于萬萌
萬萌,北京科技大學在讀博士,現(xiàn)任中國科學院計算機網(wǎng)絡信息中心人工智能部工程師,于北京郵電大學和英國南安普頓大學分別獲得軟件工程學士和碩士學位。
他主要從事時間序列預測、人工智能平臺等相關研究,包括光伏發(fā)電處理預測、高分子材料計算與模擬、生態(tài)碳循環(huán)等。先后參與了「中國科技云軟件資源池建設」、「人工智能創(chuàng)新應用」等項目課題。
萬萌郵箱地址:wanmengdamon@cnic.cn