چارچوبی داده‌محور برای پاک‌سازی منحنی توان توربین بادی و شناسایی داده های نابه هنجار بر اساس بازه بندی و چندک

نوع مقاله : مقاله پژوهشی

نویسندگان

گروه کنترل، دانشکده مهندسی برق، دانشگاه علم و صنعت ایران، تهران، ایران

چکیده

در این پژوهش، به‌منظور افزایش دقت و سرعت آموزش، باتکیه‌بر داده‌های اسکادا و ترکیب الگوریتم‌های یادگیری ماشین با روش‌های آماری، رویکردی برای پیش‌پردازش داده‌های بدون برچسب و حذف خودکار داده‌های پرت ارائه شده است. در این روش، با تقسیم‌بندی داده‌ها به بازه‌های مساوی و انتخاب داده‌ی نماینده بر اساس چندک، حجم داده‌های آموزشی به طور چشمگیری کاهش می‌یابد (در این پژوهش تنها با 2/0٪ کل داده‌ها) که به‌اختصار RD نامیده می‌شود. سپس با استفاده از مدل منحنی توان و حدود آستانه‌ی چندکی محلی، داده‌های نابهنجار شناسایی می‌گردند. روش RD با الگوریتم DBSCAN و مدل‌ KNN مقایسه شده است. نتایج تجربی روی داده‌های واقعی مزرعه بادی نشان می‌دهد که RD در ترکیب با KNN عملکرد بهتری نسبت به DBSCAN دارد؛ به طور خاص، هر دو مقادیر MAE و RMSE حدود 15% کاهش‌یافته و بیانگر خطای پیش‌بینی پایین‌تر است. از نظر محاسباتی ، زمان اجرای RD برابر 0٫15 ثانیه و در DBSCAN 0٫99 ثانیه گزارش شده است و زمان اجرا با روش RD، بیش از 50% کاهش یافت. افزون بر این، برخلاف DBSCAN که در برابر داده‌های پرت متراکم یا خط‌وار نیازمند تنظیمات دقیق یا تعریف دقیق شرایط اضافه بر اساس ساختار منحنی توان است روش پیشنهادی بدون نیاز به تعریف فیلتر و مرز‌ بندی‌های خاص قبل از اعمال روش پاکسازی، قادر به حذف خودکار داده‌های غیرواقعی و پرت در منحنی توان توربین بادی می‌باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A data-driven framework for wind turbine power curve cleaning and abnormal data detection based on binning and quantiles

نویسندگان [English]

  • Alireza Aghajani Mobarakeh
  • Javad Poshtan
Control Group, Department of Electrical Engineering, Iran University of Science and Technology, Tehran, Iran
چکیده [English]

In this study, a preprocessing approach is proposed to improve training accuracy and computational efficiency by leveraging SCADA data and integrating machine learning algorithms with statistical techniques for unlabeled data. The method reduces the training dataset substantially by partitioning the data into equal points intervals and selecting representative samples based on quantiles, a procedure referred to as RD. Using this strategy, only 0.2% of the original dataset is required for model training in this study. Subsequently, abnormal data points are identified using a power curve model with quantile thresholds. The RD method is evaluated against DBSCAN and a KNN-based model. Experimental results obtained from real-world wind farm data indicate that RD combined with KNN outperforms DBSCAN. Specifically, both MAE and RMSE are reduced by approximately 15%, reflecting improved predictive accuracy. From a computational perspective, the execution time of RD is about 0.15 seconds, compared to 0.99 seconds for DBSCAN, corresponding to a reduction in runtime exceeding 50%. Moreover, unlike DBSCAN, which requires precise parameter tuning or additional constraints tailored to the power curve structure when dealing with dense or linear outliers, the proposed approach is capable of automatically eliminating outlier data points from the wind turbine power curve without the need for predefined filters or explicit boundary definitions prior to the cleaning process.

کلیدواژه‌ها [English]

  • Data Cleaning
  • Wind Turbine Power Curve (WTPC)
  • Machine Learning (ML)
  • Supervisory Control and Data Acquisition (SCADA)
  • Abnormal Detection (AD)