
سطح دقیقه منجر به رفتارهای نوساناتی بسیار شدیدی میشود که اطلاعات مفیدی را در اختیار نخواهند گذاشت. به بیانی دیگر، بدیهی است که رفتار جریانهای ترافیکی در طی چند دقیقهی متوالی، تغییر بخصوصی نخواهند داشت. بر همین اساس، در دیگر تحقیقات نیز پارامترهای ترافیکی را در بازههای زمانی طولانیتری در نظر میگیرند. بنابراین، در اینجا نیز لازم است یک مرحله گردآمدگی روی دادهی اولیه انجام میشود. در این راستا، تعیین سایز گردآمدگی باید نَه بقدری بزرگ باشد که منجر به از دست رفتن اطلاعات مفید میشود و نه به اندازهای کوچک باشد که منجر به تولید اطلاعات تکراری و افزایش بُعد شود.
از آنجا قرار است از هر پنجره 30-دقیقهای، یک نمونه( یک بردار ویژگی) استخراج شود، سایز گردآمدگی میتواند مقادیر 3، 5، 6 ،10، 15و 30 ( مقسوم 30) باشند که به ترتیب منجر به تولید بردارهای ویژگی با اندازههای 200، 120، 100، 60، 40و 20 مقداری میشوند [18]. بنابراین سایز بردار ویژگی وابسته به سایز گردآمدگی است. به منظور درک بیشتر توضیحات گفته شده در خصوص اعمال سایزهای مختلف گردآمدگی، در شکل (5-1) مراحل استخراج ویژگی برای سایز گردآمدگی 15=s که منجر به ساخت بردار ویژگی 40-مقداری میشود، به صورت نمادین آورده شده است.
شکل5-1 .مثالی از چگونگی اعمال مراحل گردآمدگی با سایز15=s و استخراج بردار ویژگی با سایز 40.
به بیانی دقیقتر، برای اعمال گردآمدگی با سایز 15=s بر روی یک پنجره 30-دقیقهای، رکوردهای 1 تا 15 ( مربوط به 20 مسیر) و رکوردهای 16 تا 30 ( مربوط به 20 مسیر) با هم جمع بسته میشوند و 2 بردار 20 مقداری تولید میکنند که با کنار هم قرار دادن آنها یک بردار ویژگی 40-مقداری برای پنجره مربوطه بدست خواهد آمد. اعمال سایزهای مختلف گردآمدگی، نتایج متفاوتی را در میزان خطا ایجاد میکند. شکل (5-2) نیز روند تغییرات میانگین RMSE را با توجه به سایزهای مختلف گردآمدگی نشان میدهد. همانطور که در شکل (5-2) مشخص است، کمترین خطا مربوط به اعمال سایز گردآمدگی 10-دقیقهای است. هرچند که کمترین خطا در روش RF Ensemble of با سطح گردآمدگی s=15 بدست آمده است.
شکل 5-2. مقایسه میانگین RMSE روش پیشنهادی و روش Of RF Ensemble با اعمال سایزهای گردآمدگی متفاوت. سایز گردآمدگی از 3 تا 30 دقیقه، متغیر است.
در راستای توجیه بهترین نتیجه که حاصل اعمال سایز گردآمدگی 10=s است، میتوان گفت که در واقع با اعمال این سایز، مقادیر بردار ویژگی هم Horizen با بردارهای هدف است. به بیانی دقیقتر، چون قرار است بردارهای هدف، جمع نرخ ترافیکی مسیرها در بازهی زمانی 41-50 (10-دقیقهای) باشند، پس در نظر گرفتن نرخهای ترافیکی مربوط به جمع 10-دقیقهای در بردارهای ویژگی، تطابق بیشتری با بردارهای هدف داشته و منجر به یادگیری بهتر و خطای کمتر میشود.
استخراج مجموعههای نمونههای آموزشی
نظر به حجم بالای داده ترافیکی ، مقیاس پذیری متدهای ارائه شده ، از مسائل مطرح در این حوزه است . در روش [18]، مجموعه نمونههای آموزشی (ماتریسهای ویژگی) با سایزهای متفاوتی، از فایل پایگاه داده استخراج شد . این مجموعهها با عنوان A ، B وC به ترتیب شامل 1000 ،11000 و 55000 نمونهی آموزشی هستند. همانطور که مشخص است، یادگیری با استفاده از هر کدام از مجموعهها، مقیاسپذیری متفاوتی را در اختیار میگذارد. از آنجا که در نهایت، قرار است تکنیک پیشنهادی با این الگوریتم مقایسه شود، بنابراین ما نیز این مجموعههای آموزشی را استخراج و برای یادگیری بکار گرفتیم. در این زیر فصل، به بیان چگونگی استخراج این مجموعههای آموزشی میپردازیم.
در بخش پایگاه داده توضیح داده شد که دادهی ارائه شده بعنوان دادهی آموزشی، شامل 60000 رکورد یعنی 100 سایکل 10- ساعته میباشد . با توجه به این که قرار است با داشتن نیم ساعت اول هر پنجره ، نیم ساعت بعدی را پیشبینی کرد ، بنابراین از هر پنجره 60- دقیقهای باید یک نمونه استخراج کرد. اگر پنجرههای استخراج نمونه را بدون overlap در نظر بگیریم و از هر 60-دقیقه، یک نمونه (یک بردار ویژگی) مطابق با روش توضیح داده شده در بخش 4 ، استخراج کنیم، در نهایت به ازای 60000 رکورد (دقیقه) (کل داده آموزشی)، 1000 نمونهی آموزشی خواهیم داشت که بعنوان مجموعه نمونههای آموزشیA (یا Set A) در نظر گرفته میشود.
با حرکت دادن پنجرهی استخراج نمونه و تغییر نقطهی شروع و پایان این پنجره میتوان تعداد نمونههای آموزشی متفاوتی را از فایل داده های آموزشی استخراج کرد. واضح است که در این صورت پنجرههای استخراج نمونه با هم overlap خواهند داشت. برای بدست آوردن مجموعه نمونههای آموزشی B یا (Set B) ، به جای استخراج یک نمونه از یک بازه 60-دقیقهای، پنجرهی استخراج ویژگی را روی این بازه حرکت میدهیم که در این صورت 11 نمونهی آموزشی از هر یک ساعت استخراج خواهند شد. بدین ترتیب، برای 1000 بازهی یک ساعته، 11000=1000ₓ11 نمونه بدست خواهد آمد. به منظور درک بیشتر نحوهی ساخت مجموعههای نمونه آموزشی، مرحلهی استخراج نمونه مجموعه آموزشی B بطور مثال در شکل (5-3) بصورت نمادین آمده است.
شکل 5-3- مراحل نمادین استخراج مجموعه نمونهی آموزشی B.
در حالتی دیگر اگر پنجره استخراج ویژگی را روی بازهی مربوط به یک سایکل که 600 دقیقه است، حرکت دهیم (با شیفت 1-دقیقهای پنجره استخراج ویژگی)، به ازای هر سایکل 550 نمونهی آموزشی و در نهایت به ازای 100 سایکل 55000=1000ₓ55 نمونهی آموزشی خواهیم داشت که مج
موعهی نمونههای آموزشی C را تشکیل میدهند[18]. در زیر فصل بعد، نتایج یادگیری الگوریتمهای متفاوت بر روی این مجموعهها آورده شده است.
نتایج یادگیری الگوریتم بر روی مجموعههای نمونههای آموزشیA,B,C
در شکل (5-4) کارایی تکنیک پیشنهادی بر روی دادهی آزمایشی در مقایسه با نتایج پیاده سازی ما از روش Ensemble Rf را میبینیم.
شکل 5-4- مقایسه خطای RMSE مربوط به تکنیک پیشنهادی و روش Ensemble RF، که برای مجموعه نمونههای آموزشی A,Bو C که بهترتیب شامل 1000, 11000 و 55000 نمونهی آموزشی هستند. تکنیک پیشنهادی کاهش خطای چشمگیری بر روی مقیاسپذیرترین مجموعه یعنی مجموعه A داشته است.
لازم به ذکر است که روش Ensemble RF در مسابقه ICDM سال 2010 مقام سوم را کسب کرد. همانطور که در شکل واضح است، تکنیک پیشنهادی قادر به کاهش خطای چشمگیری، خصوصا بر روی مجموعهی A شده است که کوچکترین سایز را در مقایسه با دیگر مجموعههای B و C دارد. اهمیت این نتیجه بدین دلیل است که سایز مجموعههای B و C، همانطور که در [18] مورد نقد و اشاره قرار گرفته، از جمله محدودیتهای آن روش بحساب میآید، چرا که با افزایش تعداد مسیرها (ATRs) احتمالا متد ارائه شده در [18] مقیاسپذیری مناسبی نخواهد داشت. با این حال، برای رسیدن به کارایی بالاتر، تکنیک پیشنهادی بر روی مجموعههای B و C و ترکیب B و C اعمال شد که نتایج آن را در شکل (5-4) میبینیم. واضح است که بر روی 4 مجموعه، تکنیک پیشنهادی، کاهش خطای قابل ملاحظهای دارد. هرچند بهترین نتایج هر دو روش از اعمال الگوریتم بر روی ترکیب مجموعه (B & C) میباشد. لازم به ذکر است که این میزان خطا در مقایسه با برترین نتایج مربوط به مسابقه ICDM(2010)، نتایج قابل مقایسهای دارد.
فصل ششم