پایان نامه :تحلیل مقایسهای كارآمدی مدلهای رگرسیون بردار پشتیبان، شبكه عصبی و ARIMA با مدلهای تركیبی در پیش بینی بازده شاخص بورس اوراق بهادار تهران |
فهرست مطالب
فصل اول:
1-1) مقدمه…………………………………………………………………………………………………………………………………………………………………………………………………………………….. 8
1-2) تشریح و بیان موضوع…………………………………………………………………………………………………………………………………………………………………………………………….. 9
1-3) ضرورت انجام تحقیق…………………………………………………………………………………………………………………………………………………………………………………………….. 9
1-4) سابقه تحقیقات و مطالعات انجام گرفته……………………………………………………………………………………………………………………………………………………………… 10
1-5) فرضیههای تحقیق………………………………………………………………………………………………………………………………………………………………………………………………. 12
1-6) اهداف اساسی از انجام تحقیق…………………………………………………………………………………………………………………………………………………………………………….. 12
1-7) نتایج مورد انتظار پس از انجام این تحقیق………………………………………………………………………………………………………………………………………………………… 13
1-8) روش انجام پژوهش………………………………………………………………………………………………………………………………………………………………………………………………. 13
1-8-1 ) روش تحقیق…………………………………………………………………………………………………………………………………………………………………………………………………. 14
1-8-2) روش های گردآوری اطلاعات……………………………………………………………………………………………………………………………………………………………………………. 14
1-8-3) قلمرو تحقیق…………………………………………………………………………………………………………………………………………………………………………………………………… 14
1-8-4) جامعه آماری……………………………………………………………………………………………………………………………………………………………………………………………… 15
1-8-5) نمونه آماری……………………………………………………………………………………………………………………………………………………………………………………………….. 15
1-8-6) روش یا روشهای نمونه گیری………………………………………………………………………………………………………………………………………………………………… 15
1-8-7) روش های مورد نظر برای تجزیه و تحلیل اطلاعات و آزمون فرضیهها…………………………………………………………………………………………………………. 15
1-9)تعریف واژه ها و اصطلاحات تخصصی طرح………………………………………………………………………………………………………………………………………………………… 17
فصل دوم:
2-1) مقدمه………………………………………………………………………………………………………………………………………………………………………………………………………………… 19
2-2) انواع داده ها……………………………………………………………………………………………………………………………………………………………………………………………………… . 21
2-2-1 ) داده های سری زمانی…………………………………………….. ……………………………………………………………………………………………………………………………………….21
2-2-2) داده های مقطعی………………………………………………………………………………………………………………………………………………………………………………………………21
2-2-3) داده های پانل……………………………………………………………………………………………………………………………………………………………………………………………………22
2-3) مدلهای سری زمانی تک متغیره………………………………………………………………………………………………………………………………………………………………………. 22
2-4) مفاهیم مهم در تحلیل سریهای زمانی……………………………………………………………………………………………………………………………………………………………… 22
2-4-1) مانایی…………………………………………………………………………………………………………………………………………………………………………………………………………….. 22
2-4-2 ) خودکوواریانس، خودهمبستگی و خودهمبستگی جزئی………………………………………………………………………………………………………………………………. 24
2-4-3) تابع خودهمبستگی و خودهمبستگی جزئی…………………………………………………………………………………………………………………………………………………. 24
2-4-4) فرایند نوفهی سفید…………………………………………………………………………………………………………………………………………………………………………………….. 25
2-4-5 ) آمارهی Q……………………………………………………………………………………………………………………………………………………………………………………………………. 25
2-5) فرایندهای خودرگرسیو(AR)……………………………………………………………………………………………………………………………………………………………………………. 27
2-6) فرایندهای میانگین متحرک (MA)……………………………………. ………………………………………………………………………………………………………………………. 28
2-7) فرایندهای خودرگرسیو میانگین متحرک (ARMA) …………………………………………………………………………………………….. ………………………………….. 28
2-8) مدلهای خودرگرسیو میانگین متحرک انباشته (ARIMA) …………………………………………………………………………………………….. ………………………….. 30
2-9) مراحل ساخت مدلهای ARIMA…………………………………….
…………………………………………………………………………………………………………………………….. 30
2-10 ) انواع نامانایی……………………………………. ……………………………………………………………………………………………………………………………………………………………. 31
2-11 ) آزمون ریشه واحد……………………………………. ………………………………………………………………………………………………………………………………………………… 32
2-12) معیارهای اطلاعاتی……………………………………. ………………………………………………………………………………………………………………………………………………….. 33
2-13) شبکه های عصبی مصنوعی……………………………………. ………………………………………………………………………………………………………………………………………. 33
2-13-1) نرونهای بیولوژیکی……………………………………. ……………………………………………………………………………………………………………………………………………. 33
2-13-2) سیر تاریخی شبکه های عصبی……………………………………. …………………………………………………………………………………………………………………………….. 34
2-13-3) کاربرد شبکه های عصبی……………………………………. …………………………………………………………………………………………………………………………………….. 36
2-13-4) اجزا و ساختار شبکه های عصبی……………………………………. …………………………………………………………………………………………………………………………. 38
2-13-5) مدل ریاضی نرونها………………………………………………………………………………………………………………………………………………………………………………………… 40
2-13-6) الگوریتم پسانتشار خطا……………………………………………………………………………………………………………………………………………………………………………… 44
2-13-7) معماری شبکه های پسانتشار………………………………………………………………………………………………………………………………………………………………………. 45
2-13-8) طراحی شبکه عصبی………………………………………………………………………………………………………………………………………………………………………………….45
2-13-9) الگوریتم یادگیری Levenberg- Marquardt……………………………………………………………………………………………………………………………………… 48
2-13-10) مزایا و معایب شبکه عصبی………………………………………………………………………………………………………………………………………………………………….. ..49
2-14) ماشین بردار پشتیبان……………………………………………………………………………………………………………………………………………………………………………………50
2-15) ماشین بردار پشتیبان دو کلاسه………………………………………………………………………………………………………………………………………………………………………..52
2-16) ماشین بردار پشتیبان با حاشیه ثابت…………………………………………………………………………………………………………………………………………………………………54
2-17) ماشین بردار پشتیبان با حاشیه منعطف……………………………………………………………………………………………………………………………………………………………58
2-18) ماشین بردار پشتیبان چند کلاسه…………………………………………………………………………………………………………………………………………………………………….59
2-19)رویکرد طبفه بندی غیر خطی در ماشین بردار پشتیبان……………………………………………………………………………………………………………………………………60
2-20) رگرسیون بردار پشتیبان…………………………………………………………………………………………………………………………………………………………………………………….63
2-20-1) رگرسیون خطی بردارپشتیبان……………………………………………………………………………………………………………………………………………………………………….63
2-20-2) رگرسیون غیرخطی بردار پشتیبان………………………………………………………………………………………………………………………………………………………………..66
2-21) مزایا و معایب ماشین بردار پشتیبان………………………………………………………………………………………………………………………………………………………………….67
2-22) شبکه های عصبی و عملکردهای متفاوت……………………………………………………………………………………………………………………………………………………. ……68
2-23) مروری بر مطالعات ترکیبی…………………………………………………………………………………………………………………………………………………………………………….. .73
فصل سوم:
3-1) مقدمه 79
3-2) فرضیه های تحقیق 79
3-3) متغیرهای تحقیق و نحوه گردآوری داده ها 80
3-4) دوره زمانی انجام تحقیق و روش نمونه گیری 80
3-5) برازش مدل خودرگرسیو میانگین متحرک انباشته(ARIMA) 80
3-6) برازش شبکه عصبی مصنوعی 83
3-7) مدل ترکیبی 84
3-7-1) شرح مدل ترکیبی 85
3-7-2) برازش مدل ترکیبی 86
3-8) مقایسه عملکرد و آزمون فرضیه 87
3-9) آزمون دایبولد- ماریانو………………………………………………………………………………………………………………………………………………………………………………………….87
3-10) جمع بندی………………………………………………………………………………………………………………………………………………………………………………………………………..89
فصل چهارم:
4-1) مقدمه……………………………………………………………………………………………………………………………………………………………………………………………………………………91
4-2) بررسی مانایی بازدههای لگاریتمی……………………………………………………………………………………………………………………………………………………………………….. 92
4-3)محاسبهی معیار میانگین مجذور خطا………………………………………………………………………………………………………………………………………………………………….. 93
4-4) محاسبهی تابع زیان قدر مطلق درصد خطا…………………………………………………………………………………………………………………………………………………………. 96
4-5) آزمون فرضیه های تحقیق……………………………………………………………………………………………………………………………………………………………………………… 100
فصل پنجم:
5-1) نتیجه گیری…………………………………………………………………………………………………………………………………………………………………………………… 116
5-2) پیشنهادات برای تحقیقات آتی………………………………………………………………………………………………………………………………………………………. 118
منابع و مآخذ
منابع داخلی…………………………………………………………………………………………………………………………………………………………………………………………… 119
منابع خارجی…………………………………………………………………………………………………………………………………………………………………………………………… 121
فهرست اشکال
شکل 2-1) ساختار پایهای شبکه عصبی…………………………………………………………………………………………………………………………………………………………………. 38
شکل 2-2) نرون با یک ورودی عددی………………………………………………………………………………………………………………………………………………………………………. 40
شکل 2-3) شبکه تک لایه با چندین نرون و بردار ورودی…………………………………………………………………………………………………….. ……………………………….. 43
شکل 2-4) شبکه های عصبی با چندین لایه و چندین نرون……………………………………………………………………………………………………………………………………. 43
شکل 2-5) شبکه عصبی پیشخور با تابع فعال سازی تانژانت هیپربولیک………………………………………………………………………………………………………….. 45
شکل2-6) طبقه بندی کلاس داده ها توسط ماشین بردار پشتیبان……………………………………………………………………………………………………………………………53
شکل 2-7) طبقه بندی بهینه کلاس داده ها توسط ماشین بردار پشتیبان……………………………………………. …………………………………………………………………54
شکل2-8) ماشین بردار پشتیبان با حاشیه ثابت…………………………………………………………………… …………………………………………………………………………………..55
شکل2-9) فرایند ماشین بردار پشتیبان……………………………………………………………………………………………… …………………………………………………………………….57
شکل 2-10) ماشین بردار پشتیبان با حاشیه نرم…………………………………………………………… ………………………………………………………………………………………..59
شکل 2-11) طبقه بندی غیر خطی ماشین بردارپشتیبان………………………………………….. ……………………………………………………………………………………………60
شکل 2-12) تابع ضرر وپنیک و متغیرهای slack………………………………………….. ……………………………………………………………………………………………………….64
فهرست جداول
جدول 4-1) آزمون دیکی و فولر برای بازده لگاریتمی سری زمانی شاخص کل……………………………………………………………………………………………………… …94
جدول 4-2) قدرمطلق خطا برای مقایسه مدل ترکیبی آریما و شبکه عصبی با هر یک از اجزای تشکیل دهنده…………………………………………………… 95
جدول 4-3) قدر مطلق خطا برای مقایسه مدل ترکیبی آریما و رگرسیون بردار پشتیبان با هریک از اجزای تشکیل دهنده………………………………… 97
جدول 4-4)قدرمطلق درصد خطا برای مقایسه مدل ترکیبی آریما و شبکه عصبی با هر یک از اجزای تشکیل دهنده………………………………………….. 99
جدول 4-5) قدرمطلق درصدخطا برای مقایسه مدل ترکیبی آریماورگرسیون بردار پشتیبان با هریک ازاجزای تشکیل دهنده……………………………..100
جدول 4-6) آزمون مقایسه زوجی مدل ترکیبی آریما و شبکه عصبی با آریما(قدرمطلق خطا) ………………………………………………………………………….. 102
جدول 4-7) آزمون مقایسه زوجی مدل ترکیبی آریما و شبکه عصبی با شبکه عصبی(قدرمطلق خطا) ……………………………………………………………. 105
جدول 4-8) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه مدل ترکیبی آریما و شبکه عصبی با هر یک بطور مجزا(قدر مطلق خطا) 104
جدول 4-9) آزمون مقایسه زوجی مدل ترکیبی آریما و شبکه عصبی با آریما (قدرمطلق درصد خطا) ………………………………………………………………. 105
جدول 4-10) آزمون مقایسه زوجی مدل ترکیبی آریما و شبکه عصبی با شبکه عصبی(قدرمطلق درصدخطا)………………………………….. 106
جدول 4-11) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه مدل ترکیبی آریما و شبکه عصبی با هر یک بطور مجزا(قدر مطلق درصد خطا)………………………… ………………………………………. ………………………….. …………………………………………………………………………………………………………….. 107
جدول 4-12) آزمون مقایسه زوجی مدل ترکیبی آریما و رگرسیون بردار پشتیبان با آریما( قدر مطلق خطا)……………………………………………………………………………………………………………………………………………………………………………………………………108
جدول4-13) آزمون مقایسه زوجی مدل ترکیبی آریما و رگرسیون بردار پشتیبان با SVR( قدر مطلق خطا)………………………………….108
جدول4-14) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه مدل ترکیبی آریما و SVR با هر یک بطور مجزا(قدر مطلق خطا)………………………………………………………………………………………………………………………………………………………………………………………………….109
جدول 4-15) آزمون مقایسه زوجی مدل ترکیبی آریما و رگرسیون بردار پشتیبان با آریما( قدر مطلق درصد خطا)……………………..112
جدول 4-16) آزمون مقایسه زوجی مدل ترکیبی آریما و شبکه عصبی با شبکه عصبی( قدر مطلق خطا)……………………………………..112
جدول4-17) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه مدل ترکیبی آریما و SVR با هر یک بطور مجزا(قدر مطلق
درصد خطا)………………………………………………………………………………………………………………………………………………………………………………………..112
جدول 4-18) آزمون مقایسه زوجی دو مدل ترکیبی(قدر مطلق خطا)…………………………………………………………………………………………….113
جدول4-19) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه دو مدل ترکیبی(قدر مطلق خطا)……………………………………….114
جدول 4-20) آزمون مقایسه زوجی دو مدل ترکیبی( قدر مطلق درصد خطا)………………………………………………………………………………..114
جدول4-21) آزمون دایبولد-ماریانو و آماره تعدیل شده برای مقایسه دو مدل ترکیبی(قدر مطلق درصد خطا)……………………………115
فصل اول:
طرح تحقیق
1-1) مقدمه
سرمایه و نیروی انسانی از ارکان اصلی تولید هستند و تامین این عوامل و تخصیص بهینه آنها لازمه رشد اقتصادی است. این تخصیص مستلزم وجود بازار و عملکرد مطلوب نیروهای بازار است. دررابطه با سرمایه بازار بورس می تواند این وظیفه را بر عهده داشته باشد. مهمترین وظیفه بازار بورس، جذب سرمایه های پراکنده و هدایت آنها بسوی فعالیتهای سرمایه گذاری از طریق یک فرایند تخصیص بهینه است.
نوسان قیمت سهام نیز در تمام بازارهای بورس امر طبیعی و عادی است، اما در هر صورت میتوان با یک پیش بینی از قیمت سهام ترکیبی مطلوب از آنها را انتخاب و نوسانها را کاهش داد. پیش بینی شاخص های مهم بازار بورس می تواند گامی در جهت افزایش و شفاف نمودن اطلاعات در بازار سرمایه باشد.
پیش بینی شاخص های بورس یا بازار سرمایه همواره مورد توجه مطالعات بوده است. این توجه در سالهای اخیر منجر به پیشرفت الگوهای مورد استفاده در پیشپیشبینی شده است. لیکن باید پیش بینی را مورد توجه قرار داد که با دقت بیشتری صورت گیرد و نسبت به نتایج واقعی مشاهده شده خطای کمتری داشته باشد.
پیشبینی سریهای زمانی یکی از مهمترین روشهای پیش بینی است که در آن از مشاهدات گذشتهی یک متغیر به منظور توسعه مدل و پیش بینی در آینده استفاده میگردد. روشهای سری زمانی، درطول چند دهه گذشته توسعه بسیاری یافته اند، اما یکی از مهمترین و پرکاربردترین آنها مدل خودرگرسیو میانگین متحرک انباشته (ARIMA) میباشد که تحت عنوان روش باکس و جنکینز شناخته می شود.
خودرگرسیو میانگین متحرک انباشته (ARIMA) که خلاصه شدهی (Autoregressive Integrated Moving Average) میباشد، یکی از پرکاربردترین مدلها در پیشبینی سریهای زمانی در طول سه دهه گذشته بوده است، اما پیشفرض اصلی آن این است که رابطهی خطی میان ارزشهای سری برقرار باشد. بنابراین رابطههای غیرخطی بوسیلهی مدل خودرگرسیو میانگین متحرک انباشته نمیتوانند خوب توضیح داده شوند.
یکی دیگر از روشهای مورد استفاده در پیشبینی سریهای زمانی شبکهی عصبی است که توان تخمین روابط غیرخطی مختلفی را دارا میباشد (اصطلاحاً به شبکهی عصبی تخمین زنندهی همگانی میگویند). اما استفاده از شبکه، طبق ادبیات تحقیق در روابط خطی نتایج پیچیدهای در بر داشته است.
نوع دیگر از روشهای پیش بینی سری زمانی رگرسیون بردار پشتیبان(SVR ) است. ماشین بردار پشتیبان، تابع رگرسیون را با به کارگیری یک دسته تابع خطی تخمین می زند و عملیات رگرسیون را با تابعی که انحراف از مقدار واقعی در آن به میزان کمتر از ɛ مجاز است انجام می دهد سپس با کمینه کردن ریسک ساختاری ، بهترین جواب را ارائه می دهد.[57]
بطور کلی باید به این نکته اشاره کرد که دانستن الگوی دادهها، مبنی بر خطی و غیرخطی بودن در دنیای واقعی کمی دشوار است و به ندرت سریهای زمانی به طور خالص خطی و غیرخطی میباشند و اغلب از هر دو الگو تبعیت میکنند. بنابراین مسأله اینجاست که چگونه میتوانیم قیمت پایانی و دامنهی نوسان قیمت را با خطای کمتری پیشبینی کنیم؟
1-2) تشریح و بیان موضوع
در زمینه مدلسازی سریهای زمانی، روشهای متفاوتی مورد استفاده قرار میگیرد. مدلهای سنتی مانند میانگین متحرک، هموارسازی نمایی و خودرگرسیو میانگین متحرک انباشته پیشبینی آینده را به روابط خطی از گذشته محدود مینمایند و الگوهای خطی را مدل سازی می کنند. از این مدلها به دلیل سادگی در فهم و کاربرد در دهه های اخیر بسیار استفاده شده است. با وجود انعطاف پذیری بالای مدل خودرگرسیو میانگین متحرک انباشته در مدل سازی الگوهای خطی این مدل نمی تواند الگوهای غیر خطی را خوب مدل سازی کند.
به دلیل مشاهده الگوهای غیرخطی در دنیای واقعی یک سری از مدلهای غیرخطی مانندARCH GARCH, ،TGARCH مطرح گردیدند. همگی این مدلها، الگوهای غیرخطی بخصوصی را توضیح میدهند.
اما شبکه عصبی مجازی(ANN) توان و قدرت پیشبینی روابط غیرخطی را داراست و کاملاً انعطاف پذیر عمل می کند. شبکه های عصبی مصنوعی از عناصر عملیاتی سادهای ساخته میشوند که به صورت موازی در کنار یکدیگر عمل می کنند. این عناصر که از سیستمهای عصبی زیستی الهام گرفته شده اند، در تلاشاند که به صورت ناپارامتریک، مغز انسان را شبیه سازی نمایند. نكته حائز اهمیت در استفاده از مدل شبکه عصبی وجود نتایج متفاوت برای روابط خطی است. برای مثال مارکهام و راکس اذعان داشتند عملکرد شبکه عصبی برای مسالههای رگرسیون خطی وابسته به اندازه نمونه و سطح شوک (Noise) میباشد. [53]
از طرفی ماشین بردار پشتیبان (SVM) به عنوان تکنیک نوین یکی از روشهای یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری واپنیک در دهه 90 میلادی توسط واپنیک و همکارانش ارائه گردید. این روش از جمله روشهای نسبتاً جدیدی است که در سالهای اخیر کارایی خوبی نسبت به روشهای قدیمیتر از جمله شبکههای عصبی پرسپترون نشان داده است. رگرسیون بردار پشتیبان این عمل را با تابعی كه انحراف از مقدار واقعی در آن به میزان كمتر از ɛ مجاز است، انجام میدهد.
همانطور که ذکر شد با وجود مزایای متعدد، شبکه های عصبی با محدودیت هایی از جمله مدلسازی روابط خطی و همچنین نیازمند بودن به شمار بالای نمونه برای آموزش(به منظور انجام فرایند یادگیری) مواجه میباشد. اما چون دانستن خصوصیات داده ها مبنی بر خطی و یا غیر خطی بودن در واقعیت کمی دشوار است و از طرفی به ندرت روابط کاملا خطی و یا کاملا غیر خطی مشاهده می شود، بنابراین این ایده به ذهن میرسد که ترکیب مدل خطی آریما با مدلهای غیر خطی شبکه عصبی پیشخور و ماشین بردار پشتیبان می تواند باعث بهبود دقت پیش بینی گردد.
در مدل ترکیبی سعی بر این داریم ابتدا روابط غیرخطی در پسماندها را با بهره گرفتن از شبکه عصبی و رگرسیون بردار پشتیبان شناسایی کرده سپس پسماندهای بدست آمده را به مدل خودرگرسیو میانگین متحرک انباشته اضافه کنیم. با این ترکیب، بخش خطی بوسیلهی مدل خودرگرسیو میانگین متحرک انباشته و بخش غیرخطی بوسیلهی شبکه عصبی و رگرسیون بردار پشتیبان پیشبینی خواهد شد.
با عنایت به مطالبی كه ذكر شد این سوال پیش می آید كه کدامیک از مدلهای رگرسیون بردار پشتیبان، شبكه عصبی، خودرگرسیو میانگین متحرک انباشته و مدلهای تركیبی، با دقت بالاتر و خطای كمتری توانایی پیش بینی شاخص بورس اوراق بهادار تهران را دارد؟
[1]- Autoregressive Integrated Moving Average
[2] -Universal
فرم در حال بارگذاری ...
[یکشنبه 1399-09-30] [ 12:28:00 ب.ظ ]
|