Учебная работа. Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Фроцини

Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Фроцини

Оглавление

1. Введение

2. Предварительный анализ данных

3. Теоретическая часть

3.1 Статистическая проверка гипотез

3.2 Статистический критерий Фроцини

4. Проверка гипотезы для модельных данных

5. Выбор альтернативной гипотезы и оценка мощности критерия

6. Проверка гипотез для реальных данных

Заключение

Список используемой литературы

Приложения

1. Введение

Целью моей курсовой работы является проверка гипотезы о нормальности распределения дневных логарифмических доходностей, рассчитанных по котировкам акций, входящих в индекс NASDAQ COMРUTER (IXCO) акций компаний, расположенных в Silicon Valley. основным критерием стал критерий нормальности Фроцини. NASDAQ COMРUTER — это общий индекс NASDAQ. Он включает себя более пяти тысячи компаний. В работе присутствует 12 тикеров. В качестве временного отрезка был выбран период с 2010 по 2014 включительно.

Курсовая работа состоит из двух основных частей. Первая часть представляет собой теоретическую справку, содержащую краткое описание применяемых в работе статистических критериев и методов. Вторая часть — практическая, состоит из проверки гипотезы на модельных данных, выбора альтернативной гипотезы и проверки мощности критерия, предварительного анализа реальных данных.

Необходимо сказать, что подобное исследование является крайне актуальным в наше время. именно критерий Фроцини дает нам возможность понять, насколько близким к нормальному является исследуемое распределение.

основными источниками литературы, используемыми при написании работы стали «Лекции по математической статистике» А.В. Браилова [1], «Прикладная математическая статистика. Для инженеров и научных работников» А.И. Кобзаря [2]. Были изучены курсовые работы прошлых лет.

2. Предварительный анализ данных

Для того, чтобы провести проверку гипотезы о нормальности распределения дневной логарифмической доходности акций, необходим достаточный объем выборок. Данные о ценах акций взяты с сайта httр: // www.finance. yahoo.com/ <#"justify">Таблица 1.

список и наименование компаний

Тикер Наименование компанииADATAuthentidate Holding Corp. BSQRBSQUARE Corp. CEVACEVA Inc. DRAMDataram CorporationEVOLEvolving Systems Inc. FORTYFormula Systems (1985) Ltd. ISSIIntegrated Silicon Solution Inc. MOBISky-mobi LimitedROVIRovi CorporationSNDKSanDisk Corp. ULTIThe Ultimate Software Group, Inc. ZIXIZix Corporation

В таблице 2 (программа 1) отражено количество дней, в которые акции торговались на бирже в период с 01.01.2010 г по 31.12.2014 г., а так же для индекса в целом.

В то же время при выборе исследуемого периода необходимо принять во внимание наличие резких скачков в ценах акций, вызванных сплитами — дроблениями или консолидациями акций, когда число находящихся в обращении акций увеличивается или уменьшается. В этих случаях номинальная стоимость акций соответственно резко уменьшается или резко увеличивается

Таблица 2.

Количество наблюдений. (программа 1)

Тиккер/Год20102011201220132014ADAT252252250252252BSQR252252250252252CEVA252252250252252DRAM252252250252252EVOL252252250252252FORTY252252250252252ISSI252252250252252MOBI15252250252252ROVI252252250252252SNDK252252250252252ULTI252252250252252ZIXI252252250252252

Также составим таблицу объема торгов (количество проданных акций или сделок) по акциям тиккеров.

Таблица 3.

объем торгов. (Программа 2)

Тиккер/Год20102011201220132014ADAT117682002237810074584002344640026247000BSQR1415500026566600500020042449008467400CEVA4739690059066300675597004108000027279300DRAM2328000979700525500855180011316500EVOL714690055664007111100123936008618300FORTY30961001777200707200560400265400ISSI15747480062963400264966002993120037011300MOBI135119001701660003786420037977400163798500ROVI324764500457678500366015900252606600194754200SNDK2762606200185836010013747983001063738300916492100ULTI4284760054252800435380004288010074157700ZIXI135691800201009900554783009593360086783900

Как видно из таблиц 2 и 3, все исследуемые акции торговались практически непрерывно на протяжении всего рассматриваемого периода времени, кроме выходных, число торговых дней по каждому тиккеру в целом совпадает с числом торговых дней фондового индекса, и объем торгов по ним был весьма высок.

Для того, чтобы убедиться в достоверности исследуемых данных, сопоставим графики курса акций каждого тиккера и курса фондового индекса IXCO за весь рассматриваемый промежуток времени. (Программа 3)

ADAT и IXCO BSQR и IXCO

CEVA и IXCO DRAM и IXCO

EVOL и IXCO FORTY и IXCO

ISSI и IXCOMOBI и IXCO

нормальное распределение логарифмическая доходность

ROVI и IXCO SNDK и IXCO

ULTI И IXCO ZIXI и IXCO

Эта несложная проверка подтверждает достоверность исследуемых данных

далее вычислим некоторые характеристики временных рядов.

Рассчитаем волатильность, характеризующую тенденцию рыночной цены, изменяющуюся во времени.

Тиккер/Год20102011201220132014ADAT0,055596040,061349530,040303050,058572850,04656003BSQR0,042213760,040402630,030024750,021245330,02428204CEVA0,025988640,035604920,028147940,022420470,02327887DRAM0,043080120,04915150,064182040,077045550,04866179EVOL0,016318230,018620770,024413190,020772450,02039206FORTY0,026127780,025248680,018356730,015441360,02241532ISSI0,044182580,030330780,020324080,019188420,01981772MOBI0,035774880,071162030,041215850,055892510,0544092ROVI0,019664810,036536640,037383150,020124560,02003183SNDK0,031235540,027069960,023813540,01689050,01883137ULTI0,019256770,026418640,017286350,01600660,02034313ZIXI0,03759150,039412480,023482890,023937510,02424878Таблица 4. Волатильность. (программа 3)

Рассчитаем максимальные относительные скачки цен в каждом году.

ТиккерГод20102011201220132014ADAT0,306666670,270588240,135714290,370, 19354839BSQR0,289099530,226109220,131054130,078488370,15047022CEVA0,10053860,123351160,222763510,16257310,14950635DRAM0,165604940,386792410,249997770,412541250,28205128EVOL0,07489040,085805590,188277930,083332180,08220714FORTY0,082651860,110448150,073956970,062221970,14974807ISSI0,228545040,126063160,07126670,106529230,07557691MOBI0,106666670,357142860,169154230,433179720,26229508ROVI0,096113070,386571060,432861190,137594320,11865864SNDK0,123170960,096223240,113679740,088338040,13558386ULTI0,062933030,164026280,07994870,124443520,07411828ZIXI0,305882350,176029960,092356690,089595380,1462585Таблица 5. максимальные относительные скачки. (Программа 4)

Рассчитаем бета-коэффициент для каждого тиккера за весь промежуток времени. для того чтобы отразить изменчивость доходности ценной бумаги по отношению к доходности рынка в среднем

ТиккерБетаADAT-0,00069004BSQR-0,00058CEVA-0,00275042DRAM-0,00906711EVOL0,00583096FORTY0,01314192ISSI0,00547081MOBI0,00122931ROVI-0,02133994SNDK0,04961244ULTI0,1044744ZIXI0,0009905

3. Теоретическая часть

3.1 Статистическая проверка гипотез

Одна из основных задач математической статистики состоит в том, чтобы по реализации случайной выборки из некоторого генерального распределения проверить определенную гипотезу о виде или параметрах генерального распределения.

Таким образом, статистической гипотезой называется любое утверждение о виде или параметрах генерального распределения.

Проверка статистической гипотезы — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Пусть и — две взаимоисключающие статистические гипотезы. Гипотезу назовем основной, а гипотезу — альтернативной. Как правило, в качестве базисного предположения принимается утверждение о справедливости одной из гипотез.

Статистическим критерием с критической областью называется правило, в соответствии с которым отвергается, если выборка , и принимается, если . Другими словами, статистический критерий представляет собой специально подобранную случайную величину, точное или приближенное которой известно. В свою очередь, критическая область — это совокупность значений статистического критерия, при которых нулевая гипотеза отвергается. Областью принятия гипотезы, называется совокупность значений статистического критерия, при которых нулевая гипотеза принимается.

Применение статистического критерия может привести к ошибкам двух различных типов:

·ошибка первого рода состоит в том, что отвергается верная гипотеза

·ошибка второго рода состоит в том, что отвергается верная гипотеза

Вероятность ошибки первого рода называется уровнем значимости критерия и обозначается . Вероятность ошибки второго рода обозначается , а величина называется мощностью критерия.

Необходимо отметить, что с распространением статистических программ возникает понятие, которое позволяет решить вопрос о принятии или отклонении основной гипотезы одновременно для всех уровней значимости без вычисления критических значений. Так для фиксировано реализации случайной выборки

Р-значением (Р-value) называется такое число , что для любого уровня значимости , при котором гипотеза принимается, и для любого уровня значимости , при котором гипотеза отвергается.

3.2 Статистический критерий Фроцини

Фроцини предложил простой, но достаточно мощный критерий нормальности с параметрами, оцениваемыми по выборке, основанный на статистике

рассмотрим математическую составляющую критерия Фроцини.

Критерий Фроцини — основной статистический критерий

, Где, ,

,

— порядковые статистики, а — функция распределения стандартного нормального закона N (0,1).

Критерий Колмогорова — вспомогательный критерий

В качестве вспомогательного критерия по проверке равномерности распределения Р-значения основного критерия в данной работе используем критерий Колмогорова.

Критерий Колмогорова рассматривает максимальное соответствующей теоретической функцией распределения F (x, т.е. D = .

Следующим шагом определяется величина . По статистическим таблицам (в среде matcalc функцией рvKolm (u)) находится вероятность того, что за счет чисто случайных причин максимальное расхождение между и F (x) будет не меньше, чем фактически наблюденное. Если вероятность Р () сравнительно велика, то гипотезу следует принять, если весьма мала, то отвергнуть как неправдоподобную.

4. Проверка гипотезы для модельных данных

В качестве модельных данных используется выборка случайных величин, распределенных по нормальному закону. Это позволит нам понять, верно ли записана статистика основного критерия. Необходимо заметить, что теоретическое распределение статистики Фроцини нам неизвестно.

Для того чтобы проверить гипотезу о нормальном распределении:

1. С помощью программы «Квантали. mtc» методом Монте-Карло вычисляются квантили распределения статистики Фроцини. Результаты представлены в следующей таблице:

Таблица 7. Квантили распределения основной статистики.

УровеньКвантиль10,086447120,090198130,092927240,094362450,096078360,097713970,099013480,099761690,1003475100,1011004110,1017168120,1021952 ………….

(всего 999 квантилей, представлены в файле «Квантили. csv»)

2. С помощью программы «Р-значения. mtc» вычисляются Р-значения и приводится их гистограмма.

Рисунок 1. Р-значения на модельных данных. (программа 7)

Как мы можем видеть из рисунка, Р-значения распределены довольно равномерно, что позволяет говорить о том, что гипотеза о нормальности распределения модельных данных по исследуемому критерию Фроцини принимается.

3. В программе «Р-значения. mtc» производится проверка равномерности распределения Р-значения на отрезке [0; 1] по критерию Колмогорова.

В результате выполнения программы мы получаем полученное значение не в полной мере подтверждает равномерность распределения. однако было замечено, что это напрямую связано с частотой вычисления статистики (в нашем случае — 10000 раз, при снижении — критерий Колмогорова все более стремится к единице). поэтому равномерность, на мой взгляд, можно считать доказанной.

5. Выбор альтернативной гипотезы и оценка мощности критерия

В качестве альтернативной гипотезы выберем гипотезу о том, логарифмическая доходность имеет распределение Стьюдента. Выбор именно этого распределения мотивирован тем, что распределение Стьюдента сходится к стандартному нормальному распределению и по своей сути не должно сильно отличаться от нулевой гипотезы.

Оценим на основе 1000-кратной проверки нулевой гипотезы при верной альтернативной мощность критерия Фроцини для выбранного распределения с помощью программы «Прог8. мощность критерия. mtc». В результате работы программы мы получаем, что, например, при 5% уровне значимости мощность составит 0,766, а при 1% уровне значимости — 0,621

таким образом, мощность критерия достаточно велика, а значит, при использовании критерия Фроцини, вероятность совершить ошибку второго рода, то есть принять неправильную гипотезу, мала.

6. Проверка гипотез для реальных данных

С помощью программы «Прог9. реальные Р-значения. mtc»:

1. вычисляются Р-значения и приводится их гистограмма.

Рисунок 2. Р-значения на реальных данных.

Очевидно Р-значения распределены неравномерно, а значит мы можем говорить о том, что гипотеза о нормальности отвергается.

2. Вычисляется доля проверок, в которых гипотеза принималась при 5% и 1% уровнях значимости. Было получено, что

·при 5% уровне значимости гипотеза принимается в 14,5% случаев

·при 1% уровне значимости гипотеза принимается в 25,5% случаев

Таким образом, нет необходимости переходить к исследованию данных за второе полугодие.

3. вычисляются медианные Р-значения по годам и компаниям.

Таблица 8. Средние Р-значения по годам.

201020112012201320140,0906716730,0928692120,0943395370,0957824110,097185476Заключение

В данной работе была проверена гипотеза о нормальности распределения дневных логарифмических доходностей по критерию Фроцини. Полученные результаты говорят о том, что в большинстве случаев гипотеза о нормальности отвергается, несмотря на то, что для небольшого числа компаний значения статистики таковы, что можно судить о некоторой приближенности к нормальному распределению.

Вторым содержательным результатом курсовой работы является изучение критерия Фроцини, в частности, определение его мощности. Мощность критерия оказалась достаточно велика. Тем не менее, критерий, на мой взгляд, носит оценочный характер, указывая нам, насколько близко распределение к нормальному.

Стоит отметить, что в ходе написания курсовой были осуществлены все цели и задачи, которые ставились изначально. Наибольших затрат времени потребовало выполнение программы «Р-значения. mtc». однако мы не имеем возможность сравнивать эффективность, так как в курсовых прошлых лет отсутствует любая информация о времени выполнения программ.

Что касается новизны курсовой работы, то можно выделить ряд особенностей:

·во-первых, в предварительном анализе данных моей работы были наглядно представлены сплиты акций, возникшие в графиках цены Adj Close у ряда компаний (которые, как правило, были затем исключены из исследования);

·во-вторых, модельные данные создавались по иному принципу, нежели в курсовых прошлых лет, что вероятно позволило повысить эффективность;

·в-третьих, качественно иным способом рассчитывались Р-значения;

·в-четвертых, курсовые прошлых лет не содержали оценки мощности критерия Фроцини.

В целом, проверка гипотезы о нормальности распределения дневных логарифмических доходностей с помощью критерия Фроцини дает прежние результаты. Гипотеза отвергается, а значит реальные данные, представленные котировками акций, входящих в известный индекс, не могут быть в полной мере соотнесены с нормальным распределением.

Список используемой литературы

1. Браилов А.В. Лекции по математической статистике. М.: Финакадемия, 2007.172 с.

. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. — 816 с.

. Ригин А. Курсовая работа «Проверка гипотезы о нормальном распределении

логарифмической доходности по критерию Фроцини», 2009

. Казарян А. Курсовая работа «Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Фроцини», 2009

. httр: // finance. Yahoo.com/

Приложения

Приложение 1. Характеристика компьютера

Тип ЦП: DualCore Intel Pentium E5200, 2500Mhz (12.5 x 200)

Тактовая частота: 2500 МГц

Частота системой шины: 800 МГц

Объемы КЭша 2ого уровня (кэш L2): 2Мб (On-Die, ECC,ASC,Full-Speed)

Приложение 2. время выполнения программ

Название программы Время выполнения»количество наблюдений»1,1 с»Объем торгов»1,1 с»График акций и индекса»9,1 с»Волатильность»1,2 с»максимальные относительные скачки»1,3 с»Бета-коэффициент»0,234 с»Квантили»5,6 с» P-значения для модельных данных»0,456 с»Мощность критерия«0,875 с»Реальные Р-значения»1,8 с»Средние значения по годам»0,78 с

Приложение 3. Коды программ

1.» количество наблюдений. mtc»

// Баркинхоев С-Ахмед 2015

// время выполнения: 1,1 секунда

Tikkery= [«ADAT»; «BSQR»; «CEVA»; «DRAM»; «EVOL»; «FORTY»; «ISSI»; «MOBI»; «ROVI»; «SNDK»; «ULTI»; «ZIXI»];= [2010: 2014];=super (12,5);(i in 1: 12)

{(j in 1: 5)

{=date (Years (j),01,01);=date (Years (j),12,31);=loaddaily (d1,d2,Tikkery (i) +». csv

Учебная работа. Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Фроцини