НОВОСТИ УКРАИНСКОЙ ПСИХИАТРИИ
Более 1000 полнотекстовых научных публикаций
Клиническая психиатрияНаркологияПсихофармакотерапияПсихотерапияСексологияСудебная психиатрияДетская психиатрияМедицинская психология

Книги »  Молодёжь и наркотики (социология наркотизма) »

АНАЛИЗ И ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ НАРКОЛОГИЧЕСКОЙ СТАТИСТИКИ В УКРАИНЕ И В ХАРЬКОВСКОЙ ОБЛАСТИ

С. В. Яковлев, Ю. В. Гнусов

* Публикуется по изданию:
Яковлев С. В., Гнусов Ю. В. Анализ и прогнозирование показателей наркологической статистики в Украине и в Харьковской области // Молодёжь и наркотики (социология наркотизма) / Под ред. В. А. Соболева, И. П. Рущенко. — Харьков: Торсинг, 2000. — С. 194–221.

МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ КОЛИЧЕСТВЕННОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ РАСПРОСТРАНЕНИЯ НАРКОТИКОВ

Целью данной работы являлась разработка математического аппарата, методик и алгоритмов построения математических моделей, предназначенных для анализа структуры, состояния и динамики наркомании для целей оперативного и перспективного анализа возможных тенденций её развития.

При этом решались следующие задачи: анализ структуры наркомании и выявление наиболее существенных факторов, влияющих на её уровень; моделирование наркомании; построение системы прогнозируемых показателей; анализ динамики наркомании и выявление тенденций её развития; прогнозирование конкретных и обобщённых показателей.

Проведённые исследования основаны на комплексном использовании методов факторного, корреляционного и регрессионного анализа, адаптивной идентификации и математического прогнозирования.

При этом анализ и прогнозирование системных показателей осуществлялись в несколько этапов.

Первый этап — разработка методики выбора формы связи в регрессионных и корреляционных моделях прогноза. Так как здесь в большинстве своём используется стохастический математический аппарат, этот этап приобретает большую значимость. Одной из предпосылок успешного выбора формы связи является проведение тщательного логико-математического анализа исследуемого процесса.

Второй этап — разработка методов оценки параметров уравнений связи. Эти методы должны оцениваться с точки зрения состоятельности, несмещённости и эффективности оценок, полученных при их помощи.

Третий этап — разработка прогнозирующего аппарата функций тренда и некоторых способов модификаций их траектории.

Функция тренда является простейшим математическим выражением развития социально-экономических процессов. Однако её использование в практике прогнозирования вполне оправдано в тех случаях, когда невозможно обосновать употребление более сложных конструкций прогнозирования или нецелесообразно использовать более сложные методы.

Четвёртый этап — разработка прогнозирующей регрессионной модели. Достоверность прогноза, полученного при помощи моделей прогнозирования, в большой степени зависит от устойчивости параметров регрессионного уравнения. Поэтому при прогнозировании социально-экономических процессов необходимо провести предварительное их исследование. Методологической основой построения системы моделей является список показателей и установление прямых и обратных связей между ними при построения системы прогнозируемых показателей.

Пятый этап — разработка специальных методов прогнозирования. К специальным методам прогнозирования будем относить: методы структурного прогнозирования; методы прогнозирования при помощи системы рекуррентных уравнений; авторегрессионные методы прогнозирования.

Для определения альтернативных возможностей изменения структуры социально-экономических процессов в прогнозируемом периоде применяются методы структурного прогнозирования, которые включают: анализ совокупности существующих структурных единиц исследуемого объекта и определение новых, пока ещё не существующих; анализ взаимосвязей между структурными единицами и определение возможностей совершенствования и роста исследуемого является при существующей его структуре; анализ возможных изменений во взаимосвязанных структурных единицах и выявление этих измерений на развитие исследуемого явления; прогнозирование тенденций развития существующих и возможных в прогнозируемом периоде структурных единиц, взаимосвязей и пропорций между ними (с использованием методов экстраполяции); окончательная балансировка структуры исследуемого явления.

АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ПОКАЗАТЕЛЕЙ НАРКОЛОГИЧЕСКОЙ СТАТИСТИКИ

Статистические показатели, характеризующие развитие наркомании, представляют собой наблюдения над некоторыми явлениями, характер которых меняется во времени, что порождает упорядоченную последовательность, называемую временным рядом. Теоретически такие измерения могут регистрироваться непрерывно, но в конкретном случае они осуществляются через равные промежутки времени и нумеруются аналогично выборке (объёма n): x = {x1, x2, … xn}. Полученный временной ряд является, таким образом, совокупностью наблюдений случайного процесса. Во временных рядах главный интерес представляет описание или моделирование их структуры.

В каждый момент времени (или временной интервал) t значение исследуемой величины, являющейся числовой характеристикой явления, может формироваться под совокупным воздействием большого числа факторов как случайного, так и неслучайного характера.

Изменение условий развития явления ведёт к ослаблению действия одних факторов и усилению других и в конечном счёте к варьированию изучаемого признака во времени. Характерным для временного ряда xt1, xt2, … xtn является то, что порядок в последовательности t1, t2, … tn существен для анализа, т. е. время выступает как один из определяющих факторов.

Главными целями проводимого анализа временных рядов являлись: выбор типа модели, оценка параметров и прогнозирование значений ряда. При этом, анализ временных рядов носил интерактивный характер: выбор следующего этапа основывался на полученных результатах, что позволило применять один и тот же метод к разным рядам или разным участкам одного ряда и исследовать с небольшими изменениями спецификации один и тот же ряд.

Исходя из вышесказанного, одной из важнейших задач анализа временных рядов показателей, характеризующих развитие наркомании, являлось выявление изменений в поведении ряда. В результате таких исследований могут быть выделены «неблагоприятные», с точки зрения сложившихся тенденций развития, периоды времени.

Для анализа поведения имеющихся временных рядов наиболее содержательным, на наш взгляд, представляется использование темпа роста, который характеризует отношение уровня последующего периода к предыдущему, и вычисляется как

.

Введём в рассмотрение величину , определяющую квадрат отклонения конкретных значений темпов роста от общего среднего. Сравнение полученных значений позволяет выявить периоды нарушения сложившихся тенденций развития. Приведены результаты такого анализа по основным показателям, характеризующим распространение изучаемых явлений в Украине в целом (табл. 1) и среди подростков (табл. 2). Периоды нарушения динамики выделены серой заливкой.

Соответствующий анализ основных социально-экономических и демографических показателей развития в «неблагоприятные» и «благоприятные» периоды времени может расширить понимание источников возникновения и развития наркомании как социально-экономического явления.

Таблица 1

Годы Наркомания Токсикомания Хронический алкоголизм
Болезненность Заболеваемость Болезненность Заболеваемость Болезненность Заболеваемость
1984 0,00906 0,02798 0,00470 0,02240 0,00063 0,00003
1985 0,07928 0,15850 0,00803 0,52804 0,02955 0,00004
1986 0,00675 0,06765 0,01613 4,39622 0,47889 0,01829
1987 0,00049 0,00406 0,01302 0,06594 0,13548 0,00566
1988 0,05232 0,22476 0,02052 0,19414 0,00007 0,03922
1989 0,00030 0,17834 0,03235 0,24195 0,00001 0,01134
1990 0,00145 0,00057 0,01875 0,00916 0,00002 0,01024
1991 0,00007 0,08276 0,01628 0,07094 0,00060 0,03402
1992 0,00000 0,00137 0,01495 0,05138 0,00150 0,00662
1993 0,01376 0,50109 0,01491 0,04162 0,00487 0,00170
1994 0,00346 0,01325 0,01336 0,00528 0,00458 0,00745
1995 0,00621 0,05175 0,01382 0,03076 0,00563 0,00778
1996 0,00032 0,00497 0,01579 0,02846 0,00808 0,01539
1997 0,00274 0,09118 0,01562 0,12577 0,00060 0,00295


Таблица 2

Годы Наркомания Токсикомания Хронический алкоголизм
Болезненность Заболеваемость Болезненность Заболеваемость Болезненность Заболеваемость
1984 0,01059 0,00309 0,00033 0,00057 0,05586 0,00057
1985 0,10209 0,07688 0,01074 0,02738 0,01627 0,22738
1986 0,00751 0,09424 0,03413 0,00846 0,07023 0,00846
1987 0,02812 0,01223 0,00000 0,11858 0,35586 0,00043
1988 0,21209 0,40679 0,00677 0,16815 0,01627 0,00008
1989 0,13817 0,12552 0,00856 0,11644 0,07023 0,02783
1990 0,00652 0,00243 0,00356 0,00037 0,00433 0,00665
1991 0,04527 0,11177 0,01470 0,18727 0,05571 0,07663
1992 0,04296 0,22592 0,09640 0,09470 0,01253 0,11586
1993 0,39636 0,37414 0,05020 0,00123 0,00346 0,03897
1994 0,00033 0,03879 0,03071 0,03163 0,01355 0,00255
1995 0,29011 0,28999 0,00525 0,00004 0,00884 0,12016
1996 0,03666 0,00025 0,01656 0,06131 0,01900 0,03550
1997 0,03543 0,05707 0,05664 0,94944 0,12141 0,06018

Характерной особенностью временных рядов рассматриваемых показателей является наличие в них трендов или основных тенденций, сложившихся под влиянием наиболее типичных воздействий. Такой временной ряд можно описать некоторой дискретной функцией времени, которую целесообразно представить в виде суммы некоторой детерминированной функции и случайной составляющей

n = 1, 2, 3, … ,

где детерминированная функция является трендом, а случайная функция ζ [n] отражает воздействие на формирование данного явления множества неучтённых факторов.

С теоретической точки зрения тренд процесса является результатом воздействия на его формирование основных закономерностей причинно-следственного характера, регулирующих данный аспект динамики изменения прогнозируемых показателей. Воздействие же прочих факторов самой разнообразной природы носит в основном стохастический характер и отражается случайной функцией ζ [n]. Однако следует помнить, что, поступая так, мы фактически постулируем модель. Возможно, целесообразно предположить, что тренд обусловлен наличием постоянных факторов, однообразно действующих приблизительно в одном и том же направлении, но то, что это так, и что эффекты от различных воздействующих факторов аддитивны, является предположением и имеет характер гипотезы, от которой мы всегда должны быть готовы отказаться, если наша модель плохо соответствует данным.

Существенным в понятии тренда является гладкость, что на практике означает желательность его представления непрерывной и дифференцируемой функцией времени. Это позволяет описать тренд полиномом с довольно высокой степенью точности. При таком описании, на первый план выходит анализ влияния предыстории на формирование конкретного значения изучаемого показателя.

ФОРМАЛИЗАЦИЯ ПОКАЗАТЕЛЕЙ НАРКОЛОГИЧЕСКОЙ СТАТИСТИКИ В УКРАИНЕ И В ХАРЬКОВСКОЙ ОБЛАСТИ

Медицинская статистика распространения наркологических заболеваний с точки зрения формирования базы данных представляет собой набор временных рядов объёма n = 30, охватывающих период с 1968 по 1997 гг. Основной характеристикой в ней является, так называемая, болезненность (распространяемость) — абсолютное количество лиц, стоящих на диспансерном учёте на конец года в пересчёте на 10 000 населения. Таким образом, мы фактически наблюдаем некоторую случайную дискретную величину ζ, характеризующую распространение того или иного заболевания наркологического типа. С учётом того, что эти наблюдения ведутся совместно с МВД Украины, то представленная база данных разбивается на подгруппы наблюдений, характеризующиеся качественными показателями. Так, в представленном материале можно выделить следующие социальные группы населения, среди которых наблюдалась распространяемость заболеваний наркологического типа. Характеристики этих групп выглядят следующим образом: 1) возраст — то есть распространение заболевания наблюдается среди лиц определённого возраста; 2) род занятий; 3) наблюдения производились с учётом наличия судимости у тех лиц, которые попали на диспансерный учёт.

Описанная выше классификация позволила нам охарактеризовать представленную базу данных, как наблюдения некоторой случайной величины ζ на фоне действия определённых факторов, каждый из которых характеризуется определённым числом уровней.

Нами были выделены следующие факторы:

1) «возраст» — база данных имеет 4 уровня: 14–17 лет, 18–24 года, 25–29 лет, более 30 лет; 2) «учёба» — база данных имеет три уровня: школьники, ПТУ и студенты вузов 1–2 уровня аккредитации, студенты вузов 3–4 уровня аккредитации; 3) «работа» — база данных имеет 3 уровня: рабочие, служащие, жители сельской местности; 4) «преступность» — база данных имеет 2 уровня: судим, не судим.

Введём обозначения:

ζ — случайная величина, характеризующая распространяемость заболевания наркологического типа среди всего населения; ζf1 — значение величины ζ, получаемое при действии фактора f1 — «возраст»; ζf2 — значение величины ζ, получаемое при действии фактора f2 — «учёба»; ζf3 — значение величины ζ, получаемое при действии фактора f3 — «работа»; ζf4 — значение величины ζ, получаемое при действии фактора f4 — «преступность»; ζijnm — значение величины ζ, наблюдаемое при i-м уровне f1, j-м уровне f2, n-м уровне f3 и m-м уровне f4.

Таким образом, мы приходим к ситуации, когда исходная база данных представляет собой реализации случайного вектора.

 = (ζ, ζ1f1, ζ2f1, ζ3f1, ζ4f1, ζ1f2, ζ2f2, ζ3f3, ζ1f3, ζ2f3, ζ3f3, ζ1f4, ζ2f4),

где – значение величины ζ, наблюдаемое при l-м уровне фактора fk , с одной стороны. С другой стороны имеется реализация случайного вектора , координаты которого представляют собой ζijnm (их 72). При этом подчеркнём некоторую принципиальную разницу между векторами и , которая будет влиять на методику их статистической обработки, вектор по каждой фиксированной координате имеет тридцать реализаций (период с 1968–1997 г.), по сути дела, представляющих собой частоту появления (вероятность) события А — заболевание индивидуумом болезнью наркологического типа, среди всего населения и в отдельно взятых группах населения. Появления события А фиксируется по каждому году по выборке объёма порядка 10 000, фактически в рамках известной схемы Бернулли. Это позволяет традиционными методами вести статистическую обработку экспериментальных данных с целью получения интересующих нас оценок (точечных и интервальных) неизвестных параметров как вектора , так и его координат, решать также задачу проверки гипотез о виде распределения координат вектора . Методика подобной обработки будет описана ниже. В результате это позволит сделать выводы качественного вида о степени распространённости заболеваний наркологического типа в рамках различных групп населения как результат наблюдений длительного периода. Вектор в отличие от представляет собой наблюдения за последний год очередного периода, однако, его координаты характеризуют влияния выделенных нами факторов и их уровней на среднее значение основной величины ζ в различных сочетаниях в виде аддитивной модели в рамках дисперсионного анализа, основная задача которого состоит в том, чтобы по результатам наблюдений выделить основные факторы, влияющие на то или иное явление или процесс. В результате такой статистической обработки, методика которой тоже будет описана ниже, мы сможем сделать вывод об основных причинах распространения наркологических заболеваний в настоящее время.

МЕТОДИКА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ. ОСНОВНЫЕ СООТНОШЕНИЯ

Частота как оценка вероятности

Пусть p — неизвестная вероятность интересующего нас события А, — частота этого события при n опытах, рассматриваемая как случайная величина — функция случайных результатов опытов. Тогда в силу произвольности ε и δ и принципа практической уверенности следует, что при достаточно большом числе опытов n отклонение частоты от вероятности, превосходящее по абсолютной величине произвольно малое наперед заданное число ε, можно считать невозможным событием. На этом основано использование частоты в качестве оценки вероятности события, чем мы и воспользовались в наших исследованиях.

Нами были построены доверительные интервалы для вероятности появления события А (напомним: событие А — заболевание болезнями наркологического типа). При этом мы считаем, что в силу большого объёма выборки распределение случайной величины = (p) / (q = 1 – p) стремится к нормальному распределению типа N (0, 1) при n. Построенные таким образом доверительные интервалы будут представлены ниже.

Оценки математического ожидания и ковариационной матрицы случайного вектора

Исходя из того, что естественной оценкой ковариации случайных величин η и γ ещё и несмещённой является оценка

   (1)

где {xk, yk} — реализации случайного вектора η, γ в n наблюдениях, а xв, yв — выборочные средние этих наблюдений, то оценка ковариационной матрицы kζ определяется следующей формулой (1)

   (2)

где – выборочное среднее вектора (это оценка его математического ожидания), а матрица S в качестве j-го столбца имеет реализации случайной величины ζ1 — j-ая координата вектора , Т вверху означает транспонирование. В нашем случае она имеет размеры nm, где n = 30 — количество наблюдений по годам и m = 13 — количество групп населения, в рамках которых проводились эти наблюдения. Ясно, что работа с матрицами такой высокой размерности весьма затруднительна, поэтому в реальных вычислениях мы упростим ситуацию путём отбрасывания некоторых групп. Подробнее на этом мы остановимся ниже. Заметим также, что в качестве оценки коэффициента корреляции rηγ попарных координат вектора мы брали известную точечную оценку вида

   (3)

Доверительные области для математического ожидания, ковариационной матрицы и попарных корреляционных моментов случайного вектора

Начнём с m — математического ожидания. Если обозначить числитель равенства (1) через матрицу В, т. е. В = STS – n, то имеем F-распределение

,

где Γ (t) — гамма функция. При этом функция

определяет доверительную область для mζ неравенством

,    (4)

где uu — верхняя 100 (1 – α) — процентная точка F-распределения fn, n-m, определяемая уравнением

   (5)

Далее заметим, что матрица В имеет распределение Уишарта, тогда доверительную область для (mζ, kζ) можно получить в виде

,    (6)

где εa, aa (Kζ), ba (Kζ) определяется из уравнений:

, .

Исходя из (6) и выборочного коэффициента корреляции (3) для двух координат вектора доверительный интервал для rηγ — корреляция будет иметь вид:

,    (7)

где при α = 0,95, εα = 1,96, th t — гиперболический тангенс.

Основные соотношения для обработки случайного вектора на базе дисперсионного анализа

Как уже отмечалось выше, вектор , по сути дела, представляет собой наблюдения случайной основной величины ζ на фоне влияния выделенных нами факторов и их уровней за последний период. При этом в нашем случае все выделенные факторы не имеют количественных характеристик. Мы можем их описать словесно, т. е. охарактеризовать группу населения, обладающую определёнными свойствами. Нам необходимо понять насколько зависит то или иное явление, в нашем случае, это распространённость заболеваний наркологического типа, от самих факторов так и от их сочетания. Методы решения подобных задач составляют содержание дисперсионного анализа и теории планирования экспериментов.

Основная задача дисперсионного анализа состоит в том, чтобы по результатам наблюдений некоторой случайной величины ζ оценить зависимость её математического ожидания от факторов, не поддающихся количественному описанию, и её дисперсию (ковариационную матрицу в случае случайной векторной величины ζ). Конкретные значения каждого вектора обычно называют уровнями этого фактора. Заметим, что в задачах дисперсионного анализа некоторые факторы могу допускать и количественную характеристику, но при этом опыты производятся только при нескольких фиксированных значениях этих факторов. Например, в нашей ситуации мы фиксируем количество заболеваний наркологического типа среди определённой группы населения, описание которой, допустим, выглядит: возраст от 18–24 (второй уровень первого фактора), учащиеся вузов 3–4 уровня аккредитации (третий уровень второго фактора), подрабатывающие в «фирмах» в качестве служащих (агентов) или социальное происхождение из служащих (второй уровень третьего фактора), ранее не судимых (второй уровень четвёртого фактора).

Продемонстрируем в общем, виде основную методику и соотношения дисперсионного анализа в рамках полного двухфакторного плана экспериментов, для простоты, поскольку основные формулы принципиально не меняются в случае полного N-факторного плана экспериментов, за исключением увеличения числа индексов, слагаемых и размерностей матриц.

Итак, пусть ζij — значение случайной величины ζ, получаемое при i-м уровне f1 и j-м уровне f2, где f1, f2 — действующие факторы (i =;j =). Допустим, Мζij представлено в виде

М ζ ij = a0 + a1i + a2j, , (8)

где a0 — общая для всех уровней обоих факторов часть математического ожидания величины ζ, a1i и a2j — части, обусловленные влиянием i-го уровня фактора f1 и j-го уровня фактора f2 соответственно. Задача построения модели в данном случае сводится к оцениванию величин a0, a1i (i =  и kζ по результатам наблюдений.

Заметим, что величины Мζij представляют собой значения функции

   (9)

k + l – 1 переменных, из которых х= 1 всегда, а остальные принимают одно из значений 0, 1, –1.

Таким образом, мы приходим к задаче линейного регрессионного анализа с моделью в виде функции (9). Тогда известно как выглядят формулы для оценок параметров a0, a1i, a2j и Kζ доверительных областей для них. Несмещённые оценки параметров a0, a1i и a2j имеют вид

   (10)

Несмещённая оценка ковариационной матрицы может быть записана как

.    (11)

Заметим, что в теории дисперсионного анализа докладывается, что точечные оценки (9) независимы и имеют распределение Уишарта. Это даёт возможность для нахождения доверительных областей для a1i и a2j, которые выглядят следующим образом

   (12)

где fa — верхняя 100 (1 – α) — процентная граница F-распределения f(k – 1), (k – 1) (l – 1) (u) и f (l – 1) (k – 1) (l – 1)(u) соответственно.

В заключение отметим, что области (12) дают возможность проверки гипотезы о равенстве нулю (а это фактически влияние определённого уровня некоторого фактора) величин a1i и a2j. Для этого достаточно установить, удовлетворяют эти значения соответствующему неравенству (12) или нет. В первом случае гипотеза принимается, во втором отвергается.

РЕЗУЛЬТАТЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ИСХОДНОЙ БАЗЫ ДАННЫХ

Способы представления базы данных

Статистической обработке были подвергнуты следующие массивы экспериментальных наблюдений.

Первый массив, представленный в табл. 3, есть количественные наблюдения распространённости заболевания наркологического типа по Украине в абсолютном пересчёте на 10 000 населения в период с 1968 года по 1997 год. Поскольку статистика параллельно велась и по линии МВД Украины, то второй массив представленный в табл. 4, есть количественные наблюдения заболеваний наркологического типа в Украине среди осуждённых за тот же период.

Наблюдения случайного вектора обрабатывались как покоординатно, так и в совокупности. Результаты этой обработки будут описаны ниже. Сейчас заметим, что особо нас интересовали точечные и интервальные оценки коэффициента корреляции rζ1ζ2 компонент вектора . Это и естественно, поскольку именно он характеризует степень зависимости случайных величин ζ1 и ζ2, а значит и явлений: распространения наркологических заболеваний среди населения и преступность.

Таблица 3

111,24 107,9 112,25 121,43 115,17 123,7
131,8 114,7 128,92 141,84 152,9 163,8
157,2 148,1 137,23 111,92 138,7 154,2
168,93 115,8 171,4 118,93 193,27 181,25
210,93 224,7 248,9 252,93 278,92 301,87


Таблица 4

131,19 116,71 119,1 142,4 136,73 159,8
124,71 135,4 128,93 172,9 161,81 182,73
192,9 201,2 184,3 152,41 211,8 207,35
211,03 194,52 221,8 231,2 197,15 251,81
243,15 251,8 261,93 301,19 312,3 324,41

В связи с этим данные таб. 3, 4 были нами трансформированы с целью получения оценок rζ1ζ2. В дальнейшем будем считать, что это выборка случайного вектора

Наконец, нами был проведён четырёхфакторный эксперимент при четырёх уровнях первого фактора, трёх — второго, и третьего и двух — четвёртого.

Результаты вычислений

Основной параметр — вероятность появления заболевания наркологического типа среди населения Украины, характеризующая степень распространения этого явления в обществе, нами была, согласно теоретическим результатам, оценена в виде частоты и эта оценка вместе с построенными доверительными интервалами при уровне значимости α = 0,95 представлена по годам (период 1968–1997 гг.) на рис. 1–2 (сплошные линии).

Вероятность появления заболевания наркологического
типа среди населения Украины

Рис. 1.

Границы доверительных интервалов для частот

Рис. 2. Границы доверительных интервалов для частот α — уровень значимости: α = 0,95

Так, например, из графиков видно, что в 1993 г. оценка  = 0,0224, а доверительный интервал для неё равен (0,0192:0,0235), причём покрывает он истинное значение вероятности с вероятностью 0,95. То есть в 1993 г. практически 2 человека из ста являлись официально зарегистрированными наркоманами. Эти же данные получены и для криминогенной группы (имеющие судимость) населения. Результаты этих расчётов, как в виде частот так и в виде доверительных интервалов тоже представлены на рис. 1–2 (пунктирные линии). Были также построены оценки математических ожиданий и дисперсий случайных величин ζ1 и ζ2 за весь период наблюдений в виде выборочных средних и, так называемых стандартов, несмещённых оценок дисперсии. Для ζ1, ζ2 были получены результаты:

X1B = 0,017123, S1 = 2,413·10–3, X2B = 0,02142, S2 = 2,19·10–3

Дисперсия частоты, как видно из вычислений во второй, криминогенной группе населения меньше чем среди всего населения, что говорит о более устойчивом характере распространения заболеваний наркологического типа среди этой группы.

Нас более интересует связь между такими явлениями как наркомания и преступность. На базе формул (1)–(3) были найдены оценки математических ожиданий, дисперсий, ковариации и коэффициента корреляции величин θ1 и θ2.

Выводы, которые можно сделать из полученных результатов заключаются в следующем: два явления — распространение наркомании и преступность существенно коррелируют между собой (т. е. связаны). Об этом свидетельствуют и выборочное значение коэффициента корреляции 0,68 значительно, отличающееся от 0 и доверительный интервал для этого коэффициента. При этом средний разброс (дисперсия) как совокупный, так и покоординатный говорит о более устойчивом характере распространения наркологических заболевании среди криминогенной группы населения.

Вообще, в целом, о влиянии различных факторов на распространение наркомании мы остановимся ниже, когда проанализируем результаты обработки многофакторного эксперимента, представленного в табл. 5.

Таблица 5

J 1 2 3
l K/j 1 2 3 4 1 2 3 4 1 2 3 4
1 1 3 10 9 8 24 9 9 3 2 8 9 8
2 4 12 3 9 22 7 16 2 2 2 7 2
3 5 10 5 8 23 9 17 3 2 8 6 3
2 1 2 14 9 13 29 16 11 3 2 7 5 3
2 7 11 5 8 28 18 10 6 6 6 5 9
3 9 10 27 8 28 16 11 7 8 9 8 15

Опишем физический смысл данных полного четырёхфакторного эксперимента, представленного в табл. 5.

В клетках этой таблицы стоят приближённые частоты появления заболеваний наркологического типа в пересчёте на 10 000 населения, наблюдаемые среди различных групп населения, которые описываются определёнными признаками (в нашей терминологии — факторами и их уровнями). Итак, мы проводили полный четырёхфакторный эксперимент:

факторы — «возраст», «учёба», «работа», «преступность»;

уровни факторов: «возраст» — 4 уровня: 14–17 лет, 18–24 года, 25–29 лет, свыше 30 лет; «учёба» — 3 уровня: школьники, студенты ПТУ и вузов 1–2 уровня аккредитации, студенты вузов 3–4 уровня аккредитации; «работа» — 3 уровня: рабочие, служащие, сельскохозяйственные работники; «преступность» — 2 уровня: ранее судимые, не судимые.

Сразу заметим, что даже беглый взгляд на результаты наблюдений, представленные в табл. 5, говорит о том, что максимальные значения частот соответствуют группам населения, обладающим признаками: возраст 14–17 лет, школьники или учащиеся ПТУ и вузов 1–2 уровня аккредитации, городские жители, а по отношению к «преступности», то незначительный перевес в группах ранее судимых или стоящих на учёте в детских комнатах милиции. Это говорит о значительном распространении наркомании среди подростков в настоящий период.

Однако перейдём к результатам обработки данных табл. 5 на базе соотношений и формул п. 4.4 с использованием программ MATHCAD.

Учитывая взаимодействия всех факторов по два и по три, строим модель вида

ijkl = a0 + a1i + a2j + a3k + a4l + a12ij + a13ik + a14il + a23jk + a24jl + a34kl + a123ijk + a124ijl + a134ikl + a234jkl, где a1i, …, a12ij, … , a123ijk ,… удовлетворяют условиям (10):

Число независимых параметров а0, a1i, …, a234jkl, … (i = 1, 2, 3, 4; i, k = 1, 2, 3; l = 1, 2) r = 72. оценки параметров определяются по формулам :

, xijkl — элементы табл. 6,

…,

… .

Суммы :

,

, ,

независимы и имеют χ2-распределения соответственно со следующим набором степеней свободы: С = 12, С1 = 3, С2 = С3 = 2, С4 = 1, С12 = С13 = 6, С14 = 3, С23 = 4, С24 = С34 = 2, С123 = С134 = 6 и С234 = 4.

Результаты вычислений.

  1. Оценки параметров а0, а1i, …, a234jkl: , а остальные представлены в табл. 7–9.
  2. Значения сумм S, S1,…,S234 при а1i == a234jkl = 0 и оценка дисперсии величины ζ: S = 151,02777; S1 = 229,04166; S2 = 722,69434; S3 = 55,1111; S4 = 141,68054; S12 = 1382,08325; S13 = 42; S14 = 18,81944; S23 = 13,13889; S24 = 6,02778; S34 = 40,777777; S123 = 140,75; S124 = 176,97221; S134 = 50,555; S234 = 62,63889;  = 151,02777/12 = 12,58566.
  3. Доверительные области для параметров а1i, …, a234jkl, соответствующие коэффициенту доверия α = 0,95:

    18 [(2,041 – a11)2 + (0,653 – a12)2 + (0,153 – a23)2 + (2,847 – a14)2] <

    12 [(0,861 – a3411)2 + (0,111 – a3421)2 + (0,972 – a3431)2 + (0,861 – a3412)2] + (0,11 – a3422)2 + (0,972 – a3432)2 <

  4. Проверка гипотез о независимости величины ζ от факторов.

    Нулевые значения параметров a3k, a13ik, a14il, a23jk, a24jl, a34kl, a123ijk, a124ijl, a134ikl, a234jkl попадают в соответствующие доверительные области (в этом легко убедиться, подставив полученные значения сумм S3, S13, S14, S23, S24, S34, S123, S134, S234 при нулевых значениях вышеперечисленных параметров в левые части неравенств, определяющих доверительные области). Поэтому можно принять гипотезу о независимости ζ от третьего фактора, взятого отдельно, и в комбинациях с любыми другими факторами и об аддитивной зависимости ζ от четвёртого фактора с первым и вторым. В результате можно принять упрощённую модель

    Мζijkl = a0 + a1i + a2j + a4j + a12ij. (II)

  5. При этом новая сумма S будет представлять собой сумму S3 + S13 + S14 + S23 + S24 + S34 + S123 + S134 и её χ2-распределение будет иметь 59 степеней свободы. Оценка дисперсии величины ζ будет равна = 12,84447, а доверительные области для параметров a1ia2ja4ja12ij определяются первенствами 18 [(2,041 – a11)2 + (0,653 – a12)2 + (0,153 – a13)2 + (2,847 – a14)2] <

Полученные результаты иллюстрируют известное в дисперсионном анализе положение о том, что более сложная модель может оказаться менее точной, чем простая, при данном объекте информации. В нашем случае простая модель (II) практически не хуже сложной модели (I) по точности, так как оценки дисперсии величины ζ у них практически одинаковы, а доверительные области для параметров у модели (II) даже несколько меньше, чем у модели (I).

ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ НАРКОЛОГИЧЕСКОЙ СТАТИСТИКИ

Наркологические показатели как объект прогнозирования

При вопросе о прогнозировании приходится всегда использовать понятие информации об объекте прогнозирования. Эта информация связана с поведением изучаемого объекта прогнозирования в прошлом и настоящем. Таким образом, ретроспективная информация (прошлый опыт) о прогнозируемом явлении является основой для прогнозирования.

Наркомания, как и любое социальное явление, формируется при воздействии многих факторов, однако выделить влияние каждого из них не представляется возможным, поэтому процесс прогнозирования рассматриваемых показателей может рассматриваться как функция времени. При таких условиях задачу прогнозирования следует понимать как экстраполяцию сложившихся во времени тенденций.

Нахождение закономерностей в поведении прогнозируемого объекта позволяет построить его математическую модель, которая вследствие явления изоморфизма позволяет исследовать реальные явления путём их математического моделирования. Заметим, что на выбор модели оказывают влияние цель и задачи прогнозирования, а также величина того интервала (времени, приращения какой-либо другой независимой переменной), на который производится прогнозирование.

С учётом вышесказанного, наркомания является сложным динамическим явлением, при моделировании и прогнозировании которого возникает ряд проблем: существенная нестационарность временных рядов показателей, характеризующих наркоманию, которая связана не только с нестационарностью параметров, но и с нестационарностью структуры явления (нестационарность структуры порождается качественными изменениями изучаемого явления); исходные ряды являются короткими, что не позволяет применить существующие математические методы, основанные на аппарате классической математической статистики; некорректность и неточность выходных данных.

При этом основные задачи, возникающие в процессе решения задачи прогнозирования состояния и развития наркомании, можно разделить на: анализ структуры явления и выявление наиболее существенных факторов, влияющих на её уровень; построение системы прогнозируемых показателей; разработку аппарата математического анализа прогнозируемых показателей; установление причинно-следственных связей между наркоманией и отображаемыми ею факторами; анализ динамики развития явления и выявление тенденций её развития; выявление основных закономерностей развития наркомании на основе характеристик этих тенденций; прогнозирование конкретных и обобщённых показателей и др.

Важнейшим этапом прогнозирования является выбор метода, который производится на основе анализа требований, предъявляемых к прогнозу. Любая динамическая система обладает той или иной степенью инерционности, что и служит основой прогнозирования, когда тенденции, сложившиеся в прошлом с определённой степенью уверенности переносятся на будущее. При этом инерционность может рассматриваться двояким образом: как инерционность сложившейся во времени тенденции развития и как инерционность сложившихся в пространстве взаимосвязей отдельных показателей. Поэтому в процессе решения задачи необходимо выделить в качестве прогнозируемых те показатели, которые обладают наибольшей инерционностью с учётом того, что набор этих показателей будет достаточно полным, чтобы всесторонне отражать динамику и состояние наркомании. При этом прогнозирование определяет тенденции будущего развития исследуемого явления при условии, что закономерности данного явления, сложившиеся в прошлом, будут существовать и в будущем.

При данном подходе задача прогнозирования решалась в три этапа: 1) подбор вида функции, описывающей модель (структурная идентификация прогнозирующей модели); 2) определение параметров функции (параметрическая идентификация прогнозирующей модели); 3) прогнозирование с помощью построенной модели.

Пусть динамику изменения рассматриваемых показателей можно описать вектором, заданным в форме дискретной последовательности X [n] = Φ (X [n–k], n, Φ, k), где X [n – k] — значение показателей на период n – k; n — текущий момент времени; k — объём предыстории; Φ — оператор, задающий структуру внутренних связей между выбранными показателями.

Тогда задача прогнозирования на основе временного ряда значений выбранного показателя может быть сформулирована как задача построения прогнозирующей модели (предиктора) вида где — прогнозируемая последовательность на период n + l; Φ — допуски прогноза; l — период упреждения; α — некоторый числовой параметр, определяющий свойства функции f (·), обеспечивающей выделение тренда. При этом тренд рассматривается как полезная составляющая ряда, а всё остальное может быть отнесено к помехам.

Кроме того, т. к. исходная информация представлена в виде временных рядов соответствующих показателей, были введены процедуры адаптивной настройки коэффициентов независимо от используемой структуры. Данные процедуры позволяют в большинстве случаев резко повысить точность предсказания.

Описание прогнозирующих моделей

Использованный подход основан на экстраполяции основных тенденций развития процесса во времени. Под влиянием различных факторов эти тенденции постоянно изменяются и те события, которые имели место некоторое время тому назад, вряд ли окажут существенное влияние на динамику изменения изучаемого показателя. В таких условиях классические статистические методы, предполагающие неизменность тенденций за исследуемый период, оказываются не гибкими, так как методы оценки коэффициентов модели, использующие всю априорную информацию с одинаковым весом, не могут обеспечить эффективную оценку детерминированной основы процесса изменения процесса.

В этих условиях целесообразнее применение так называемых дисконтированных методов. При этом каждому наблюдению присваивается свой вес, в результате чего в процессе нахождения коэффициентов тренда минимизируется критерий

, где k = 1, 2, …, ; j = 0, … , n – 1.

Наиболее эффективным методом является метод экспоненциального сглаживания. Основная идея метода заключается в том, что по данным ряда показателя x [n], k = 1, 2, …, n требуется составить прогноз на моменты времени n + l таким образом, чтобы более поздним наблюдениям присваивались бы большие веса по сравнению с более ранними наблюдениями. Экспоненциальное сглаживание позволяет произвести оценку коэффициентов полиномиального предиктора путём минимизации критерия по Φj (где Φj — коэффициенты прогнозирующей модели), который эквивалентен критерию минимума взвешенной суммы квадратов.

Прогноз во всех случаях получают согласно выражению

При работе со значениями показателей, представленных временными рядами, были использованы рекуррентные оценки коэффициентов прогнозирующей модели (предиктора), имеющие вид

и прогнозы ;

для линейной и параболической модели соответственно. Всё вышесказанное может быть использовано для прогнозирования показателей с полиномиальными трендами.

Полиномиальные предикторы, построенные с применением методов наименьших квадратов и экспоненциального сглаживания, дают приемлемые прогнозы временных рядов в том случае, если колебания этих рядов незначительны. При прогнозировании показателей, характеризующих наркоманию, нам приходится иметь дело с сильно колеблющимися временными рядами. При использовании полиномиальных предикторов для сильно колеблющихся рядов сглаживаются колебания, учёт которых может быть необходим для правильного принятия решений. В таких ситуациях для прогнозирования целесообразно применять методы, в которых прогноз ведётся не изолировано по тренду и случайной компоненте, а в рамках объединённой АРПСС-модели.

Исходной информацией для построения предиктора служат средние значения ряда, его дисперсия и автокорреляционная. Увязка моделей с данными достигалась процедурой, основанной на структурной идентификации и оценивании (параметрической идентификации).

Уравнение использованной прогнозирующей модели может быть записано в виде .

Оптимальные оценки коэффициентов модели находились решением системы алгебраических уравнений

где Сi — соответствующие автоковариации.

Результаты вычислений

Описанные алгоритмы были использованы для прогнозирования основных показателей наркологической статистики, характеризующих рассматриваемое явление в Украине и Харьковской области. Прогноз осуществлялся на период до 2003 г. На рис. 3–4 представлена динамика фактических значений показателей и процесс прогнозирования данных показателей с использованием метода экспоненциального сглаживания и АРПСС модели. Значения полученных прогнозов приведены в табл. 6.

Прогноз динамики наркомании (заболеваемость) в Харьковской области

Рис. 3. Прогноз динамики наркомании (заболеваемость) в Харьковской области

Прогноз динамики наркомании (заболеваемость) в Украине

Рис. 4. Прогноз динамики наркомании (заболеваемость) в Украине

Таблица 6

Показатели Прогноз на 2003 год
Экспоненциальное сглаживание АРПСС
Украина (заболеваемость)
Наркомания: всего случаев 11850 12100
Подростки 579 570
Токсикомания: всего случаев 251 253
Хронический алкоголизм: всего 53698 53780
Украина (болезненность)
Наркомания: всего случаев 77820 77654
Подростки 810 803
Токсикомания: всего случаев 997 982
Хронический алкоголизм: всего 738919 746513

Харьковская область (заболеваемость)

Наркомания: всего случаев 410 402
Из них: подростки 29 28
Токсикомания: всего случаев 39 37
Хронический алкоголизм: всего 4100 4029
Харьковская область (болезненность)
Наркомания: всего случаев 1792 1780
Из них: подростки 24 24
Токсикомания: всего случаев 43 44
Хронический алкоголизм: всего 54800 54450

Как следует из графиков, процесс прогнозирования характеризуется периодом обучения со значительными ошибками прогноза и периодом слежения за динамикой изучаемого явления, когда прогнозы мало отличаются от фактических значений показателей. Приведённые результаты свидетельствуют о том, что предложенные алгоритмы позволяют отслеживать динамику основных показателей, характеризующих развитие наркомании, и осуществлять их прогнозирование на заданный интервал.

ВЫВОДЫ И РЕКОМЕНДАЦИИ

  1. Анализ временных рядов показателей наркологической статистики указывает на существование устойчивых тенденций (трендов) развития рассматриваемых процессов.
  2. В процессе анализа показателей динамики были выявлены временные интервалы, характеризующиеся нарушением общих тенденций развития. Представляется целесообразным сравнительный анализ социально-экономических и демографических показателей за данные периоды с целью выявления причин формирования и распространения наркомании.
  3. В результате проведения статистической обработки существующих данных можно сделать следующие выводы о тенденциях, которые характерны для распространения наркологических заболеваний в Украине.

    Первое: как показывают временные графики 1, 2 частот распространённости, уровень наркомании в Украине непрерывно растёт, причём этот рост обладает свойствами тренда, т. е. довольно устойчив. При этом в криминогенной группе населения этот уровень выше, что свидетельствует о существенной взаимной связи двух явлений: наркомании и преступности. Некоторое снижение частоты, наблюдающееся в период с 1986–1991 гг. скорее можно объяснить недостатками учёта наркологических заболеваний, чем их отсутствием.

    Второе: Многофакторный анализ показал, что в последний период справедлива модель (II), которая характеризует такой фактор как «работа» или «социальное положение» как несущественный т. е. наркомании подвержены все слои населения. В свою очередь, в соответствии с моделью, наряду с преступностью в качестве существенных факторов выступает «возраст» и «учёба», причём существенное влияние оказывает сочетание этих факторов. Чуть ли не максимальное распространение наркомании мы наблюдаем среди подростков, учащихся школ и вузов. При этом мы видим, что модель не содержит сочетаний этих факторов с «преступностью» как существенных. Это означает, что среди учащейся молодёжи, так называемые «преступные наклонности» и наркомания не взаимосвязанные друг с другом явления. Таким образом высокий уровень распространения заболеваний наркологического типа в молодёжной, учащейся среде охватил вполне благополучные слои населения.

  4. Прогнозирование на период до 2003 г. основных показателей наркологической статистики указывает на существование тенденции роста количественных значений данных показателей в Харьковской области и Украине в целом.

Рекомендации. Основная рекомендация относится к сбору экспериментальной информации. Как и в медицинских учреждениях, так и по линии МВД Украины сбор информации (учёт заболевании наркологического типа и их распространённость) должен носить систематический и однородный характер. Это подразумевает, что выделенные показатели должны наблюдаться постоянно и одновременно. Недопустимо, когда в определённые периоды, наблюдения одних показателей отсутствуют (что характерно для предложенного к обработке материала). Это искажает общую картину, сказывается на качестве и точности последующей математической обработки, что в конечном итоге приводит к неправильным оценкам и общим выводам.



© «Новости украинской психиатрии», 2002
Редакция сайта: editor@psychiatry.ua
ISSN 1990–5211