Доверителни интервали за честоти и пропорции. Доверителен интервал. Вероятност за доверие Защо е необходим интервал на доверие

Изчисляването на доверителния интервал се основава на средната грешка на съответния параметър. Доверителен интервал показва в какви граници с вероятност (1-а) е истинската стойност на оценявания параметър. Тук a е нивото на значимост, (1-a) се нарича още ниво на доверие.

В първата глава показахме, че например за средноаритметичната стойност истинската средна стойност на съвкупността се намира в рамките на 2 средни грешки на средната стойност около 95% от времето. По този начин границите на 95% доверителен интервал за средната стойност ще бъдат от средната стойност на извадката с удвоената средна грешка на средната стойност, т.е. ние умножаваме средната грешка на средната стойност по някакъв фактор, който зависи от нивото на достоверност. За средна и разлика на средните стойности се приема коефициентът на Стюдънт (критичната стойност на критерия на Стюдънт), за делът и разликата на дяловете – критичната стойност на критерия z. Продуктът на коефициента и средната грешка може да се нарече пределна грешка на този параметър, т.е. максимумът, който можем да получим, когато го оценяваме.

Доверителен интервал за средноаритметично : .

Ето примерната средна стойност;

Средна грешка на средноаритметичната стойност;

с-извадково стандартно отклонение;

н

f = n-1 (Коефициент на ученика).

Доверителен интервал за разлика на средните аритметични стойности :

Тук е разликата между извадковите средни стойности;

- средната грешка на разликата на средните аритметични;

s 1, s 2 -извадкови стандартни отклонения;

n1,n2

Критична стойност на критерия на Стюдънт за дадено ниво на значимост а и брой степени на свобода f=n1 +n2-2 (Коефициент на ученика).

Доверителен интервал за акции :

.

Тук d е извадковият дял;

– грешка на средния дял;

н– размер на извадката (размер на групата);

Доверителен интервал за споделят различия :

Ето разликата между примерните дялове;

е средната грешка на разликата между средните аритметични стойности;

n1,n2– размери на извадката (брой групи);

Критичната стойност на критерия z при дадено ниво на значимост a ( , , ).

Изчислявайки доверителните интервали за разликата в показателите, ние, първо, директно виждаме възможните стойности на ефекта, а не само неговата точкова оценка. Второ, можем да направим заключение относно приемането или опровергаването на нулевата хипотеза и, трето, можем да направим заключение относно силата на критерия.

При тестване на хипотези с помощта на доверителни интервали трябва да се спазва следното правило:

Ако 100(1-a)-процентният доверителен интервал на средната разлика не съдържа нула, тогава разликите са статистически значими на ниво на значимост a; напротив, ако този интервал съдържа нула, тогава разликите не са статистически значими.

Всъщност, ако този интервал съдържа нула, това означава, че сравняваният показател може да бъде повече или по-малко в една от групите в сравнение с другата, т.е. наблюдаваните разлики са случайни.

По мястото, където се намира нулата в рамките на доверителния интервал, може да се прецени силата на критерия. Ако нулата е близо до долната или горната граница на интервала, тогава може би с по-голям брой сравнявани групи разликите ще достигнат статистическа значимост. Ако нулата е близо до средата на интервала, това означава, че както увеличението, така и намаляването на показателя в експерименталната група са еднакво вероятни и вероятно наистина няма разлики.

Примери:

За да сравните хирургическата смъртност при използване на два различни вида анестезия: 61 души са били оперирани с първия вид анестезия, 8 са починали, с помощта на втория - 67 души, 10 са починали.

d 1 \u003d 8/61 \u003d 0,131; d 2 \u003d 10/67 \u003d 0,149; d1-d2 = - 0,018.

Разликата в леталността на сравняваните методи ще бъде в диапазона (-0,018 - 0,122; -0,018 + 0,122) или (-0,14; 0,104) с вероятност 100(1-a) = 95%. Интервалът съдържа нула, т.е. не може да се отхвърли хипотезата за една и съща леталност при два различни типа анестезия.

По този начин смъртността може и ще намалее до 14% и ще се увеличи до 10,4% с вероятност от 95%, т.е. нула е приблизително в средата на интервала, така че може да се твърди, че най-вероятно тези два метода наистина не се различават по смъртност.

В примера, разгледан по-рано, средното време за докосване беше сравнено в четири групи студенти, които се различаваха по своите резултати от изпитите. Нека изчислим доверителните интервали на средното време за пресоване за студенти, които са издържали изпита за 2 и 5 и доверителния интервал за разликата между тези средни стойности.

Коефициентите на Стюдънт се намират от таблиците на разпределението на Стюдънт (виж Приложението): за първа група: = t(0,05;48) = 2,011; за втората група: = t(0,05;61) = 2,000. Така доверителните интервали за първата група: = (162,19-2,011 * 2,18; 162,19 + 2,011 * 2,18) = (157,8; 166,6) , за втората група (156,55- 2,000*1,88; 156,55+2,000*1,88) = (152,8 ; 160.3). И така, за тези, които са издържали изпита за 2, средното време за натискане варира от 157,8 ms до 166,6 ms с вероятност от 95%, за тези, които са издържали изпита за 5 - от 152,8 ms до 160,3 ms с вероятност от 95% .

Можете също така да тествате нулевата хипотеза, като използвате доверителни интервали за средните стойности, а не само за разликата в средните стойности. Например, както в нашия случай, ако доверителните интервали за средните се припокриват, тогава нулевата хипотеза не може да бъде отхвърлена. За да се отхвърли хипотеза при избрано ниво на значимост, съответните доверителни интервали не трябва да се припокриват.

Да намерим доверителния интервал за разликата в средното време за натискане в групите, издържали изпита за 2 и 5. Разликата в средните: 162.19 - 156.55 = 5.64. Коефициент на студент: \u003d t (0,05; 49 + 62-2) \u003d t (0,05; 109) \u003d 1,982. Груповите стандартни отклонения ще бъдат равни на: ; . Изчисляваме средната грешка на разликата между средните: . Доверителен интервал: \u003d (5,64-1,982 * 2,87; 5,64 + 1,982 * 2,87) \u003d (-0,044; 11,33).

Така че разликата в средното време на пресоване в групите, издържали изпита на 2 и на 5, ще бъде в диапазона от -0,044 ms до 11,33 ms. Този интервал включва нула, т.е. средното време за пресоване за тези, които са издържали изпита с отличен резултат, може както да се увеличи, така и да се намали в сравнение с тези, които са издържали изпита незадоволително, т.е. нулевата хипотеза не може да бъде отхвърлена. Но нулата е много близо до долната граница, времето за натискане е много по-вероятно да намалее за отличните подаващи. По този начин можем да заключим, че все още има разлики в средното време на щракване между тези, които са преминали с 2 и с 5, просто не можахме да ги открием за дадена промяна в средното време, разпространението на средното време и размерите на извадката.

Силата на теста е вероятността за отхвърляне на неправилна нулева хипотеза, т.е. намерете разликите там, където наистина са.

Силата на теста се определя въз основа на нивото на значимост, големината на разликите между групите, разпространението на стойностите в групите и размера на извадката.

За t-теста на Стюдънт и анализа на дисперсията можете да използвате диаграми на чувствителността.

Силата на критерия може да се използва при предварителното определяне на необходимия брой групи.

Доверителният интервал показва в какви граници се намира истинската стойност на оценения параметър с дадена вероятност.

С помощта на доверителни интервали можете да тествате статистически хипотези и да правите заключения относно чувствителността на критериите.

ЛИТЕРАТУРА.

Гланц С. - Глава 6.7.

Реброва О.Ю. - с.112-114, с.171-173, с.234-238.

Сидоренко Е. В. - стр. 32-33.

Въпроси за самопроверка на учениците.

1. Каква е силата на критерия?

2. В какви случаи е необходимо да се оцени силата на критериите?

3. Методи за изчисляване на мощността.

6. Как да тестваме статистическа хипотеза с помощта на доверителен интервал?

7. Какво може да се каже за силата на критерия при изчисляване на доверителния интервал?

Задачи.

Доверителен интервал(CI; на английски, доверителен интервал - CI), получен в изследването на извадката, дава мярка за точността (или несигурността) на резултатите от изследването, за да се направят заключения относно популацията на всички такива пациенти (обща популация ). Правилното определение на 95% CI може да се формулира по следния начин: 95% от тези интервали ще съдържат истинската стойност в популацията. Тази интерпретация е малко по-малко точна: CI е диапазонът от стойности, в рамките на който можете да сте 95% сигурни, че съдържа истинската стойност. При използване на CI акцентът е върху определянето на количествения ефект, за разлика от P стойността, която се получава в резултат на тестване за статистическа значимост. P стойността не оценява никаква сума, а по-скоро служи като мярка за силата на доказателствата срещу нулевата хипотеза за „без ефект“. Стойността на P сама по себе си не ни казва нищо за големината на разликата или дори за нейната посока. Следователно независимите стойности на P са абсолютно неинформативни в статии или резюмета. За разлика от това, CI показва както количеството на ефекта от непосредствен интерес, като полезността на лечението, така и силата на доказателствата. Следователно DI е пряко свързан с практиката на DM.

Подходът за оценка на статистическия анализ, илюстриран от CI, има за цел да измери величината на ефекта от интерес (чувствителност на диагностичния тест, прогнозирана честота, намаляване на относителния риск с лечение и т.н.) и да измери несигурността в този ефект. Най-често CI е диапазонът от стойности от двете страни на оценката, в които е вероятно да се крие истинската стойност, и можете да сте 95% сигурни в това. Конвенцията за използване на 95% вероятност е произволна, както и стойността на P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI се основава на идеята, че едно и също проучване, проведено върху различни групи пациенти, няма да доведе до идентични резултати, но че техните резултати ще бъдат разпределени около истинската, но неизвестна стойност. С други думи, CI описва това като „зависима от пробата променливост“. CI не отразява допълнителна несигурност поради други причини; по-специално, не включва ефектите от селективна загуба на пациенти върху проследяването, лошо съответствие или неточно измерване на резултатите, липса на заслепяване и др. По този начин CI винаги подценява общото количество несигурност.

Изчисляване на доверителния интервал

Таблица A1.1. Стандартни грешки и доверителни интервали за някои клинични измервания

Обикновено CI се изчислява от наблюдавана оценка на количествена мярка, като разликата (d) между две пропорции и стандартната грешка (SE) в оценката на тази разлика. Така полученият приблизително 95% CI е d ± 1,96 SE. Формулата се променя според естеството на мярката за резултат и обхвата на CI. Например, в рандомизирано плацебо-контролирано проучване на ацелуларна ваксина срещу коклюш, магарешка кашлица се е развила при 72 от 1670 (4,3%) бебета, които са получили ваксината, и 240 от 1665 (14,4%) в контролната група. Процентната разлика, известна като намаляване на абсолютния риск, е 10,1%. SE на тази разлика е 0,99%. Съответно 95% CI е 10,1% + 1,96 x 0,99%, т.е. от 8.2 до 12.0.

Въпреки различните философски подходи, CI и тестовете за статистическа значимост са тясно свързани математически.

По този начин стойността на P е „значима“, т.е. Р<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Несигурността (неточността) на оценката, изразена в CI, до голяма степен е свързана с корен квадратен от размера на извадката. Малките проби предоставят по-малко информация от големите проби и CI съответно са по-широки в по-малките проби. Например, статия, сравняваща ефективността на три теста, използвани за диагностициране на инфекция с Helicobacter pylori, съобщава за чувствителност на дихателния тест с урея от 95,8% (95% CI 75-100). Въпреки че цифрата от 95,8% изглежда впечатляваща, малкият размер на извадката от 24 възрастни пациенти с H. pylori означава, че има значителна несигурност в тази оценка, както се вижда от широкия CI. Наистина долната граница от 75% е много по-ниска от оценката от 95,8%. Ако същата чувствителност се наблюдава в извадка от 240 души, тогава 95% CI ще бъде 92,5-98,0, което дава повече сигурност, че тестът е силно чувствителен.

В рандомизирани контролирани проучвания (RCT) незначимите резултати (т.е. тези с P > 0,05) са особено податливи на погрешно тълкуване. CI е особено полезен тук, тъй като показва колко съвместими са резултатите с клинично полезния истински ефект. Например, в RCT, сравняващ шев спрямо анастомоза със скоби в дебелото черво, инфекция на раната се е развила съответно при 10,9% и 13,5% от пациентите (P = 0,30). 95% CI за тази разлика е 2,6% (-2 до +8). Дори в това проучване, което включва 652 пациенти, остава вероятно да има скромна разлика в честотата на инфекциите в резултат на двете процедури. Колкото по-малко е изследването, толкова по-голяма е несигурността. Sung и др. извърши RCT, сравняващ инфузия на октреотид с спешна склеротерапия за остро варикозно кървене при 100 пациенти. В групата на октреотид процентът на спиране на кървенето е 84%; в групата на склеротерапията - 90%, което дава Р = 0,56. Имайте предвид, че честотата на продължаващо кървене е подобна на тази при инфекция на раната в споменатото проучване. В този случай обаче 95% CI за разлика в интервенциите е 6% (-7 до +19). Този диапазон е доста широк в сравнение с 5% разлика, която би представлявала клиничен интерес. Ясно е, че проучването не изключва значителна разлика в ефикасността. Следователно заключението на авторите "инфузията на октреотид и склеротерапията са еднакво ефективни при лечението на кървене от варици" определено не е валидно. В случаи като този, когато 95% CI за абсолютно намаляване на риска (ARR) включва нула, както тук, CI за NNT (брой, необходим за лечение) е доста труден за тълкуване. NLP и неговият CI се получават от реципрочните стойности на ACP (умножавайки ги по 100, ако тези стойности са дадени като проценти). Тук получаваме NPP = 100: 6 = 16,6 с 95% CI от -14,3 до 5,3. Както се вижда от бележката под линия „г“ в табл. A1.1, този CI включва стойности за NTPP от 5.3 до безкрайност и NTLP от 14.3 до безкрайност.

CI могат да бъдат конструирани за най-често използваните статистически оценки или сравнения. За RCT включва разликата между средните пропорции, относителните рискове, съотношенията на шансовете и NRR. По същия начин CI могат да бъдат получени за всички основни оценки, направени в проучвания на точността на диагностичните тестове - чувствителност, специфичност, положителна прогнозна стойност (всички от които са прости пропорции) и съотношения на вероятността - оценки, получени в мета-анализи и сравнение с контрола проучвания. Програма за персонален компютър, която обхваща много от тези употреби на DI, е достъпна с второто издание на Statistics with Confidence. Макросите за изчисляване на CI за пропорции са свободно достъпни за Excel и статистическите програми SPSS и Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Множество оценки на ефекта от лечението

Въпреки че изграждането на CI е желателно за първичните резултати от проучването, те не са необходими за всички резултати. CI се отнася до клинично важни сравнения. Например, когато сравнявате две групи, правилният CI е този, който е изграден за разликата между групите, както е показано в примерите по-горе, а не CI, който може да бъде изграден за оценката във всяка група. Не само, че е безполезно да се дават отделни CI за резултатите във всяка група, това представяне може да бъде подвеждащо. По подобен начин, правилният подход при сравняване на ефикасността на лечението в различни подгрупи е директното сравняване на две (или повече) подгрупи. Неправилно е да се приеме, че лечението е ефективно само в една подгрупа, ако нейният CI изключва стойността, съответстваща на липса на ефект, докато други не. CI също са полезни при сравняване на резултати в множество подгрупи. На фиг. A1.1 показва относителния риск от еклампсия при жени с прееклампсия в подгрупи жени от плацебо-контролирано RCT на магнезиев сулфат.

Ориз. A1.2. Forest Graph показва резултатите от 11 рандомизирани клинични изпитвания на ваксина срещу ротавирус по говеда за превенция на диария спрямо плацебо. 95% доверителен интервал е използван за оценка на относителния риск от диария. Размерът на черния квадрат е пропорционален на количеството информация. Освен това са показани обобщена оценка на ефикасността на лечението и 95% доверителен интервал (обозначен с ромб). Метаанализът използва модел на произволни ефекти, който надхвърля някои предварително установени; например това може да е размерът, използван при изчисляване на размера на извадката. Съгласно по-строг критерий, цялата гама от CI трябва да показва полза, която надвишава предварително определен минимум.

Вече обсъдихме грешката да се приема липсата на статистическа значимост като индикация, че две лечения са еднакво ефективни. Също толкова важно е да не се приравнява статистическата значимост с клиничната значимост. Клинично значение може да се приеме, когато резултатът е статистически значим и степента на отговора на лечението

Проучванията могат да покажат дали резултатите са статистически значими и кои са клинично важни и кои не. На фиг. A1.2 показва резултатите от четири опита, за които целият CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

В статистиката има два вида оценки: точкови и интервални. Точкова оценкае единична примерна статистика, която се използва за оценка на параметър на популацията. Например средната стойност на извадката е точкова оценка на средната стойност на популацията и дисперсията на извадката S2- точкова оценка на дисперсията на популацията σ2. беше показано, че средната стойност на извадката е безпристрастна оценка на очакванията на населението. Средната стойност на извадката се нарича безпристрастна, защото средната стойност на всички средни стойности на извадката (с еднакъв размер на извадката н) е равно на математическото очакване на генералната съвкупност.

За да може пробата да варира S2се превърна в безпристрастен оценител на дисперсията на популацията σ2, знаменателят на дисперсията на извадката трябва да бъде равен на н – 1 , но не н. С други думи, дисперсията на съвкупността е средната стойност на всички възможни дисперсии на извадката.

Когато се оценяват параметрите на популацията, трябва да се има предвид, че извадкови статистики като напр , зависят от конкретни проби. Да се ​​вземе предвид този факт, да се получи интервална оценкаматематическото очакване на генералната съвкупност анализира разпределението на извадковите средни стойности (за повече подробности вижте). Конструираният интервал се характеризира с определено ниво на достоверност, което е вероятността истинският параметър на генералната съвкупност да бъде оценен правилно. Подобни доверителни интервали могат да се използват за оценка на дела на характеристика Ри основната разпределена маса от общата съвкупност.

Изтеглете бележка в или формат, примери във формат

Конструиране на доверителен интервал за математическото очакване на генералната съвкупност с известно стандартно отклонение

Изграждане на доверителен интервал за съотношението на черта в общата популация

В този раздел концепцията за доверителен интервал е разширена до категорични данни. Това ви позволява да оцените дела на чертата в общата популация Рс примерен дял РС= X/н. Както споменахме, ако стойностите нРи н(1 - p)надвишава числото 5, биномното разпределение може да се апроксимира с нормалното. Следователно, за да се оцени делът на дадена черта в общата съвкупност Рвъзможно е да се конструира интервал, чието ниво на достоверност е равно на (1 - α)x100%.


където стрС- примерен дял на признака, равен на Х/н, т.е. броят на успехите, разделен на размера на извадката, Р- делът на признака в общата популация, Зе критичната стойност на стандартизираното нормално разпределение, н- размер на извадката.

Пример 3Да приемем, че от информационната система е извлечена извадка, състояща се от 100 фактури, попълнени през последния месец. Да приемем, че 10 от тези фактури са неправилни. По този начин, Р= 10/100 = 0,1. Нивото на достоверност от 95% съответства на критичната стойност Z = 1,96.

По този начин има 95% вероятност между 4,12% и 15,88% от фактурите да съдържат грешки.

За даден размер на извадката доверителният интервал, съдържащ съотношението на признака в общата популация, изглежда по-широк, отколкото за непрекъсната случайна променлива. Това е така, защото измерванията на непрекъсната случайна променлива съдържат повече информация, отколкото измерванията на категорични данни. С други думи, категоричните данни, които приемат само две стойности, не съдържат достатъчно информация за оценка на параметрите на тяхното разпределение.

ATизчисляване на оценки, извлечени от ограничена популация

Оценка на математическото очакване.Корекционен фактор за крайната популация ( fpc) се използва за намаляване на стандартната грешка с коефициент . При изчисляване на доверителните интервали за оценките на параметрите на популацията се прилага корекционен фактор в ситуации, при които се вземат проби без замяна. По този начин доверителният интервал за математическото очакване, имащ ниво на достоверност, равно на (1 - α)x100%, се изчислява по формулата:

Пример 4За да илюстрираме прилагането на корекционен коефициент за ограничена съвкупност, нека се върнем към проблема за изчисляване на доверителния интервал за средната сума на фактурите, обсъдени по-горе в Пример 3. Да предположим, че една компания издава 5000 фактури на месец и Х=110,27 USD, С= $28,95 н = 5000, н = 100, α = 0,05, t99 = 1,9842. По формула (6) получаваме:

Оценка на дела на характеристиката.Когато изберете без връщане, доверителният интервал за частта от характеристиката, която има ниво на достоверност, равно на (1 - α)x100%, се изчислява по формулата:

Доверителни интервали и етични проблеми

Когато се взема извадка от популация и се формулират статистически заключения, често възникват етични проблеми. Основният е как се съгласуват доверителните интервали и точковите оценки на извадковите статистики. Публикуването на приблизителни точки без уточняване на подходящите доверителни интервали (обикновено при 95% нива на доверителност) и размера на извадката, от който те са получени, може да бъде подвеждащо. Това може да създаде у потребителя впечатлението, че точковата оценка е точно това, от което се нуждае, за да предвиди свойствата на цялата популация. Следователно е необходимо да се разбере, че във всяко изследване на преден план трябва да се поставят не точкови, а интервални оценки. Освен това трябва да се обърне специално внимание на правилния избор на размери на пробите.

Най-често обект на статистически манипулации са резултатите от социологически проучвания на населението по различни политически въпроси. В същото време резултатите от проучването се публикуват на първите страници на вестниците, а грешката на извадката и методологията на статистическия анализ се отпечатват някъде по средата. За доказване на валидността на получените точкови оценки е необходимо да се посочи размерът на извадката, въз основа на която са получени, границите на доверителния интервал и нивото на неговата значимост.

Следваща бележка

Използвани са материали от книгата Левин и др.Статистика за мениджъри. - М.: Уилямс, 2004. - стр. 448–462

Централна гранична теоремазаявява, че при достатъчно голям размер на извадката, извадковото разпределение на средните стойности може да бъде приблизително с нормално разпределение. Това свойство не зависи от типа разпределение на населението.

ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ЧЕСТОТИ И ЧАСТИ

© 2008

Национален институт по обществено здраве, Осло, Норвегия

Статията описва и обсъжда изчисляването на доверителните интервали за честоти и пропорции с помощта на методите на Wald, Wilson, Klopper-Pearson, използвайки ъгловата трансформация и метода на Wald с корекция на Agresti-Cowll. Представеният материал предоставя обща информация за методите за изчисляване на доверителни интервали за честоти и пропорции и има за цел да предизвика интереса на читателите на списанието не само към използването на доверителни интервали при представяне на резултатите от собствените си изследвания, но и към четене на специализирана литература, преди да започнат работа върху бъдещи публикации.

Ключови думи: доверителен интервал, честота, пропорция

В една от предишните публикации накратко беше споменато описанието на качествените данни и беше съобщено, че тяхната интервална оценка е за предпочитане пред точковата оценка за описание на честотата на поява на изследваната характеристика в общата популация. В действителност, тъй като проучванията се провеждат с използване на извадкови данни, проекцията на резултатите върху общата популация трябва да съдържа елемент на неточност в извадковата оценка. Доверителният интервал е мярка за точността на изчисления параметър. Интересно е, че в някои книги за основите на статистиката за лекари темата за доверителните интервали за честотите е напълно игнорирана. В тази статия ще разгледаме няколко начина за изчисляване на доверителни интервали за честотите, като се приемат характеристики на извадката като неповтаряне и представителност, както и независимостта на наблюденията едно от друго. Честотата в тази статия не се разбира като абсолютно число, показващо колко пъти тази или онази стойност се среща в съвкупността, а като относителна стойност, която определя дела на участниците в изследването, които имат изследваната черта.

В биомедицинските изследвания най-често се използват 95% доверителни интервали. Този доверителен интервал е областта, в която истинската пропорция попада в 95% от времето. С други думи, може да се каже с 95% сигурност, че истинската стойност на честотата на поява на черта в общата популация ще бъде в рамките на 95% доверителен интервал.

Повечето статистически учебници за медицински изследователи съобщават, че честотната грешка се изчислява с помощта на формулата

където p е честотата на поява на характеристиката в извадката (стойност от 0 до 1). В повечето вътрешни научни статии се посочва стойността на честотата на поява на характеристика в извадката (p), както и нейната грешка (и) под формата на p ± s. По-целесъобразно е обаче да се представи 95% доверителен интервал за честотата на срещане на даден признак в генералната популация, който да включва стойности от

преди.

В някои учебници за малки извадки се препоръчва стойността 1,96 да се замени със стойността на t за N - 1 степени на свобода, където N е броят на наблюденията в извадката. Стойността на t се намира в таблиците за t-разпределението, които са налични в почти всички учебници по статистика. Използването на разпределението на t за метода на Wald не осигурява видими предимства пред другите методи, обсъдени по-долу, и следователно не се приветства от някои автори.

Горният метод за изчисляване на доверителни интервали за честоти или фракции е кръстен на Ейбрахам Валд (Abraham Wald, 1902–1950), тъй като започва да се използва широко след публикацията на Валд и Волфовиц през 1939 г. Самият метод обаче е предложен от Пиер Симон Лаплас (1749–1827) още през 1812 г.

Методът на Wald е много популярен, но прилагането му е свързано със значителни проблеми. Методът не се препоръчва за малки размери на извадката, както и в случаите, когато честотата на поява на характеристика клони към 0 или 1 (0% или 100%) и просто не е възможна за честоти от 0 и 1. Освен това, апроксимацията на нормалното разпределение, която се използва при изчисляване на грешката, "не работи" в случаите, когато n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Тъй като новата променлива е нормално разпределена, долната и горната граница на 95% доверителен интервал за променлива φ ще бъдат φ-1,96 и φ+1,96 отляво">

Вместо 1,96 за малки проби се препоръчва да се замени стойността на t за N - 1 степени на свобода. Този метод не дава отрицателни стойности и ви позволява по-точно да оцените доверителните интервали за честотите от метода на Wald. В допълнение, той е описан в много местни справочници по медицинска статистика, което обаче не доведе до широкото му използване в медицинските изследвания. Изчисляването на доверителни интервали с помощта на ъглова трансформация не се препоръчва за честоти, близки до 0 или 1.

Това е мястото, където обикновено завършва описанието на методите за оценка на доверителните интервали в повечето книги за основите на статистиката за медицински изследователи и този проблем е типичен не само за местната, но и за чуждестранната литература. И двата метода се основават на централната гранична теорема, която предполага голяма извадка.

Като се имат предвид недостатъците на оценката на доверителните интервали с помощта на горните методи, Клопър (Clopper) и Пиърсън (Pearson) предлагат през 1934 г. метод за изчисляване на така наречения точен доверителен интервал, като се вземе предвид биномното разпределение на изследваната черта. Този метод е наличен в много онлайн калкулатори, но доверителните интервали, получени по този начин, в повечето случаи са твърде широки. В същото време този метод се препоръчва за използване в случаите, когато е необходима консервативна оценка. Степента на консервативност на метода се увеличава с намаляване на размера на извадката, особено за N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Според много статистици най-оптималната оценка на доверителните интервали за честотите се извършва по метода на Уилсън, предложен през 1927 г., но практически не се използва в домашните биомедицински изследвания. Този метод не само дава възможност да се оценят доверителните интервали както за много малки, така и за много високи честоти, но също така е приложим за малък брой наблюдения. Като цяло доверителният интервал според формулата на Уилсън има формата от



където приема стойност 1,96 при изчисляване на 95% доверителен интервал, N е броят на наблюденията и p е честотата на характеристиката в извадката. Този метод е наличен в онлайн калкулаторите, така че прилагането му не е проблематично. и не препоръчваме използването на този метод за n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

В допълнение към метода на Wilson се смята, че коригираният от Agresti-Caull метод на Wald осигурява оптимална оценка на доверителния интервал за честотите. Корекцията на Agresti-Coulle е замяна във формулата на Wald за честотата на срещане на признак в извадката (p) с p`, при изчисляването на което 2 се добавя към числителя, а 4 към знаменателя, т.е. , p` = (X + 2) / (N + 4), където X е броят на участниците в изследването, които имат изследваната черта, а N е размерът на извадката. Тази модификация дава резултати, много подобни на тези от формулата на Wilson, освен когато процентът на събитията се доближава до 0% или 100% и извадката е малка. В допълнение към горните методи за изчисляване на доверителни интервали за честотите са предложени корекции за непрекъснатост както за метода на Wald, така и за метода на Wilson за малки проби, но проучванията показват, че използването им е неподходящо.

Разгледайте приложението на горните методи за изчисляване на доверителни интервали, като използвате два примера. В първия случай изследваме голяма извадка от 1000 произволно избрани участници в изследването, от които 450 притежават чертата, която се изследва (независимо дали е рисков фактор, резултат или друга черта), която е честота 0,45, или 45%. Във втория случай изследването се провежда с помощта на малка извадка, да речем, само 20 души и само 1 участник в изследването (5%) има изследваната черта. Доверителните интервали за метода Wald, за метода Wald с корекция на Agresti-Coll, за метода Wilson бяха изчислени с помощта на онлайн калкулатор, разработен от Jeff Sauro (http://www./wald.htm). Доверителните интервали на Wilson с коригирана непрекъснатост бяха изчислени с помощта на калкулатора, предоставен от Wassar Stats: Уеб сайт за статистически изчисления (http://faculty.vassar.edu/lowry/prop1.html). Изчисленията с помощта на ъгловата трансформация на Fisher бяха извършени "ръчно", като се използва критичната стойност на t за 19 и 999 степени на свобода, съответно. Резултатите от изчисленията са представени в таблицата и за двата примера.

Доверителни интервали, изчислени по шест различни начина за двата примера, описани в текста

Метод за изчисляване на доверителния интервал

P=0,0500 или 5%

95% CI за X=450, N=1000, P=0,4500 или 45%

–0,0455–0,2541

Walda с корекция на Agresti-Coll

<,0001–0,2541

Wilson с корекция на непрекъснатостта

"Точният метод" на Klopper-Pearson

Ъглова трансформация

<0,0001–0,1967

Както може да се види от таблицата, за първия пример доверителният интервал, изчислен по "общоприетия" метод на Wald, отива в отрицателната област, което не може да бъде случаят с честотите. За съжаление подобни инциденти не са рядкост в руската литература. Традиционният начин за представяне на данните като честота и нейната грешка частично маскира този проблем. Например, ако честотата на поява на черта (в проценти) е представена като 2,1 ± 1,4, тогава това не е толкова „дразнещо“ като 2,1% (95% CI: –0,7; 4,9), въпреки че и означава същото. Методът на Wald с корекцията на Agresti-Coulle и изчислението, използващо ъгловата трансформация, дават долна граница, клоняща към нула. Методът на Wilson с корекция на непрекъснатостта и "точният метод" дават по-широки доверителни интервали от метода на Wilson. За втория пример всички методи дават приблизително еднакви доверителни интервали (разликите се появяват само в хилядни), което не е изненадващо, тъй като честотата на събитието в този пример не се различава много от 50%, а размерът на извадката е доста голям .

За читателите, които се интересуват от този проблем, можем да препоръчаме трудовете на R. G. Newcombe и Brown, Cai и Dasgupta, които дават предимствата и недостатъците на използването съответно на 7 и 10 различни метода за изчисляване на доверителните интервали. От местните ръководства се препоръчва книгата, в която освен подробно описание на теорията са представени методите на Уолд и Уилсън, както и метод за изчисляване на доверителни интервали, като се вземе предвид биномното разпределение на честотата. В допълнение към безплатните онлайн калкулатори (http://www./wald.htm и http://faculty.vassar.edu/lowry/prop1.html), доверителните интервали за честотите (и не само!) могат да бъдат изчислени с помощта на Програмата на CIA (анализ на доверителните интервали), която може да бъде изтеглена от http://www. медицинско училище. сотон. ак. uk/cia/.

Следващата статия ще разгледа едновариантни начини за сравняване на качествени данни.

Библиография

Медицинска статистика на разбираем език: въвеждащ курс / А. Банержи. - М. : Практическа медицина, 2007. - 287 с. Медицинска статистика / . - М. : Агенция за медицинска информация, 2007. - 475 с. Медико-биологична статистика / S. Glants. - М. : Практика, 1998. Типове данни, проверка на разпространението и описателна статистика / // Екология на човека - 2008. - № 1. - С. 52–58. ОТ. Медицинска статистика: учебник / . - Ростов n / D: Phoenix, 2007. - 160 с. Приложна медицинска статистика / , . - Санкт Петербург. : Фолио, 2003. - 428 с. Е. Биометрични данни /. - М. : Висше училище, 1990. - 350 с. НО. Математическа статистика в медицината / , . - М. : Финанси и статистика, 2007. - 798 с. Математическа статистика в клиничните изследвания / , . - М. : ГЕОТАР-МЕД, 2001. - 256 с. Юнкеров В. И. Медико-статистическа обработка на данни от медицински изследвания /,. - Санкт Петербург. : ВмедА, 2002. - 266 с. Агрести А.Приблизителното е по-добро от точното за интервална оценка на биномни пропорции / A. Agresti, B. Coull // Американски статистик. - 1998. - N 52. - С. 119-126. Алтман Д.Статистика с увереност // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Лондон: BMJ Books, 2000. - 240 с. Браун Л.Д.Интервална оценка за биномиална пропорция / L. D. Brown, T. T. Cai, A. Dasgupta // Статистическа наука. - 2001. - N 2. - С. 101-133. Clopper C.J.Използването на доверителни или фидуциални граници, илюстрирани в случая на бином / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - С. 404-413. Гарсия-Перес М. А. Относно доверителния интервал за биномиалния параметър / M. A. Garcia-Perez // Качество и количество. - 2005. - N 39. - С. 467-481. Мотулски Х.Интуитивна биостатистика // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Нюкомб Р.Г.Двустранни доверителни интервали за единичната пропорция: Сравнение на седем метода / R. G. Newcombe // Статистика в медицината. - 1998. - N. 17. - P. 857–872. Сауро Дж.Оценяване на нивата на завършване от малки проби с помощта на биномиални доверителни интервали: сравнения и препоръки / J. Sauro, J. R. Lewis // Сборник на годишната среща на обществото за човешки фактори и ергономия. – Орландо, Флорида, 2005 г. Уолд А.Доверителни граници за непрекъснати функции на разпределение // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - С. 105–118. Уилсън Е. Б. Вероятно заключение, законът за наследството и статистическо заключение / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - С. 209-212.

ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ПРОПОРЦИИ

А. М. Гржибовски

Национален институт по обществено здраве, Осло, Норвегия

Статията представя няколко метода за изчисляване на доверителните интервали за биномни пропорции, а именно методите на Wald, Wilson, арксинус, Agresti-Coull и точни методи на Clopper-Pearson. Документът дава само общо въведение в проблема с оценката на доверителния интервал на биномна пропорция и целта му е не само да стимулира читателите да използват доверителни интервали, когато представят резултати от собствени емпирични изследователски интервали, но също така да ги насърчи да се консултират със статистически книги преди за анализиране на собствени данни и подготовка на ръкописи.

ключови думи: доверителен интервал, пропорция

Информация за връзка:

Старши съветник, Национален институт по обществено здраве, Осло, Норвегия

За по-голямата част от простите измервания, така нареченият нормален закон за случайни грешки е изпълнен доста добре ( закон на Гаус), извлечени от следните емпирични положения.

1) грешките в измерването могат да приемат непрекъсната серия от стойности;

2) при голям брой измервания, грешки със същата величина, но с различен знак, се появяват еднакво често,

3) колкото по-голяма е случайната грешка, толкова по-малка е вероятността за нейното възникване.

Графиката на нормалното разпределение на Гаус е показана на фиг.1. Уравнението на кривата има формата

където е функцията на разпределение на случайните грешки (грешки), която характеризира вероятността за грешка, σ е средната квадратична грешка.

Стойността σ не е случайна величина и характеризира процеса на измерване. Ако условията на измерване не се променят, тогава σ остава постоянна. Квадратът на това количество се нарича дисперсия на измерванията.Колкото по-малка е дисперсията, толкова по-малко е разпространението на отделните стойности и по-висока е точността на измерване.

Точната стойност на средноквадратичната грешка σ, както и истинската стойност на измерената величина, не са известни. Съществува така наречената статистическа оценка на този параметър, според която средната квадратична грешка е равна на средната квадратична грешка на средното аритметично. Стойността на която се определя по формулата

къде е резултата аз-то измерение; - средно аритметично на получените стойности; не броят на измерванията.

Колкото по-голям е броят на измерванията, толкова по-малък е и толкова повече се доближава до σ. Ако истинската стойност на измереното количество μ, неговата средна аритметична стойност, получена в резултат на измерванията, и случайната абсолютна грешка, тогава резултатът от измерването ще бъде записан като.

Интервалът от стойности от до , в който попада истинската стойност на измерената величина μ, се нарича доверителен интервал.Тъй като това е случайна променлива, истинската стойност попада в доверителния интервал с вероятност α, която се нарича вероятност за доверие,или надеждностизмервания. Тази стойност е числено равна на площта на защрихования криволинеен трапец. (вижте снимката.)

Всичко това е вярно за достатъчно голям брой измервания, когато е близо до σ. За да намерим доверителния интервал и нивото на доверие за малък брой измервания, с които се занимаваме в хода на лабораторната работа, използваме Разпределение на вероятностите на Студент.Това е вероятностното разпределение на случайна променлива, наречена Студентски коефициент, дава стойността на доверителния интервал в части от корена на средната квадратна грешка на средната аритметична стойност.


Вероятностното разпределение на това количество не зависи от σ 2 , но по същество зависи от броя на експериментите н.С увеличаване на броя на експериментите нРазпределението на Стюдънт клони към разпределение на Гаус.

Функцията на разпределение е представена в таблица (Таблица 1). Стойността на коефициента на Студент е в пресечната точка на линията, съответстваща на броя на измерванията ни колоната, съответстваща на нивото на достоверност α