Asymptotisk optimal. Asymptotiske egenskaper ved symmetri og samsvarskriterier basert på karakteriseringer Betinget matematisk forventning

Som nevnt i forrige seksjon, kan studiet av klassiske algoritmer i mange tilfeller utføres ved å bruke asymptotiske metoder for matematisk statistikk, spesielt ved bruk av CLT og metoder for arv av konvergens. Separasjonen av klassisk matematisk statistikk fra behovene til anvendt forskning manifesteres spesielt i det faktum at utbredte monografier mangler det matematiske apparatet som er nødvendig, spesielt for studiet av to-utvalgsstatistikk. Poenget er at du må gå til grensen ikke med én parameter, men med to - volumene til to prøver. Vi måtte utvikle en passende teori - teorien om arv av konvergens, beskrevet i monografien vår.

Imidlertid vil resultatene av en slik studie måtte brukes på begrensede utvalgsstørrelser. En hel haug med problemer oppstår knyttet til en slik overgang. Noen av dem ble diskutert i forbindelse med studiet av egenskapene til statistikk konstruert fra utvalg fra spesifikke fordelinger.

Men når man diskuterer virkningen av avvik fra opprinnelige forutsetninger på egenskapene til statistiske prosedyrer, oppstår det ytterligere problemer. Hvilke avvik anses som typiske? Skal vi fokusere på de mest "skadelige" avvikene som mest forvrenger egenskapene til algoritmer, eller skal vi fokusere på "typiske" avvik?

Med den første tilnærmingen får vi et garantert resultat, men "prisen" på dette resultatet kan være for høy. Som et eksempel, la oss påpeke den universelle Berry-Esseen-ulikheten for feilen i CLT. A.A. helt riktig understreker. Borovkov at "konvergenshastigheten i reelle problemer, som regel, viser seg å være bedre."

Med den andre tilnærmingen oppstår spørsmålet om hvilke avvik som anses som "typiske". Du kan prøve å svare på dette spørsmålet ved å analysere store mengder reelle data. Det er helt naturlig at svarene fra ulike forskningsgrupper vil avvike, slik det for eksempel fremgår av resultatene gitt i artikkelen.

En av de falske ideene er å bruke kun en spesifikk parametrisk familie når man analyserer mulige avvik - Weibull-Gnedenko-fordelingene, treparameterfamilien av gamma-fordelinger, osv. Tilbake i 1927, Acad. USSR Academy of Sciences S.N. Bernstein diskuterte den metodiske feilen med å redusere alle empiriske distribusjoner til Pearson-familien med fire parametere. Parametriske metoder for statistikk er imidlertid fortsatt veldig populære, spesielt blant anvendte forskere, og skylden for denne misoppfatningen ligger først og fremst hos lærere i statistiske metoder (se nedenfor, så vel som artikkelen).

15. Velge ett av mange kriterier for å teste en spesifikk hypotese

I mange tilfeller er det utviklet mange metoder for å løse et spesifikt praktisk problem, og en spesialist i matematiske forskningsmetoder står overfor problemet: hvilken skal tilbys den anvendte forskeren for å analysere spesifikke data?

Som et eksempel kan du vurdere problemet med å teste homogeniteten til to uavhengige prøver. Som du vet, for å løse det, kan du tilby mange kriterier: Student, Cramer-Welch, Lord, chi-square, Wilcoxon (Mann-Whitney), Van der Waerden, Savage, N.V. Smirnov, omega-square type (Lehman) -Rozenblatt), G.V. Martynov osv. Hvilken skal du velge?

Ideen om å "stemme" kommer naturlig i tankene: å sjekke mot mange kriterier og deretter ta en avgjørelse "med flertall". Fra statistisk teoris synspunkt fører en slik prosedyre ganske enkelt til konstruksjonen av et annet kriterium, som a priori ikke er bedre enn de forrige, men vanskeligere å studere. På den annen side, hvis løsningene sammenfaller i henhold til alle vurderte statistiske kriterier basert på forskjellige prinsipper, øker dette, i samsvar med stabilitetsbegrepet, tilliten til den resulterende generelle løsningen.

Det er en utbredt, spesielt blant matematikere, falsk og skadelig oppfatning om behovet for å søke etter optimale metoder, løsninger osv. Faktum er at optimaliteten vanligvis forsvinner når du avviker fra de opprinnelige premissene. Dermed er det aritmetiske gjennomsnittet som et estimat av den matematiske forventningen optimal bare når den initiale fordelingen er normal, mens det alltid er et gyldig estimat, så lenge den matematiske forventningen eksisterer. På den annen side, for enhver vilkårlig valgt metode for estimering eller testing av hypoteser, er det vanligvis mulig å formulere begrepet optimalitet på en slik måte at den aktuelle metoden blir optimal – fra dette spesielt valgte ståstedet. La oss for eksempel ta prøvemedianen som et estimat på den matematiske forventningen. Det er selvfølgelig optimalt, men i en annen forstand enn det aritmetiske gjennomsnittet (optimalt for en normalfordeling). Nemlig, for Laplace-fordelingen, er prøvemedianen maksimal sannsynlighetsestimat, og derfor optimal (i den forstand som er spesifisert i monografien).

Homogenitetskriteriene ble analysert i monografien. Det finnes flere naturlige tilnærminger til å sammenligne kriterier – basert på asymptotisk relativ effektivitet ifølge Bahadur, Hodges-Lehman, Pitman. Og det viste seg at hvert kriterium er optimalt gitt det tilsvarende alternativet eller passende fordeling på settet av alternativer. I dette tilfellet bruker matematiske beregninger vanligvis skiftalternativet, som er relativt sjeldent i praksisen med å analysere reelle statistiske data (i forbindelse med Wilcoxon-testen ble dette alternativet diskutert og kritisert av oss i). Resultatet er trist - den strålende matematiske teknikken som er demonstrert i, tillater oss ikke å gi anbefalinger for å velge et kriterium for testing av homogenitet når vi analyserer ekte data. Med andre ord, sett fra applikasjonsarbeiderens arbeid, dvs. analyse av spesifikke data, er monografien ubrukelig. Den strålende mestringen av matematikk og den enorme flid som ble demonstrert av forfatteren av denne monografien, førte dessverre ingenting til praksis.

Selvfølgelig løser enhver praktisk talt arbeidende statistiker, på en eller annen måte, for seg selv problemet med å velge et statistisk kriterium. Basert på en rekke metodiske betraktninger valgte vi omega-kvadrat-kriteriet (Lehmann-Rosenblatt), som stemmer overens med ethvert alternativ. Imidlertid er det fortsatt en følelse av misnøye på grunn av mangelen på begrunnelse for dette valget.

Under moderne forhold vokser interessen for dataanalyse stadig og intensivt innen helt andre felt, som biologi, lingvistikk, økonomi og selvfølgelig IT. Grunnlaget for denne analysen er statistiske metoder, og enhver datautvinningsspesialist med respekt for seg selv må forstå dem.

Dessverre er virkelig god litteratur, den typen som kan gi både matematisk strenge bevis og klare intuitive forklaringer, ikke særlig vanlig. Og disse forelesningene er etter min mening uvanlig gode for matematikere som forstår sannsynlighetsteori nettopp av denne grunn. De blir undervist til master ved det tyske Christian-Albrecht-universitetet i matematikk- og finansmatematikk-programmene. Og for de som er interessert i hvordan dette emnet undervises i utlandet, oversatte jeg disse forelesningene. Det tok meg flere måneder å oversette, jeg vannet ut forelesningene med illustrasjoner, øvelser og fotnoter om noen teoremer. La meg merke at jeg ikke er en profesjonell oversetter, men rett og slett en altruist og amatør på dette feltet, så jeg vil godta enhver kritikk hvis den er konstruktiv.

Kort oppsummert er dette hva forelesningene handler om:


Betinget matematisk forventning

Dette kapittelet relaterer seg ikke direkte til statistikk, men det er ideelt for å begynne å studere det. Betinget forventning er det beste valget for å forutsi et tilfeldig utfall basert på informasjon som allerede er tilgjengelig. Og dette er også en tilfeldig variabel. Her vurderer vi dens forskjellige egenskaper, som linearitet, monotonisitet, monoton konvergens og andre.

Grunnleggende om poengvurdering

Hvordan estimere fordelingsparameteren? Hvilket kriterium bør jeg velge for dette? Hvilke metoder bør jeg bruke? Dette kapittelet hjelper deg med å svare på alle disse spørsmålene. Her introduserer vi begrepene upartisk estimator og uniformt upartisk minimum variansestimator. Forklarer hvor kjikvadrat- og t-fordelingene kommer fra og hvorfor de er viktige for å estimere parametrene til en normalfordeling. Forklarer hva Rao-Kramer-ulikheten og Fisher-informasjonen er. Konseptet med en eksponentiell familie introduseres også, noe som i stor grad letter å få et godt estimat.

Bayesian og minimax parameterestimering

En annen filosofisk tilnærming til evaluering er beskrevet her. I dette tilfellet anses parameteren som ukjent fordi den er en realisering av en viss tilfeldig variabel med en kjent (a priori) fordeling. Ved å observere resultatet av forsøket beregner vi den såkalte posteriore fordelingen av parameteren. Basert på dette kan vi få en Bayesiansk estimator, hvor kriteriet er minimumstap i gjennomsnitt, eller en minimax estimator, som minimerer maksimalt mulig tap.

Tilstrekkelighet og fullstendighet

Dette kapittelet har alvorlig praktisk betydning. En tilstrekkelig statistikk er en funksjon av prøven slik at det er tilstrekkelig å lagre bare resultatet av denne funksjonen for å estimere parameteren. Det er mange slike funksjoner, og blant dem er den såkalte minimum tilstrekkelige statistikken. For eksempel, for å estimere medianen til en normalfordeling, er det nok å lagre bare ett tall - det aritmetiske gjennomsnittet over hele prøven. Fungerer dette også for andre distribusjoner, for eksempel Cauchy-distribusjonen? Hvordan hjelper tilstrekkelig statistikk med å velge estimater? Her kan du finne svar på disse spørsmålene.

Asymptotiske egenskaper ved estimater

Den kanskje viktigste og mest nødvendige egenskapen til en vurdering er dens konsistens, det vil si tendensen til en sann parameter når utvalgsstørrelsen øker. Dette kapittelet beskriver hvilke egenskaper estimatene vi kjenner, oppnådd ved de statistiske metodene beskrevet i tidligere kapitler, har. Begrepene asymptotisk upartiskhet, asymptotisk effektivitet og Kullback-Leibler-avstand introduseres.

Grunnleggende testing

I tillegg til spørsmålet om hvordan man estimerer en parameter ukjent for oss, må vi på en eller annen måte sjekke om den tilfredsstiller de nødvendige egenskapene. For eksempel blir det utført et eksperiment for å teste et nytt medikament. Hvordan vet du om sannsynligheten for bedring er høyere med det enn ved bruk av gamle medisiner? Dette kapittelet forklarer hvordan slike tester er bygget opp. Du vil lære hva den jevnt over kraftigste testen er, Neyman-Pearson-testen, signifikansnivået, konfidensintervallet, og hvor den velkjente Gauss-testen og t-testen kommer fra.

Asymptotiske egenskaper ved kriterier

I likhet med vurderinger må kriterier tilfredsstille visse asymptotiske egenskaper. Noen ganger kan det oppstå situasjoner når det er umulig å konstruere det nødvendige kriteriet, men ved å bruke det velkjente sentrale grense-teoremet konstruerer vi et kriterium som asymptotisk tenderer til det nødvendige. Her vil du lære hva det asymptotiske signifikansnivået er, likelihood ratio-metoden, og hvordan Bartlett-testen og kjikvadrattesten for uavhengighet er konstruert.

Lineær modell

Dette kapittelet kan sees på som et komplement, nemlig anvendelse av statistikk ved lineær regresjon. Du vil forstå hvilke karakterer som er gode og under hvilke forhold. Du vil lære hvor minste kvadraters metoden kom fra, hvordan du konstruerer tester, og hvorfor F-fordelingen er nødvendig.

Eksakte tester gir ytterligere to metoder for å beregne signifikansnivåer for statistikken som er tilgjengelig gjennom prosedyrene Krysstabeller og ikke-parametriske tester. Disse metodene, de eksakte metodene og Monte Carlo-metodene, gir et middel for å oppnå nøyaktige resultater når dataene dine ikke oppfyller noen av de underliggende forutsetningene som er nødvendige for pålitelige resultater ved bruk av standard asymptotisk metode. Kun tilgjengelig hvis du har kjøpt eksakte testalternativer.

Eksempel. Asymptotiske resultater oppnådd fra små datasett eller sparsomme eller ubalanserte tabeller kan være misvisende. Nøyaktige tester lar deg oppnå et nøyaktig signifikansnivå uten å stole på forutsetninger som kanskje ikke oppfylles av dataene dine. For eksempel viser resultater fra en opptaksprøve for 20 brannmenn i en liten township at alle de fem hvite søkerne fikk et bestått resultat, mens resultatene for svarte, asiatiske og latinamerikanske søkere er blandede. En Pearson chi-kvadrat som tester nullhypotesen om at resultatene er uavhengige av rase, gir et asymptotisk signifikansnivå på 0,07. Dette resultatet fører til konklusjonen at eksamensresultatene er uavhengige av rasen til eksaminanden. Men fordi dataene bare inneholder 20 tilfeller og cellene har forventet frekvens på mindre enn 5, er dette resultatet ikke troverdig. Den nøyaktige betydningen av Pearson chi-kvadrat er 0,04, noe som fører til motsatt konklusjon. Basert på den eksakte betydningen, vil du konkludere med at eksamensresultater og rase til kandidaten henger sammen. Dette demonstrerer viktigheten av å oppnå eksakte resultater når forutsetningene for den asymptotiske metoden ikke kan oppfylles. Den nøyaktige betydningen er alltid pålitelig, uavhengig av størrelsen, distribusjonen, sparsomheten eller balansen til dataene.

Statistikk. Asymptotisk betydning. Monte Carlo-tilnærming med konfidensnivå, eller eksakt betydning.

  • Asymptotisk. Signifikansnivået basert på den asymptotiske fordelingen av en teststatistikk. Vanligvis anses en verdi på mindre enn 0,05 som signifikant. Den asymptotiske betydningen er basert på antakelsen om at datasettet er stort. Hvis datasettet er lite eller dårlig distribuert, kan dette ikke være en god indikasjon på betydning.
  • Monte Carlo-estimat. Et objektivt estimat av det eksakte signifikansnivået, beregnet ved gjentatte prøvetaking fra et referansesett med tabeller med samme dimensjoner og rad- og kolonnemarginer som den observerte tabellen. Monte Carlo-metoden lar deg estimere eksakt betydning uten å stole på forutsetningene som kreves for den asymptotiske metoden. Denne metoden er mest nyttig når datasettet er for stort til å beregne eksakt signifikans, men dataene oppfyller ikke forutsetningene til den asymptotiske metoden.
  • Nøyaktig. Sannsynligheten for det observerte utfallet eller et mer ekstremt utfall beregnes nøyaktig. , regnes et signifikansnivå mindre enn 0,05 som signifikant, noe som indikerer at det vanligvis er en viss sammenheng mellom rad- og kolonnevariablene.

1 Entropi og informasjonsavstand

1.1 Grunnleggende definisjoner og notasjoner.

1.2 Entropi av diskrete fordelinger med begrenset matematisk forventning.

1.3 Logaritmisk generalisert metrikk på et sett med diskrete distribusjoner.

1.4 Kompakthet av funksjoner med et tellbart sett med argumenter

1.5 Kontinuitet av informasjon avstand Kullback - Leibler - Sanov

1.6 Konklusjoner.

2 Sannsynligheter for store avvik

2.1 Sannsynligheter for store funksjonsavvik fra antall celler med en gitt fylling.

2.1.1 Lokal grensesetning.

2.1.2 Integralgrensesetning.

2.1.3 Informasjonsavstand og sannsynligheter for store avvik i separerbar statistikk

2.2 Sannsynligheter for store avvik av separerbar statistikk som ikke tilfredsstiller Cramer-betingelsen.

2.3 Konklusjoner.

3 Asymptotiske egenskaper ved godhet-of-fit-kriterier

3.1 Samtykkekriterier for utvelgelse uten returordning

3.2 Asymptotisk relativ effektivitet av godhetskriterier.

3.3 Kriterier basert på antall celler i generelle oppsett.

3.4 Konklusjoner.

Anbefalt liste over avhandlinger

  • Asymptotisk effektivitet av godhetstester basert på karakteriseringsegenskaper til fordelinger 2011, kandidat for fysiske og matematiske vitenskaper Volkova, Ksenia Yurievna

  • Store avvik og grensesetninger for noen tilfeldige gangfunksjoner 2011, kandidat for fysiske og matematiske vitenskaper Shklyaev, Alexander Viktorovich

  • Grensesetninger og store avvik for tilfeldige gangetrinn 2004, kandidat for fysiske og matematiske vitenskaper Kozlov, Andrey Mikhailovich

  • Om frekvensen av konvergens av statistikk over godhetstester med kraftmål for divergens til kjikvadratfordelingen 2010, kandidat for fysiske og matematiske vitenskaper Zubov, Vasily Nikolaevich

  • Sannsynligheter for store avvik av asymptotisk homogene ergodiske Markov-kjeder i rommet 2004, doktor i fysiske og matematiske vitenskaper Korsjunov, Dmitry Alekseevich

Introduksjon av avhandlingen (del av abstraktet) om emnet "Asymptotiske egenskaper ved godhetskriterier for å teste hypoteser i et utvalgsskjema uten å returnere, basert på fylling av celler i et generalisert plasseringsskjema"

Gjenstand for forskning og relevans av emnet. I teorien om statistisk analyse av diskrete sekvenser, er en spesiell plass okkupert av goodness-of-fit-tester for å teste en mulig kompleks nullhypotese, som er den for en tilfeldig sekvens slik at

Xi e hi,i = 1, ,n, hvor hi = (0,1,. ,M), for enhver i = 1,.,n, og for enhver k £ 1m sannsynligheten for hendelsen

Xi = k) er ikke avhengig av r. Dette betyr at sekvensen på en eller annen måte er stasjonær.

I en rekke anvendte problemer anses sekvensen (Xr-)™ = 1 å være en sekvens av farger på kuler når man velger uten å gå tilbake før utmattelse fra en urne som inneholder n - 1 > 0 kuler med farge k, k € 1m - Vi vil betegne settet med slike valg O(n0 - 1, .,pm - 1). La det være totalt n - 1 kuler i urnen, m k=0

La oss betegne med r(k) (fc) Jk) rw - Г! , . . . , rekkefølge av antall kuler av farge A; i prøven. Tenk på sekvensen der k)

Kk-p-GPk1.

Sekvensen h^ er definert ved å bruke avstandene mellom plasseringene til tilstøtende kuler med farge k på en slik måte at

Pk Kf = s 1>=1

Settet med sekvenser h(fc) for alle k £ 1m bestemmer sekvensen hk for forskjellige k er avhengige av hverandre. Spesielt er en av dem unikt bestemt av alle de andre. Hvis kardinaliteten til settet 1m er 2, er sekvensen av fargene til kuler unikt bestemt av rekkefølgen av avstander mellom stedene til naboballer med samme faste farge. La det være N - 1 kuler med farge 0 i en urne som inneholder n - 1 kuler av to forskjellige farger. Vi kan etablere en en-til-en-korrespondanse mellom settet ffl(N- l,n - N) og settet 9. \n,N vektorer h(n, N ) = (hi,., hjf) med positive heltallskomponenter slik at K = P. (0.1)

Settet 9П)дг tilsvarer settet av alle forskjellige partisjoner av et positivt heltall n i N-ordnede ledd.

Etter å ha spesifisert en viss sannsynlighetsfordeling på settet med vektorer £Hn,dr, får vi den tilsvarende sannsynlighetsfordelingen på settet Wl(N - 1,n - N). Et sett er en delmengde av et sett med vektorer med ikke-negative heltallskomponenter som tilfredsstiller (0.1). Fordelinger av skjemaet vil bli vurdert som sannsynlighetsfordelinger på et sett med vektorer i avhandlingsarbeidet

P(%,N) = (n,.,rN)) = P(£„ = ru,v = l,.,N\jr^ = n), (0,2) hvor. ,£dr - uavhengige ikke-negative heltalls tilfeldige variabler.

Fordelinger av formen (0,2) i /24/ kalles generaliserte skjemaer for å plassere n partikler i N celler. Spesielt hvis de tilfeldige variablene £b. ,£лг i (0.2) er fordelt i henhold til Poissons lover med parameterne Ai,., Лдг, så har vektoren h(n,N) en polynomfordeling med sannsynlighetene for utfall

Ri = . , L" ,V = \,.,N.

L\ + . . . + AN

Hvis de tilfeldige variablene £ь >&v i (0-2) er identisk fordelt i henhold til den geometriske loven hvor p er hvilken som helst i intervallet 0< р < 1, то, как отмечено в /25/,/26/, получающаяся обобщенная схема размещения соответствует равномерному распределению на множестве В силу взаимнооднозначного соответствия между множеством dft(N - 1 ,п - N) и множеством tRn,N получаем равномерное распределение на множестве выборов без возвращения. При этом, вектору расстояний между местами шаров одного цвета взаимно однозначно соответствует вектор частот в обобщенной схеме размещения, и, соответственно, числу расстояний длины г - число ячеек, содержащих ровно г частиц. Для проверки по единственной последовательности гипотезы о том, что она получена как результат выбора без возвращения, и каждая такая выборка имеет одну и ту же вероятность можно проверить гипотезу о том, что вектор расстояний между местами шаров цвета 0 распределен как вектор частот в соответствующей обобщенной схеме размещения п частиц по N ячейкам.

Som nevnt i /14/, /38/, er en spesiell plass i testing av hypoteser om fordelingen av frekvensvektorer h(n, N) = (hi,., /gdr) i generaliserte skjemaer for plassering av n partikler i N celler besatt. etter kriterier basert på basert på statistikk av formen 1 m(N -l,n-N)\ N

LN(h(n,N))=Zfv(hv)

Фн = Ф(-Т7, flQ Hei II-

0,4) hvor fu, v = 1,2,. og φ - noen funksjoner med virkelig verdi, N

Mr = E = r), r = 0,1,. 1/=1

Mengdene i /27/ ble kalt antall celler som inneholder nøyaktig g partikler.

Statistikk av formen (0,3) i /30/ kalles separerbar (additivt separerbar) statistikk. Hvis funksjonene /„ i (0.3) ikke er avhengig av u, ble slik statistikk kalt i /31/ symmetrisk separerbar statistikk.

For enhver r er statistikken /xr en symmetrisk separerbar statistikk. Fra likestilling

E DM = E DFg (0,5) det følger at klassen av symmetrisk separerbar statistikk til hv faller sammen med klassen av lineære funksjoner til gran. Dessuten er klassen av funksjoner i formen (0,4) bredere enn klassen for symmetrisk separerbar statistikk.

Men = (#o(n, N)) er en sekvens av enkle nullhypoteser om at fordelingen av vektoren h(n, N) er (0,2), hvor de tilfeldige variablene er,. i (0.2) er identisk fordelt og k) = pk,k = 0,1,2,., parametrene n, N endres i det sentrale området.

Tenk på noen P £ (0,1) og en sekvens av, generelt sett, komplekse alternativer

H = (H(n, N)) slik som eksisterer - det maksimale antallet som, for enhver enkel hypotese H\ € H(n, N), ulikheten gjelder

РШ > an,N(P)) > Р

Vi vil forkaste hypotesen Hq(ti,N) hvis fm > asm((3). Hvis det er en grense

Шп ~1пР(0н > an,N(P))=u(p,Н), hvor sannsynligheten for hver N beregnes under hypotesen Нк(п, N), så er verdien ^(/З, Н) navngitt i /38/ indeks for kriteriet φ ved punktet (j3, H). Den siste grensen kan generelt sett ikke eksistere. I avhandlingsarbeidet vurderes derfor verdien i tillegg til kriterieindeksen

Ish (~1pP(fm > al(/?)))

JV->oo N-ooo betyr henholdsvis nedre og øvre grense for sekvensen (odg) for N -> oo,

Hvis det eksisterer en kriterieindeks, faller kriteriets underskrift sammen med den. Den nedre indeksen til kriteriet eksisterer alltid. Jo høyere verdi av kriterieindeksen (underskrift av kriteriet), desto bedre er det statistiske kriteriet i den forstand som vurderes. I /38/, problemet med å konstruere goodness-of-fit-kriterier for generaliserte oppsett med den høyeste verdien av kriterieindeksen i klassen av kriterier som avviser hypotesen Ho(n,N) ved /MO Ml Mt MS iV" iV """"" ~yv" " ble løst ^ "der m > 0 er et fast tall, sekvensen av konstant kant er valgt basert på den gitte verdien av potensen til kriteriet for sekvensen av alternativer, ft er en reell funksjon av m + 1 argumenter.

Kriterieindeksene bestemmes av sannsynlighetene for store avvik. Som vist i /38/, er den grove (opptil logaritmiske ekvivalens) asymptotikken til sannsynlighetene for store avvik av separerbar statistikk når Cramer-betingelsen er oppfylt for den tilfeldige variabelen /(ξ) bestemt av den tilsvarende Kull-Bak-Leibler -Sanov informasjonsavstand (den tilfeldige variabelen rj tilfredsstiller betingelsen Cramer, hvis for noen R > 0 den genererende funksjonen til momentene Metr] er endelig i intervallet \t\< Н /28/).

Spørsmålet om sannsynlighetene for store statistikkavvik fra et ubegrenset antall gran, så vel som vilkårlig separerbar statistikk som ikke tilfredsstiller Cramer-betingelsen, forble åpent. Dette tillot oss ikke endelig å løse problemet med å konstruere kriterier for testing av hypoteser i generaliserte plasseringsskjemaer med den høyeste frekvensen av tendens til null av sannsynligheten for en feil av den første typen med alternativer som ikke nærmer seg i kriterieklassen basert på statistikk av skjemaet (0,4). Relevansen til avhandlingsforskningen bestemmes av behovet for å fullføre løsningen på det spesifiserte problemet.

Hensikten med avhandlingsarbeidet er å konstruere goodness-of-fit-kriterier med den høyeste verdien av kriterieindeksen (underskrift av kriteriet) for testing av hypoteser i et utvalgsskjema uten retur i klassen av kriterier som forkaster hypotesen U(n). , N) for $.<>,■ ■)><*. (0-7) где ф - функция от счетного количества аргументов, и параметры п, N изменяются в центральной области.

I samsvar med formålet med studien ble følgende oppgaver satt:

Undersøk egenskapene til entropi og informasjonsavstand Kull-Bak - Leibler - Sanov for diskrete fordelinger med et tellbart antall utfall;

Undersøk sannsynlighetene for store avvik av statistikk av formen (0,4);

Undersøk sannsynlighetene for store avvik av symmetrisk separerbar statistikk (0,3) som ikke tilfredsstiller Cramer-betingelsen;

Finn en statistikk slik at goodness-of-fit-kriteriet konstruert på grunnlag for testing av hypoteser i generaliserte plasseringsskjemaer har den høyeste indeksverdien i kriterieklassen til skjemaet (0,7).

Vitenskapelig nyhet:

Vitenskapelig og praktisk verdi. Arbeidet løser en rekke spørsmål om oppførselen til sannsynlighetene for store avvik i generaliserte plasseringsordninger. De oppnådde resultatene kan brukes i utdanningsprosessen i spesialitetene matematisk statistikk og informasjonsteori, i studiet av statistiske prosedyrer for analyse av diskrete sekvenser, og ble brukt i /3/, /21/ for å rettferdiggjøre sikkerheten til en klasse av informasjonssystemer. Bestemmelser for forsvar:

Reduserer problemet med testing, basert på en enkelt sekvens av kulefarger, hypotesen om at denne sekvensen er oppnådd som et resultat av et valg uten å returnere før ballene er oppbrukt fra en urne som inneholder kuler med to farger, og hvert slikt valg har samme sannsynlighet, for konstruksjonen av godhet-of-fit-kriterier for testing av hypoteser i den tilsvarende generaliserte layouten;

Kontinuitet av entropien og Kullback-Leibler-Sanov informasjonsavstandsfunksjoner på en uendelig dimensjonal simpleks med den introduserte logaritmiske generaliserte metrikken;

Et teorem om grov (opptil logaritmisk ekvivalens) asymptotikk av sannsynlighetene for store avvik av symmetrisk separerbar statistikk som ikke tilfredsstiller Cramer-betingelsen i det generaliserte plasseringsskjemaet i det semi-eksponentielle tilfellet;

Teorem om grov (opp til logaritmisk ekvivalens) asymptotikk av sannsynlighetene for store avvik for statistikk av formen (0,4);

Konstruksjon av et goodness-of-fit-kriterium for testing av hypoteser i generaliserte oppsett med den høyeste indeksverdien i kriterieklassen til skjemaet (0,7).

Godkjenning av arbeid. Resultatene ble presentert på seminarer ved Institutt for diskret matematikk ved Matematisk Institutt oppkalt etter. V. A. Steklov RAS, til ITM&VT oppkalt etter. S. A. Lebedev RAS og på:

Femte all-russisk symposium om anvendt og industriell matematikk. Vårsesjon, Kislovodsk, 2. - 8. mai 2004;

Sjette internasjonale Petrozavodsk-konferansen "Probabilistiske metoder i diskret matematikk" 10. - 16. juni 2004;

Andre internasjonale konferanse "Information Systems and Technologies (IST" 2004)", Minsk, 8.-10. november 2004;

Internasjonal konferanse "Modern Problems and new Trends in Probability Theory", Chernivtsi, Ukraina, 19. - 26. juni 2005.

Hovedresultatene av arbeidet ble brukt i forskningsarbeidet «Apology», utført av ITMiVT RAS. S. A. Lebedev i interessene til Federal Service for Technical and Export Control of the Russian Federation, og ble inkludert i rapporten om gjennomføringen av forskningsfasen /21/. Noen resultater av avhandlingen ble inkludert i forskningsrapporten "Utvikling av matematiske problemer med kryptografi" fra Academy of Cryptography of the Russian Federation for 2004 /22/.

Forfatteren uttrykker dyp takknemlighet til den vitenskapelige veilederen, doktor i fysiske og matematiske vitenskaper A. F. Ronzhin og den vitenskapelige konsulenten, doktor i fysiske og matematiske vitenskaper, seniorforsker A. V. Knyazev. Forfatteren uttrykker takknemlighet til doktor i fysiske og matematiske vitenskaper, professor A og kandidat for fysiske og matematiske vitenskaper matematiske vitenskaper I. A. Kruglov for hans oppmerksomhet på arbeidet og en rekke verdifulle kommentarer.

Arbeidets struktur og innhold.

Det første kapittelet undersøker egenskapene til entropi og informasjonsavstand for distribusjoner på settet med ikke-negative heltall.

I første ledd i første kapittel er notasjoner introdusert og nødvendige definisjoner gitt. Spesielt brukes følgende notasjon: x = (xq,x\, . ) - en uendelig dimensjonal vektor med et tellbart antall komponenter;

H(x) - -Ex^oXvlnx,-, truncm(x) = (x0,x1,.,xm,0,0,.)] f2* = (x, xi > 0, zy = 0,1,. , Oh "< 1}; Q = {х, х, >0,u = 0,1,., o xv = 1); = (x G O, ££L0 = 7);

Ml = o Ue>1|5 € o< Ml - 7МГ1 < 00}. Понятно, что множество £1 соответствует семейству вероятностных распределений на множестве неотрицательных целых чисел, П7 - семейству вероятностных распределений на множестве неотрицательных целых чисел с математическим ожиданием 7.

Hvis y 6E P, vil settet for e > 0 bli betegnet med Oe(y)

Oe(y) - (x^< уие£ для всех v = 0,1,.}.

I andre avsnitt av første kapittel bevises et teorem om avgrensningen av entropien til diskrete fordelinger med begrenset matematisk forventning.

Teorem 1. Om avgrensningen av entropien til diskrete fordelinger med avgrenset matematisk forventning.

For alle 6 P7

H(x)

Hvis x € fly tilsvarer en geometrisk fordeling med en matematisk definisjon på 7, det vil si 7 x„ = (1- р)р\ v = 0,1,., hvor р = --,

1 + 7 så holder likheten

H(x) = F(<7).

Utsagnet av teoremet kan sees på som et resultat av en formell anvendelse av Lagrange-metoden for betingede multiplikatorer i tilfelle av et uendelig antall variabler. Teoremet om at den eneste fordelingen på mengden (k, k + 1, k + 2,.) med en gitt matematisk forventning og maksimal entropi er en geometrisk fordeling med en gitt matematisk forventning er gitt (uten bevis) i /47/. Forfatteren har imidlertid gitt strenge bevis.

Tredje avsnitt i første kapittel gir definisjonen av en generalisert metrikk - en metrikk som tillater uendelige verdier.

For x,y € Q er funksjonen p(x,y) definert som den minimale e > O med egenskapen yie~£<хи< уиее для всех и = 0,1,. Если такого е не существует, то полагается, что р(х,у) = оо.

Det er bevist at funksjonen p(x,y) er en generalisert metrikk på familien av fordelinger på settet av ikke-negative heltall, så vel som på hele settet Cl*. I stedet for e i definisjonen av metrikken p(x,y), kan du bruke et hvilket som helst annet positivt tall enn 1. De resulterende metrikkene vil avvike med en multiplikativ konstant. La oss betegne informasjonsavstanden med J(x, y).

00 £ J(x,y) = E In-.

Her og under er det antatt at 0 In 0 = 0,0 In jj = 0. Informasjonsavstanden er definert for slik x, y at x„ = 0 for alle og slik at y = 0. Hvis denne betingelsen ikke er oppfylt, så vil anta J(x,ij) = oo. La L SP. Da vil vi betegne

J (A Y) = |nf J(x,y).

Fjerde avsnitt i første kapittel gir definisjonen av kompakthet av funksjoner definert på settet Q*. Kompaktheten til en funksjon med et tellbart antall argumenter betyr at verdien av funksjonen med en hvilken som helst grad av nøyaktighet kan tilnærmes med verdiene til denne funksjonen på punkter der bare et begrenset antall argumenter ikke er null. Kompaktheten til entropi- og informasjonsavstandsfunksjonene er bevist.

1. For alle 0< 7 < оо функция Н(х) компактна на

2. Hvis for noen 0< 70 < оо

R e da for en hvilken som helst 0<7<оо,г>0 funksjonen x) = J(x,p) er kompakt på settet

Det femte avsnittet i første kapittel diskuterer egenskapene til informasjonsavstanden definert på et uendelig dimensjonalt rom. Sammenlignet med det endeligdimensjonale tilfellet endres situasjonen med kontinuiteten til informasjonsavstandsfunksjonen kvalitativt. Det vises at informasjonsavstandsfunksjonen ikke er kontinuerlig på settet i noen av metrikkene

Pl&V) = E\Xi~Y»\, u=0

E (xv - Ui)2 v=Q

Рз(х,у) = 8Up\xu-yv\. v

Gyldigheten av følgende ulikheter er bevist for entropifunksjonene H(x) og informasjonsavstand J(x,p):

1. For enhver x, x" € fi

N(x) - N(x")\< - 1){Н{х) + Н{х")).

2. Hvis det for noen x,p e P eksisterer e > 0 slik at x 6 0 £(p), så for enhver x" £ Q J(x,p) - J(x",p)|< (е"М - 1){Н{х) + Н{х") + ееН(р)).

Fra disse ulikhetene, tatt i betraktning teorem 1, følger det at entropi- og informasjonsavstandsfunksjonene er jevnt kontinuerlige på de tilsvarende delmengdene av Q i metrikken p(x,y)t, nemlig,

1. For alle 7 slik at 0< 7 < оо, функция Н(х) равномерно непрерывна на Г2 в метрике р(ж,у);

2. Hvis for noen 70, 0< 70 < оо

TIL for enhver 0<7<оои£>0 funksjon

L p(x) = J(x,p) er jevnt kontinuerlig på settet Π Oe(p) i metrikken p(x,y).

En definisjon av ikke-ekstrem funksjon er gitt. Den ikke-ekstreme tilstanden betyr at funksjonen ikke har lokale ekstrema, eller funksjonen tar de samme verdiene ved lokale minima (lokale maksima). Den ikke-ekstreme tilstanden svekker kravet om fravær av lokale ekstremer. For eksempel har funksjonen sin x på settet med reelle tall lokale ekstrema, men tilfredsstiller den ikke-ekstreme betingelsen.

La for noen 7 > 0, regionen A er gitt av betingelsen

A = (x € VLv4>(x) > a), (0,9) hvor φ(x) er en funksjon med reell verdi, a er en reell konstant, inf φ(x)< а < inf ф(х).

Spørsmålet ble studert under hvilke forhold på funksjonen φ ved endring av parameterne n,N i det sentrale området, ^ -; 7, for alle tilstrekkelig store verdier er det ikke-negative heltall ko, k\,., kn slik at k0 + ki + . + kn = N, k\ + 2k2. + kontrollpanel - N og

F(ko k\ kp

-£,0,0 ,.)>a.

Det er bevist at for dette er det nok å kreve at funksjonen φ er ikke-ekstrem, kompakt og kontinuerlig i metrikken p(x,y), og også at for minst ett punkt x tilfredsstiller (0,9), for noen e > 0 eksisterer det et endelig moment grader 1 + e og x„ > 0 for enhver v = 0,1.

I det andre kapittelet studerer vi grov (opp til logaritmisk ekvivalens) asymptotikken for sannsynligheten for store funksjonsavvik fra D = (^0) ■ ) Ts "n, 0, .) - antall celler med en gitt fylling i det sentrale området for endring av parametere N, n Grov Asymptotikken til sannsynlighetene for store avvik er tilstrekkelige til å studere indeksene til samsvarskriteriene.

La de tilfeldige variablene ^ i (0.2) være identisk fordelt og

P(z) - genererende funksjon av en tilfeldig variabel - konvergerer i en sirkel med radius 1< R < оо. Следуя /38/, для 0 < z < R обозначим через £(z) случайную величину такую, что

Ml+£ = £ i1+ex„< 00.

0,10) k] = Pk, k = 0,1,.

La oss betegne

Hvis det finnes en løsning på ligningen m Z(z) = ъ så er den unik /38/. Gjennom det følgende vil vi anta at pk > O,A; = 0,1,.

Det første avsnittet i det første avsnittet i det andre kapittelet inneholder asymptotikken til logaritmer av sannsynligheter for formen

1пР(/x0 = ko,.,tsp = kp).

Følgende teorem er bevist.

Teorem 2. Grov lokal teorem om sannsynlighetene for store avvik. La n, N -» oo slik at jj ->7.0<7 < оо, существует z7 - корень уравнения M£(z) = 7, с. в. £(г7) имеет положительную дисперсию. Тогда для любого k G Cl(n,N)

1nP(D = k) = JftpK)) + O(^lniV).

Utsagnet av teoremet følger direkte av formelen for fellesfordelingen fii,. fin i /26/ og følgende estimat: hvis ikke-negative heltallsverdier, Нп tilfredsstiller betingelsen

Hi + 2d2 + + PNn = n, så er antallet ikke-nullverdier blant dem 0(l/n). Dette er en grov vurdering og hevder ikke å være ny. Antall CG-er som ikke er null i generaliserte layoutskjemaer overstiger ikke verdien av maksimal fylling av celler, som i den sentrale regionen, med en sannsynlighet som tenderer til 1, ikke overstiger verdien O(lnn) /25/, / 27/. Likevel er det resulterende estimatet 0(y/n) tilfredsstilt med sannsynlighet 1 og er tilstrekkelig til å oppnå grove asymptotiske forhold.

I andre ledd av første ledd i andre kapittel, er verdien av grensen funnet der adg er en sekvens av reelle tall som konvergerer til noen a GR, φ(x) er en funksjon med reell verdi. Følgende teorem er bevist.

Teorem 3. Grov integralsetning om sannsynlighetene for store avvik. La betingelsene til teorem 2 være oppfylt, for noen r > 0, C > 0 er den reelle funksjonen φ(x) kompakt og jevnt kontinuerlig i metrikken p på mengden

A = 0r+<;(p(z7)) П Ц7+с] и удовлетворяет условию неэкстремальности на множестве fly. Если для некоторой константы а такой, что inf ф(х) < а < sup ф(х). xeily существует вектор ра € fi7 П 0r(p(z7)); такой, что

Ф(ra) > a og j(( (x) >a,xe P7),p(2;7)) = 7(pa,p(*y)) mo for en hvilken som helst sekvens a^ som konvergerer til a,

Jim -vbPW%%,.)>aN) = J(pa,p(2h)). (0,11)

Med ytterligere begrensninger på funksjonen φ(x), kan informasjonsavstanden J(pa,p(z7)) i (2.3) beregnes mer spesifikt. Det følgende teorem er nemlig sant. Teorem 4. Om informasjonsavstand. La for noen 0< 7 < оо для некоторвх г >0, C > 0, den reelle funksjonen φ(x) og dens førsteordens partielle deriverte er kompakte og jevnt kontinuerlige i den generaliserte metrikken p(x, y) på mengden p G

A = Og(p) P %+c] finnes det T > 0, R > 0 slik at for alle \t\<Т,0 < z < R,x е А

E^exp^-f(x))< оо,

0(a;)exp(t-< со, i/=o oxv 0X1/ для некоторого е >O oo Q pvv1+£zu exp(t-ph(x))< оо, (0.13) и существует единственный вектор x(z,t), удовлетворяющий системе уравнений xv(z, t) = pvzv ехр {Ь-ф(х(г, t))}, v = 0,1,. функция ф(х) удовлетворяет на множестве А условию неэкстремальности, а - некоторая константа, ф(р) < а < sup ф(:x)(z,t),

0

00 vpv(za,ta) = 7, 1/=0

0(p(*aL)) = a, hvor

Deretter p(za, ta) € og

J((x e А,ф(х) = а),р) = J(p(za, ta),p)

00 d 00 d = l\nza + taYl ir- (x(za,ta)) - I E^r/exp(ta-z- (p(zatta))). j/=0 C^i/t^=0

Hvis funksjonen f(x) er en lineær funksjon, og funksjonen f(x) er definert ved hjelp av likhet (0,5), blir betingelse (0,12) til Cramers betingelse for den tilfeldige variabelen f(£(z)). Betingelse (0.13) er en form for tilstand (0.10) og brukes til å bevise tilstedeværelsen i domener av formen (x G f(x) > a) av minst ett punkt fra 0(n, N) for alle tilstrekkelig store n, N.

La ^)(n, N) = (hi,., /gdr) være frekvensvektoren i det generaliserte plasseringsskjemaet (0.2). Som en følge av setning 3 og 4 er følgende setning formulert.

Teorem 5. Grov integralsetning om sannsynlighetene for store avvik av symmetrisk separerbar statistikk i et generalisert plasseringsskjema.

La n, N -» oo slik at ^ - 7, 0< 7 < оо, существует z1 - корень уравнения М£(,г) = 7, с. в. £(27) имеет положительную дисперсию и максимальный шаг распределения 1, а - некоторая константа, f(x) - действительная функция, а < Mf(^(z1)), существуют Т >0,R > 0 slik at for alle |t|<Т,0 < z < R,

00 oo, u=0 det er slike ta\

E vVi/("01 ta) = b hvor f(v)p"(za,ta) = a, 1/=0

Så for enhver sekvens adg som konvergerer til a,

Jim - - InF»(- £ f(h„) > aN) = J(p(za,ta),p(z7))

00 7 I 2a + taa - I £ p^/e^M i/=0

Denne teoremet ble først bevist av A.F. Ronzhin i /38/ ved bruk av sadelpunktmetoden.

I andre ledd i andre kapittel studeres sannsynlighetene for store avvik av separerbar statistikk i generaliserte cxj^iax-plasseringer ved manglende tilfredsstillelse av Cramer-betingelsen for stokastisk variabel f(€(z)). Cramers betingelse for den tilfeldige variabelen f(£(z)) er ikke oppfylt, spesielt hvis £(z) er en tilfeldig Poisson-variabel og f(x) er x2. Merk at Cramers betingelse for selve den separerbare statistikken i generaliserte tildelingsordninger alltid er oppfylt, siden for enhver fast n, N er antallet mulige utfall i disse ordningene begrenset.

Som nevnt i /2/, hvis Cramer-betingelsen ikke er oppfylt, er det nødvendig med ytterligere for å finne asymptotikken til sannsynlighetene for store avvik av summer av identisk fordelte tilfeldige variabler. f

V og. . I vilkår for korrekt endring på fordelingen av terminen. Pågår j

O, 5 det tilfellet som tilsvarer oppfyllelsen av betingelse (3) i /2/ vurderes, det vil si det syveksponentielle tilfellet. La P(£i = k) > 0 for alle k = 0,1. og funksjonen p(k) = -\nP(^ = k), kan utvides til en funksjon av kontinuerlig argument - en regelmessig varierende funksjon av orden p, 0< р < со /45/, то есть положительной функции такой, что при t ->oo p(tx) xr.

La funksjonen f(x) for tilstrekkelig store verdier av argumentet være en positiv strengt økende, regelmessig varierende funksjon av orden La oss definere funksjonen cp(x) ved å sette for tilstrekkelig stor x φ) = p(Γ\. x)).

På resten av den numeriske aksen kan ip(x) spesifiseres på en vilkårlig begrenset målbar måte.

Deretter s. V. /(£i) har momenter av hvilken som helst rekkefølge og tilfredsstiller ikke Cramer-betingelsen, p(x) = o(x) som x -> ω, og følgende setning 6 er gyldig La funksjonen ip(x) være monotont ikke-avtagende for tilstrekkelig stor x, fg^ksjon øker ikke monotont, n, N -> oo slik at jj - A, 0< Л < оо; гд - единственный корень уравнения M^i(^) = Л, тогда для любого с >b(z\), hvor b(z) = M/(£i(.z)), er det en grense CN) = -(c - b(z\))4.

Det følger av teorem b at hvis Cramers betingelse ikke er oppfylt, vil grensen lim 1 InP(LN(h(n, N)) > cN) = 0, ^ ^ iv-too iv som beviser gyldigheten av hypotesen angitt i / 39/. Dermed er verdien av indeksen til avtalekriteriet i generaliserte plasseringsordninger og manglende oppfyllelse av Cramers betingelse alltid lik null. I dette tilfellet, i klassen av kriterier, når Cramers tilstand er oppfylt, konstrueres kriterier med en indeksverdi som ikke er null. Fra dette kan vi konkludere med at ved å bruke kriterier hvis statistikk ikke tilfredsstiller Cramer-betingelsen, for eksempel kjikvadrattesten i et polynomskjema, for å konstruere goodness-of-fit-tester for å teste hypoteser for ikke-konvergerende alternativer i den angitte betydningen er asymptotisk ineffektiv. En lignende konklusjon ble gjort i /54/ basert på resultatene av en sammenligning av kjikvadrat- og maksimal sannsynlighetsratiostatistikk i et polynomskjema.

Det tredje kapittelet løser problemet med å konstruere goodness-of-fit-kriterier med den største verdien av kriterieindeksen (den største verdien av kriteriets underskrift) for å teste hypoteser i generaliserte plasseringsskjemaer. Basert på resultatene av første og andre kapittel om egenskapene til entropifunksjonene, informasjonsavstand og sannsynligheter for store avvik, finner man i tredje kapittel en funksjon av formen (0.4) slik at godhetskriteriet konstruert har på grunnlag den største verdien av det eksakte abonnementet i klassen av kriterier som vurderes. Følgende teorem er bevist.

Teorem 7. Om eksistensen av en indeks. La betingelsene i teorem 3 være oppfylt: 0< /3 < 1, Н = Hp(i),Hp(2>,. er en sekvens av alternative distribusjoner, а,ф((3, N) er det maksimale antallet som, under hypotesen Нр<ло выполнено неравенство существует предел lim^-оо о>φ(P, N) - a. Så ved punktet (/3, H) er det en kriterieindeks φ

Zff, H) = 3((φ(x) > a, x £ ^.PW).

Sjenert)<ШН)>hvor w/fo fh h v^l ^

Konklusjonen angir resultatene oppnådd i forhold til det generelle målet og spesifikke oppgaver som stilles i avhandlingen, formulerer konklusjoner basert på resultatene av avhandlingsforskningen, indikerer den vitenskapelige nyheten, teoretiske og praktiske verdien av arbeidet, samt spesifikke vitenskapelige oppgaver identifisert av forfatteren og løsningen som virker relevant.

Kort gjennomgang av litteraturen om forskningstemaet. Oppgaven undersøker problemet med å konstruere avtalekriterier i generaliserte plasseringsordninger med den høyeste verdien av kriterieindeksen i funksjonsklassen av formen (0,4) med ikke-konvergerende alternativer.

Generaliserte layoutskjemaer ble introdusert av V.F. Kolchin i /24/. Mengdene i polynomskjemaet ble kalt antall celler med g-pellets og ble studert i detalj i monografien av V. F. Kolchin, B. A. Sevastyanov, V. P. Chistyakov /27/. Verdiene til gran i generaliserte oppsett ble studert av V.F. Kolchin i /25/, /26/. Statistikk av formen (0,3) ble først vurdert av Yu I. Medvedev i /30/ og ble kalt separerbar (additivt separerbar) statistikk. Hvis funksjonene /„ i (0.3) ikke er avhengig av u, ble slik statistikk kalt i /31/ symmetrisk separerbar statistikk. Den asymptotiske oppførselen til øyeblikkene med separerbar statistikk i generaliserte tildelingsordninger ble oppnådd av G. I. Ivchenko i /9/. Grensesetninger for et generalisert layoutskjema ble også vurdert i /23/. Gjennomganger av resultatene av grensesetninger og samsvarskriterier i diskrete sannsynlighetsskjemaer av typen (0,2) ble gitt av V. A. Ivanov, G. I. Ivchenko, Yu I. Medvedev i /8/ og G. I. Ivchenko, Yu I. Medvedev, A.F. Ronzhin /14/. Avtalekriterier for generaliserte oppsett ble vurdert av A.F. Ronzhin i /38/.

En sammenligning av egenskapene til statistiske kriterier i disse arbeidene ble utført fra synspunktet om relativ asymptotisk effektivitet. Tilfellet med konvergerende (sammenhengende) hypoteser ble vurdert - effektivitet i betydningen Pitman og ikke-konvergerende hypoteser - effektivitet i betydningen Bahadur, Hodges - Lehman og Chernov. Sammenhengen mellom ulike typer relative ytelsesstatistiske tester er omtalt for eksempel i /49/. Som følger av resultatene av 10. I. Medvedev i /31/ om fordelingen av separerbar statistikk i et polynomskjema, har den største asymptotiske kraften under konvergerende hypoteser i klassen av separerbar statistikk om frekvensene av utfall i et polynomskjema en kriterium basert på kjikvadratstatistikken. Dette resultatet ble generalisert av A.F. Ronzhin for kretser av typen (0,2) i /38/. I. I. Viktorova og V. P. Chistyakov i /4/ konstruerte et optimalt kriterium for et polynomskjema i klassen av lineære funksjoner til /xr. A.F. Ronzhin i /38/ konstruerte et kriterium som, gitt en sekvens av alternativer som ikke er i nærheten av nullhypotesen, minimerer den logaritmiske hastigheten der sannsynligheten for en feil av den første typen har en tendens til null, i klassen for statistikk for skjemaet (0,6). En sammenligning av den relative ytelsen til chi-kvadrat- og maksimal sannsynlighetsratiostatistikk under nærmer og ikke-tilnærmingshypoteser ble utført i /54/.

Oppgaven tok for seg tilfellet med ikke-konvergerende hypoteser. Å studere den relative statistiske effektiviteten til kriterier under ikke-konvergerende hypoteser krever å studere sannsynlighetene for ekstremt store avvik - i størrelsesorden 0(i/n). For første gang ble et slikt problem for en polynomfordeling med et fast antall utfall løst av I. N. Sanov i /40/. Den asymptotiske optimaliteten til goodness-of-fit-tester for å teste enkle og komplekse hypoteser for en multinomial fordeling i tilfelle av et begrenset antall utfall med ikke-konvergerende alternativer ble vurdert i /48/. Egenskapene til informasjonsavstand ble tidligere vurdert av Kullback, Leibler /29/,/53/ og I. II. Sanov /40/, samt Hoeffding /48/. I disse arbeidene ble kontinuiteten til informasjonsavstand vurdert på endelig-dimensjonale rom i den euklidiske metrikken. En rekke forfattere vurderte en sekvens av rom med økende dimensjon, for eksempel i arbeidet til Yu V. Prokhorov /37/ eller i arbeidet til V. I. Bogachev, A. V. Kolesnikov /1/. Grove (opp til logaritmisk ekvivalens) teoremer om sannsynlighetene for store avvik av separerbar statistikk i generaliserte tildelingsordninger under Cramer-betingelsen ble oppnådd av A.F. Ronzhin i /38/. A. N. Timashev i /42/,/43/ oppnådde eksakte (opptil ekvivalens) flerdimensjonale integral- og lokale grensesetninger om sannsynlighetene for store avvik av vektoren fir^n, N),., iir.(n,N), hvor s, r\,., rs - faste heltall,

OM<П < .

Studien av sannsynlighetene for store avvik når Cramer-betingelsen ikke er oppfylt for tilfellet med uavhengige tilfeldige variabler ble utført i arbeidene til A. V. Nagaev /35/. Metoden for konjugerte distribusjoner er beskrevet av Feller /45/.

Statistiske problemer med å teste hypoteser og å estimere parametere i et seleksjonsskjema uten retur i en litt annen formulering ble vurdert av G. I. Ivchenko, V. V. Levin, E. E. Timonina /10/, /15/, hvor estimeringsproblemer ble løst for en begrenset populasjon, da antall elementer er en ukjent mengde, den asymptotiske normaliteten til multivariat S - statistikk fra s uavhengige prøver i et utvalgsskjema uten reversering ble bevist. Problemet med å studere tilfeldige variabler assosiert med repetisjoner i sekvenser av uavhengige forsøk ble studert av A. M. Zubkov, V. G. Mikhailov, A. M. Shoitov i /6/, /7/, /32/, /33/, /34/ . En analyse av de viktigste statistiske problemene med estimering og testing av hypoteser innenfor rammen av den generelle Markov-Pólya-modellen ble utført av G. I. Ivchenko, Yu I. Medvedev i /13/, en sannsynlighetsanalyse av disse ble gitt i /11 /. En metode for å spesifisere uensartede sannsynlighetsmål på et sett med kombinatoriske objekter, som ikke kan reduseres til det generaliserte plasseringsskjemaet (0,2), ble beskrevet i G. I. Ivchenko, Yu I. Medvedev /12/. En rekke problemer innen sannsynlighetsteori, der svaret kan fås som et resultat av beregninger ved bruk av tilbakevendende formler, ble indikert av A. M. Zubkov i /5/.

Ulikheter for entropien til diskrete fordelinger ble oppnådd i /50/ (sitert fra abstraktet til A. M. Zubkov i RZhMat). Hvis (pn)^Lo er sannsynlighetsfordelingen, oo

Рп = Е Рк, к=тг

A = supp^Pn+i< оо (0.14) п>0 og

F(x) = (x + 1) In (x + 1) - x I x, så for entropien I til denne sannsynlighetsfordelingen

00 i = - 5Z Рк^Рк к=0 ulikhetene er gyldige -L 1 00 00 Р

I + (I -f-) £ (Arn - Rn+1)< F(А) < Я + £ (АРп - P„+i)(ln

L D p=P -t s.4-1 og ulikheter blir til likheter hvis

Рп= (xf1)n+vn>Q. (0,15)

Merk at ekstremfordelingen (0,15) er en geometrisk fordeling med matematisk forventning A, og funksjonen F(A) til parameteren (0,14) sammenfaller med funksjonen til den matematiske forventningen i setning 1.

Lignende avhandlinger i spesialiteten "Sannsynlighetsteori og matematisk statistikk", 01/01/05 kode VAK

  • Asymptotisk effektivitet av skalaparameterfrie eksponentielle tester 2005, kandidat for fysiske og matematiske vitenskaper Chirina, Anna Vladimirovna

  • Noen problemer i sannsynlighetsteori og matematisk statistikk knyttet til Laplace-fordelingen 2010, kandidat for fysiske og matematiske vitenskaper Lyamin, Oleg Olegovich

  • Grensesetninger i problemer med tett embedding og tette serier i diskrete tilfeldige sekvenser 2009, kandidat for fysiske og matematiske vitenskaper Mezhennaya, Natalya Mikhailovna

  • Grensesetninger for antall skjæringer av en stripe ved tilfeldige gangbaner 2006, kandidat for fysiske og matematiske vitenskaper Orlova, Nina Gennadievna

  • Optimalisering av strukturen til momentestimater av nøyaktigheten til normal tilnærming for fordelinger av summer av uavhengige tilfeldige variabler 2013, doktor i fysiske og matematiske vitenskaper Shevtsova, Irina Gennadievna

Konklusjon på avhandlingen om emnet "Sannsynlighetsteori og matematisk statistikk", Kolodzei, Alexander Vladimirovich

3.4. konklusjoner

I dette kapittelet, basert på resultatene fra tidligere kapitler, var det mulig å konstruere et godhet-of-fit-kriterium for å teste hypoteser i generaliserte plasseringsskjemaer med høyest logaritmisk tendens til null sannsynligheter for feil av den første typen, med en fast sannsynlighet for feil av første slag og alternativer som ikke nærmer seg. ~"

Konklusjon

Hensikten med avhandlingsarbeidet var å konstruere goodness-of-fit-kriterier for å teste hypoteser i et utvalgsskjema uten å returnere fra en urne som inneholder kuler med 2 farger. Forfatteren bestemte seg for å studere statistikk basert på frekvensene av avstander mellom baller av samme farge. I denne formuleringen ble problemet redusert til oppgaven med å teste hypoteser i en passende generalisert layout.

Avhandlingsarbeidet inkluderte

Egenskapene til entropi og informasjonsavstand til diskrete fordelinger med et ubegrenset antall utfall og begrenset matematisk forventning er studert;

En grov (opp til logaritmisk ekvivalens) asymptotisk oppførsel av sannsynlighetene for store avvik fra en bred klasse av statistikk i et generalisert plasseringsskjema oppnås;

Basert på de oppnådde resultatene, ble det konstruert en kriteriumfunksjon med den høyeste logaritmiske frekvensen av tendens til null av sannsynligheten for en feil av den første typen med en fast sannsynlighet for en feil av den andre typen og ikke-nærmingsalternativer;

Det er bevist at statistikk som ikke tilfredsstiller Cramer-betingelsen har en lavere grad av konvergens til null av sannsynlighetene for store avvik sammenlignet med statistikk som tilfredsstiller denne betingelsen.

Den vitenskapelige nyheten til arbeidet er som følger.

Konseptet med en generalisert metrikk er gitt - en funksjon som innrømmer uendelige verdier og tilfredsstiller aksiomene identitet, symmetri og trekantulikhet. En generalisert metrikk er funnet og sett er indikert hvor entropi- og informasjonsavstandsfunksjonene, definert på en familie av diskrete fordelinger med et tellbart antall utfall, er kontinuerlige i denne metrikken;

I et generalisert plasseringsskjema ble det funnet en grov (opptil logaritmisk ekvivalens) asymptotikk for sannsynlighetene for store avvik av statistikk av formen (0,4) som tilfredsstiller den tilsvarende formen for Cramers tilstand;

I et generalisert plasseringsskjema finnes en grov (opptil logaritmisk ekvivalens) asymptotikk for sannsynlighetene for store avvik av symmetrisk separerbar statistikk som ikke tilfredsstiller Cramer-betingelsen;

I kriterieklassen til skjemaet (0,7) konstrueres et kriterium med den høyeste verdien av kriterieindeksen.

Arbeidet løser en rekke spørsmål om oppførselen til sannsynlighetene for store avvik i generaliserte plasseringsordninger. De oppnådde resultatene kan brukes i utdanningsprosessen i spesialitetene matematisk statistikk og informasjonsteori, i studiet av statistiske prosedyrer for analyse av diskrete sekvenser, og ble brukt i /3/, /21/ for å rettferdiggjøre sikkerheten til en klasse av informasjonssystemer.

En rekke spørsmål er imidlertid fortsatt åpne. Forfatteren begrenset seg til å vurdere den sentrale sonen for endringer i parametere n, N av generaliserte skjemaer for å plassere n partikler i N-celler. Hvis bæreren for fordelingen av tilfeldige variabler som genererer det generaliserte arrangementsskjemaet (0.2) ikke er et sett av formen r, r + 1, r + 2,., så når du beviser kontinuiteten til informasjonsavstandsfunksjonen og studerer sannsynlighetene av store avvik, er det nødvendig å ta hensyn til den aritmetiske strukturen til en slik bærer som ikke ble vurdert i forfatterens arbeid. For praktisk anvendelse av kriterier bygget på grunnlag av den foreslåtte funksjonen med maksimal indeksverdi, er det nødvendig å studere fordelingen både under nullhypotesen og under alternativer, inkludert konvergerende. Det er også av interesse å overføre de utviklede metodene og generalisere de oppnådde resultatene til andre sannsynlighetsordninger enn generaliserte plasseringsordninger.

Hvis - frekvenser av avstander mellom utfallstall 0 i et binomialskjema med sannsynligheter for utfall po> 1 - Po, så kan det vises at i dette tilfellet

Pb = kh.t fin = kn) = I(± iki = n)(kl + --, (3.3) v=\ K\ \ . Kn\ hvor

O* = Po~1(1 ~Po),v =

Fra analysen av formelen for felles fordeling av verdier av cg i en generalisert ordning, bevist i /26/, følger det at fordeling (3.3), generelt sett, ikke kan representeres i det generelle tilfellet som en felles fordeling av verdier av cg i ethvert generalisert arrangement av partikler etter celler. Denne distribusjonen er et spesielt tilfelle av distribusjoner på settet med kombinatoriske objekter introdusert i /12/. Det virker som en presserende oppgave å overføre resultatene av avhandlingsarbeidet for allmenne plasseringsordninger til denne saken, som ble omtalt i /52/.

Hvis antallet utfall i et valg-uten-avkastnings- eller polynomallokeringsskjema er større enn to, kan den felles frekvensfordelingen av avstander mellom tilstøtende identiske utfall ikke lenger representeres på en så enkel måte. Så langt er det kun mulig å beregne matematisk forventning og spredning av antall slike avstander /51/.

Liste over referanser for avhandlingsforskning Kandidat for fysiske og matematiske vitenskaper Kolodzei, Alexander Vladimirovich, 2006

1. Bogachev V.I., Kolesnikov A.V. Ikke-lineære transformasjoner av konvekse mål og entropi av Radon-Nikodym-tettheter // Rapporter fra Vitenskapsakademiet. - 2004. - T. 207. - 2. - S. 155 - 159.

2. Vidyakin V.V., Kolodzei A.V. Statistisk påvisning av skjulte kanaler i dataoverføringsnettverk // Proc. rapportere II Int. konf. "Informasjonssystemer og teknologier IST" 2004" (Minsk, 8.-10. oktober 2004) Minsk: BSU, 2004. - Del 1. - s. 116 - 117.

3. Viktorova I. I., Chistyakov V. P. Noen generaliseringer av tombokskriteriet // Theory Probab. og dens applikasjoner. - 1966. - T. XI. - 2. S. 306-313.

4. Zubkov A. M. Tilbakevendende formler for beregning av funksjoner av ods av diskrete tilfeldige variabler // Gjennomgang av Appl. og industrielle matte. 1996. - T. 3. - 4. - S. 567 - 573.

5. G. Zubkov A. M., Mikhailov V. G. Begrense fordelinger av tilfeldige variabler assosiert med lange repetisjoner i en sekvens av uavhengige tester // Theory Probab. og dens applikasjoner. - 1974. - T. XIX. 1. - s. 173 - 181.

6. Zubkov A. M., Mikhailov V. G. Om repetisjoner av s - kjeder i en sekvens av uavhengige mengder // Theory Probab. og dens anvendelse - 1979. T. XXIV. - 2. - S. 267 - 273.

7. Ivanov V. A., Ivchenko G. I., Medvedev Yu I. Diskrete problemer i sannsynlighetsteori // Resultater av vitenskap og teknologi. Ser. sannsynlighetsteori, matematikk. stat., teor. cybern. T. 23. - M.: VINITI, 1984. S. 3 -60.

8. Ivchenko G. I. Om øyeblikk av separerbar statistikk i en generalisert tildelingsordning // Mat. notater. 1986. - T. 39. - 2. - S. 284 - 293.

9. Ivchenko G. I., Levin V. V. Asymptotisk normalitet i et utvalgsskjema uten retur // Theory Probab. og den blir brukt. - 1978.- T. XXIII. 1. - s. 97 - 108.

10. Ivchenko G.I., Medvedev Yu.I. Om Markov-Polya urneordningen: fra 1917 til i dag // Gjennomgang søkt. og industrielle matte. - 1996.- T. 3. 4. - S. 484-511.

11. Ivchenko G.I., Medvedev Yu.I. Tilfeldige kombinatoriske objekter // Rapporter fra Vitenskapsakademiet. 2004. - T. 396. - 2. - S. 151 - 154.

12. Ivchenko G. I., Medvedev Yu I. Statistiske problemer knyttet til organisering av kontroll over prosessene for å generere diskrete tilfeldige sekvenser // Diskretn. matte. - 2000. - T. 12. - 2. S. 3 - 24.

13. Ivchenko G. I., Medvedev Yu I., Ronzhin A. F. Separerbar statistikk og godhet-of-fit kriterier for polynomiske prøver // Proceedings of Mathematics. Institutt for USSR Academy of Sciences. 1986. - T. 177. - S. 60 - 74.

14. Ivchenko G. I., Timonina E. E. Om estimering ved valg fra en begrenset populasjon // Mat. notater. - 1980. - T. 28. - 4. - S. 623 - 633.

15. Kolodzei A. V. Teorem om sannsynlighetene for store avvik for separerbar statistikk som ikke tilfredsstiller Cramer-betingelsen // Diskretn. matte. 2005. - T. 17. - 2. - S. 87 - 94.

16. Kolodzei A. V. Entropi av diskrete fordelinger og sannsynligheten for store avvik av funksjoner fra fylling av celler i generaliserte oppsett // Gjennomgang av Appl. og industrielle matte. - 2005. - T. 12. 2. - S. 248 - 252.

17. Kolodzey A. V. Statistiske kriterier for å identifisere skjulte kanaler basert på endring av meldingsrekkefølgen // Forskningsarbeid "Unnskyldning": Rapport / FSTEC fra den russiske føderasjonen, leder A. V. Knyazev. Inv. 7 sponplater - M., 2004. - S. 96 - 128.

18. Kolodzei A.V., Ronzhin A.F. Om noen statistikker knyttet til kontroll av homogeniteten til tilfeldige diskrete sekvenser // Forskningsarbeid "Utvikling av matematiske problemer med kryptografi" N 4 2004.: Rapport / AK RF, - M., 2004 .

19. Kolchin A. V. Limit-teoremer for et generalisert layoutskjema // Diskretn. matte. 2003. - T. 15. - 4. - S. 148 - 157.

20. Kolchin V.F. En klasse med grensesetninger for betingede fordelinger // Lit. matte. Lør. - 1968. - T. 8. - 1. - S. 111 - 126.

21. Kolchin V. F. Tilfeldige grafer. 2. utg. - M.: FIZMATLIT, 2004. - 256 s.

22. Kolchin V. F. Tilfeldige kartlegginger. - M.: Nauka, 1984. - 208 s.

23. Kolchin V.F., Sevastyanov B.A., Chistyakov V.P. M.: Nauka, 1976. - 223 s.

24. Kramer G. // Uspekhi Matem. Vitenskaper. - 1944. - høy. 10. - s. 166 - 178.

25. Kulbak S. Informasjonsteori og statistikk. - M.: Nauka, 1967. - 408 s.

26. Medvedev Yu I. Noen teoremer om den asymptotiske fordelingen av kjikvadratstatistikken // Dokl. USSRs vitenskapsakademi. - 1970. - T. 192. 5. - S. 997 - 989.

27. Medvedev Yu I. Separerbar statistikk i et polynomskjema I. II. // Teori Sann. og bruken. - 1977. - T. 22. - 1. - S. 3 - 17; 1977. T. 22. - 3. - S. 623 - 631.

28. Mikhailov V. G. Begrense fordelinger av tilfeldige variabler assosiert med flere lange repetisjoner i en sekvens av uavhengige tester // Theory Probab. og dens applikasjoner. - 1974. T. 19. - 1. - S. 182 - 187.

29. Mikhailov V. G. Sentral grensesetning for antall ufullstendige lange repetisjoner // Teori Probab. og dens applikasjoner. - 1975. - T. 20. 4. - S. 880 - 884.

30. Mikhailov V. G., Shoitov A. M. Strukturell ekvivalens av s - kjeder i tilfeldige diskrete sekvenser // Diskret. matte. 2003. - T. 15, - 4. - S. 7 - 34.

31. Nagaev A.V. Integral grensesetninger som tar hensyn til sannsynligheter for store avvik. I. // Teori Sannsynligvis. og den blir brukt. -1969. T. 14. 1. - s. 51 - 63.

32. Petrov V. V. Summer av uavhengige tilfeldige variabler. - M.: Nauka, 1972. 416 s.

33. Prokhorov Yu V. Grensesetninger for summer av tilfeldige vektorer hvis dimensjon har en tendens til uendelig // Teori Probab. og dens applikasjoner. 1990. - T. 35. - 4. - S. 751 - 753.

34. Ronzhin A.F. Kriterier for generaliserte partikkelplasseringsskjemaer // Theory Probab. og dens applikasjoner. - 1988. - T. 33. - 1. - S. 94 - 104.

35. Ronzhin A.F. Teorem om sannsynlighetene for store avvik for separerbar statistikk og dens statistiske anvendelse // Mat. notater. 1984. - T. 36. - 4. - S. 610 - 615.

36. Sanov I. N. Om sannsynlighetene for store avvik av tilfeldige variabler // Mat. Lør. 1957. - T. 42. - 1 (84). - S.I - 44.

37. Seneta E. Korrekt endring av funksjoner. M.: Nauka, 1985. - 144 s.

38. Timashev A. N. Flerdimensjonal integralteorem om store avvik i et likesannsynlig plasseringsskjema // Diskret, Mat. - 1992. T. 4. - 4. - S. 74 - 81.

39. Timashev A. N. Flerdimensjonal lokal teorem om store avvik i et likesannsynlig allokeringsskjema // Diskretn. matte. - 1990. T. 2. - 2. - S. 143 - 149.

40. Fedoryuk M.V. Pass metode. M.: Nauka, 1977. 368 s.

41. Feller V. Introduksjon til sannsynlighetsteori og dens anvendelser. T. 2. - M.: Mir, 1984. 738 s.

42. Shannon K. Matematisk teori om kommunikasjon // Arbeider med informasjonsteori og kybernetikk: Transl. fra engelsk / M., IL, 1963, s. 243 - 332.

43. Conrad K. Sannsynlighetsfordeling og maksimal entropi // http://www.math.uconn.edu/~kconrad/blurbs/entropypost.pdf

44. Hoeffding W. Asymptotisk optimale tester for multinomial fordeling // Ann. Matte. Statist. 1965. - T. 36. - s. 369 - 408.

45. Inglot T,. Rallenberg W. S. M., Ledwina T. Forsvinnende mangel og asymptotisk relativ effektivitet // Ann. Statist. - 2000. - T. 28. - S. 215 238.

46. ​​Jurdas C., Pecaric J., Roki R., Sarapa N., On an inequality for the entropy of probability distribution // Math. Ulikt. og Appl. - 2001. T. 4. - 2. - S. 209 - 214. (RZhMat. - 2005. - 05.07-13B.16).

47. Kolodzey A. V., Ronzhin A. F., Goodness of Fit Tests for Random Combinatoric Objects // Proc. rapportere intl. konf. Moderne problemer og nye trender i sannsynlighetsteori, (Chernivtsi, 19. - 26. juni 2005) - Kiev: Matematisk institutt, 2005. Del 1. S. 122.

48. Kullback S. og Leibler R. A. Om informasjon og tilstrekkelighet // Ann. Matte. Statist. 1951. - T. 22. - s. 79 - 86.

49. Quine M.P., Robinson J. Efficiency of chi-square and likelihood ratio goodness of fit tests // Ann. Statist. 1985. - T. 13. - 2. - s. 727 -742.

Vær oppmerksom på at de vitenskapelige tekstene som er presentert ovenfor kun er publisert for informasjonsformål og ble innhentet gjennom original avhandlings tekstgjenkjenning (OCR). Derfor kan de inneholde feil knyttet til ufullkomne gjenkjennelsesalgoritmer. Det er ingen slike feil i PDF-filene til avhandlinger og sammendrag som vi leverer.


Topp