Rutgers University, Camden NJ 08.102
Udgivet i The Skeptical Inquirer, bind 26, nr. 1, januar / februar 2002, s. 19-23.
Hvis du ønsker en længere og mere teknisk version af dette dokument, i Word-format, klik her .
Hvis du er blevet vildledt af nogen af disse undersøgelser, kan du have faldet for en ødelæggende form for junk science: brugen af matematiske modeller med ingen påvist forudsigende evne til at drage politiske konklusioner. Disse undersøgelser er overfladisk imponerende. Skrevet af velrenommerede samfundsforskere fra prestigefyldte institutioner, de optræder ofte i peer-reviewede videnskabelige tidsskrifter. Fyldt med komplekse statistiske beregninger, de giver præcise numeriske «fakta», der kan bruges som debattører «punkter i de politiske argumenter. Men disse «fakta» er Will O ‘the totter. Inden blækket er tørt på et studie, en anden vises med helt forskellige «fakta». På trods af deres videnskabelige fremtoning, har disse modeller ikke opfylder det grundlæggende kriterium for en nyttig matematisk model: evnen til at gøre forudsigelser, der er bedre end tilfældig chance.
Selv økonomer er de førende udøvere af denne mystiske kunst, sociologer, kriminologer og andre samfundsforskere har udgaver af det så godt. Det er kendt under forskellige navne, herunder «økonometrisk modellering», «strukturel ligning modellering,» og «sti analyse.» Alle disse er måder at bruge korrelationerne mellem variabler til at gøre kausale slutninger. Problemet med dette, som enhver, der har haft et kursus i statistik ved, er, at korrelationen ikke årsagssammenhæng. Korrelationer mellem to variabler er ofte «falske», fordi de er forårsaget af en tredje variabel. Økonometriske modelers forsøger at overvinde dette problem ved at inkludere alle de relevante variabler i deres analyser, under anvendelse af en statistisk teknik kaldet «multipel regression.» Hvis man havde perfekt foranstaltninger af alle de kausale variabler, ville det virke. Men dataene er aldrig god nok. Gentagne bestræbelser på at anvende multipel regression for at opnå endegyldige svar på politiske spørgsmål har svigtet.
Men mange samfundsforskere er tilbageholdende med at indrømme fejl. De har viet år til læring og undervisning regressionsmodel, og de fortsætter med at bruge regression til at gøre kausale argumenter, der ikke er begrundet i deres data. Jeg kalder disse argumenter myter multipel regression, og jeg vil gerne bruge fire undersøgelser med mord satser som eksempler.
Myte One: Flere Guns, mindre kriminalitet.
John Lott, økonom ved Yale University, brugte en økonometrisk model at hævde, at «give borgerne mulighed for at bære skjulte våben afskrækker voldelige forbrydelser, uden at øge utilsigtede dødsfald.» Lott er involveret analyse «udsteder» love, der kræver de lokale myndigheder til at udstede et skjult våben tillade enhver lovlydig borger, som gælder for én. Lott anslås, at hver én procent stigning i ejerskab af skydevåben i en population forårsager et 3,3% fald i drab satser. Lott og hans medforfatter, David Mustard sendt den første udgave af deres studie på internettet i 1997, og titusinder af mennesker downloadet det. Det var genstand for politiske fora, avis kolonner og ofte ganske sofistikerede debatter på World Wide Web. I en bog med den fængende titel Flere Guns, mindre kriminalitet, hånede Lott hans kritikere, beskyldte dem for at sætte ideologi foran videnskaben.
Lott arbejde er et eksempel på statistisk one-upmanship. Han har flere data og en mere kompleks analyse end nogen anden at studere emnet. Han kræver, at alle, der ønsker at udfordre hans argumenter bliver nedsænket i en meget kompleks statistisk debat, der er baseret på beregninger så vanskelige, at de ikke kan gøres med almindelige stationære computere. Han udfordrer enhver, der er uenig med ham at hente hans datasæt og redo hans beregninger, men de fleste samfundsforskere tror ikke, det er værd deres tid at kopiere undersøgelser, ved hjælp af metoder, der gentagne gange har undladt. De fleste våbenkontrol forskere simpelthen børstet off Lott og sennep påstande og gik videre med deres arbejde. To højt respekterede strafferetlige forskere, skrev Frank Zimring og Gordon Hawkins (1997) en artikel, der forklarer, at:
ligesom herrerne Lott og sennep kan, med en model af de afgørende faktorer for drab, producere statistiske residualer tyder på, at »udsteder love reducere drab, forventer vi, at en bestemt økonometrikeren kan producere en behandling af de samme historiske perioder med forskellige modeller og modsatrettede effekter. Økonometrisk modellering er et tveægget sværd i sin evne til at lette statistiske resultater at varme hjerter af sande troende af enhver stribe.Zimring og Hawkins havde ret. Inden for et år, offentliggjort to bestemte økonometrikere, Dan Black og Daniel Nagin (1998) en undersøgelse, der viser, at hvis de ændrede den statistiske model en lille smule, eller anvendt den til forskellige segmenter af data, forsvandt Lott og sennep resultater. Sort og Nagin konstateret, at når Florida blev fjernet fra prøven var der «ingen påviselig effekt af de højre-til-bærer love om satsen for mord og voldtægt.» De konkluderede, at «inferens baseret på Lott og sennep model er uhensigtsmæssig, og resultaterne kan ikke bruges ansvarligt at formulere den offentlige orden.»
John Lott imidlertid bestridt deres analyser og forsatte med at fremme sin egen. Lott havde samlet data for hver af Amerikas amter for hvert år fra 1977 til 1992. Problemet med dette er, at USAs amter varierer voldsomt i størrelse og sociale karakteristika. Et par store virksomheder, der indeholder større byer, tegner sig for en meget stor procentdel af de mord i USA. Som det sker, har ingen af disse meget store amter «udsteder» våbenkontrol love. Det betyder, at Lott massive datasæt var simpelthen uegnet til sit hverv. Han havde ingen variation i hans nøgle kausal variabel — «udsteder» love — på de steder, hvor de fleste mord fandt sted.
Han nævnte ikke denne begrænsning i sin bog eller artikler. Da jeg opdagede den manglende «udsteder» love i de større byer i min egen undersøgelse af sine data, jeg spurgte ham om det. Han skubbes det og sagde, at han havde «kontrolleret» for befolkningens størrelse i hans analyse. Men at indføre en statistisk kontrol i den matematiske analyse ikke gøre op for det faktum, at han blot havde ingen data for de større byer, hvor drab problem var mest akut.
Det tog mig noget tid at finde dette problem i hans data, da jeg ikke var bekendt med våbenkontrol spørgsmål. Men Zimring og Hawkins nulstilles på det straks, fordi de vidste, at «udsteder» love blev indført i stater, hvor National Rifle Association var kraftfuld, stort set i syd, vest og i landområderne. Det var stater, som i forvejen havde få begrænsninger for pistoler. De bemærkede, at denne lovgivningsmæssige historie frustrerer «vores evne til at sammenligne tendenser i ‘udsteder’ stater med udviklingen i andre lande. Fordi de stater, der ændrede lovgivning er forskellige i beliggenhed og forfatning fra de stater, der ikke gjorde, sammenligninger på tværs af lovgivningsmæssige kategorier vil altid risikerer forvirrende demografiske og regionale påvirkninger med den adfærdsmæssige konsekvenser af forskellige juridiske ordninger. « Zimring og Hawkins bemærkede endvidere, at:
Lott og Mustard er naturligvis opmærksom på dette problem. Deres løsning, en standard økonometrisk teknik, er at opbygge en statistisk model, der vil kontrollere for alle forskelle mellem Idaho og New York City, der påvirker drab og kriminalitet, bortset fra «udsteder» love. Hvis man kan «angive» de største påvirkninger på drab, voldtægt, indbrud, og auto tyveri i vores model, så vi kan eliminere indflydelsen af disse faktorer på de forskellige tendenser. Lott og Sennep bygge modeller, der estimerer effekten af demografiske data, økonomiske data og kriminel straf på forskellige lovovertrædelser. Disse modeller er det ultimative inden for statistiske hjem madlavning i, at de er skabt til dette datasæt af disse forfattere, og kun testet på de data, der vil blive anvendt ved evalueringen af de højre-til-bærer påvirkninger.Lott og Sennep sammenlignede tendenser i Idaho og West Virginia og Mississippi med udviklingen i Washington, DC og New York City. Hvad der rent faktisk skete, var, at der var en eksplosion af crack-relaterede mord i store østlige byer i 1980′erne og begyndelsen af 1990′erne. Lott har hele argument kom ned til en påstand om, at den stort set landdistrikterne og vestlige «udsteder» stater blev skånet crack-relaterede drab epidemi på grund af deres «udsteder» love. Det ville aldrig være blevet taget alvorligt, hvis den ikke var blevet tilsløret af en labyrint af ligninger.
Myte To: fængsle Flere People Klipper Kriminalitet
Den Lott og Mustard sag var usædvanlig kun i mængden af offentlig opmærksomhed, den har modtaget. Det er helt almindeligt, selv typisk, for rivaliserende undersøgelser, der skal offentliggøres ved hjælp af økonometriske metoder til at nå modsatte konklusioner om det samme emne. Ofte er der intet påviseligt galt med enten af analyserne. De har simpelthen bruger lidt forskellige datasæt eller forskellige teknikker til at opnå forskellige resultater. Det ser ud som om regression modelers kan opnå noget resultat, de ønsker, uden at overtræde reglerne for regressionsanalyse på nogen måde. I en usædvanlig åbenhjertig erklæring om frustration med denne tingenes tilstand, to højt respekterede kriminologer, Thomas Marvell og Carlisle Moody (1997: 221) rapporterede, om modtagelse af en undersøgelse, de gjorde af effekten af fængsling på drab satser. De fortalte, at de:
stor udbredelse [deres] fund, sammen med de anvendte data, til kolleger, der specialiserer sig i kvantitativ analyse. Den hyppigste svar er, at de nægter at tro på de resultater, uanset hvor god den statistiske analyse. Bag dette argument er den opfattelse, der ofte diskuteret uformelt, men sjældent offentliggjort, kan denne samfundsforskere skaffe det ønskede resultat ved at manipulere de anvendte procedurer. Faktisk er den brede vifte af skøn over konsekvenserne af indsatte i fængslerne tages som god dokumentation af formbarhed af forskningen. Implikationen, selv blandt mange, der offentliggør regelmæssigt kvantitative undersøgelser, er, at uanset hvor grundig analyse, resultaterne er ikke troværdige, medmindre de er i overensstemmelse med tidligere forventninger. Et forskningsprojekt disciplin kan ikke lykkes i en sådan ramme.Til deres store fortjeneste, ærligt Marvell og Moody erkendte problemerne med multipel regression, og lavet nogle forslag til forbedringer. Desværre er nogle økonometrikere blevet så fordybet i deres modeller, at de mister overblikket over, hvor vilkårlige de er. De kommer til at tro, at deres modeller er mere virkelige, mere gyldige, end det rodet, vrangvillig, «ukontrolleret» virkelighed, de foregiver at forklare.
Myte Tre: Udfører People Cuts Kriminalitet
I 1975 Den amerikanske Economic Review offentliggjorde en artikel af en førende økonom, Isaac Ehrlich fra University of Michigan, der anslås at hver udførelse afskrækkede otte drab. Før Ehrlich, var den bedst kendte specialist om effektiviteten af dødsstraf Thorsten Sellen, der havde brugt en meget enklere analysemetode. Sellen udarbejdet grafer, der sammenligner udviklingen i forskellige stater. Han fandt lille eller ingen forskel mellem stater med eller uden dødsstraf, så han konkluderede, at dødsstraf gjort nogen forskel. Ehrlich, i en handling af statistisk one-upmanship, hævdede, at hans analyse var mere gyldig, fordi det kontrolleret for alle de faktorer, der påvirker drab satser.
Selv før den blev offentliggjort, blev Ehrlich arbejde citeret af Solicitor General i USA i et amicus curiae kort indgives til De Forenede Staters højesteret i forsvaret af dødsstraf. Heldigvis har Retten besluttet ikke at stole på Ehrlich forklaring, fordi det ikke var blevet bekræftet af andre forskere. Det var klogt, fordi inden for et år eller to andre forskere blev offentliggjort lige så sofistikerede økonometriske analyser, der viser, at dødsstraf ikke havde nogen afskrækkende virkning.
Kontroversen over Ehrlich arbejde var så vigtigt, at National Research Council indkaldte til et blåt bånd panel af eksperter til at gennemgå det. Efter en meget grundig gennemgang, besluttede panelet, at problemet ikke kun var med Ehrlich-model, men med tanken om at bruge økonometriske metoder til at løse kontroverser i løbet af strafferetlige politikker. De (Manski, 1978: 422) konkluderede, at:
fordi de data, der kan være til rådighed for en sådan analyse har begrænsninger, og fordi kriminel adfærd kan være så kompliceret, bør fremkomsten af en endelig adfærdsmæssige undersøgelse lyver at hvile alle kontroverser om de adfærdsmæssige virkninger af afskrækkelse politik ikke forventes.De fleste eksperter mener nu, at Sellen havde ret, at dødsstraf ikke har nogen påviselig effekt på mord satser. Men Ehrlich er ikke blevet overbevist. Han er nu en ensom sand troende i den gyldigheden af hans model. I et nyligt interview (Bonner og Fessendren, 2000) han insisterede «hvis variationer som arbejdsløshed, indkomstulighed, sandsynligheden for ængstelse og vilje til at anvende dødsstraf medregnes, dødsstraf viser en betydelig afskrækkende effekt.»
Myte Fire: legaliseret abort forårsaget af kriminalitet Drop i 1990′erne.
I 1999 udgav John Donohue og Steven Levitt et studie med en ny forklaring på det kraftige fald i mord satser i 1990′erne. De påstod, at en legalisering af abort ved den amerikanske højesteret i 1973 forårsagede et fald i fødslen af uønskede børn, ville et uforholdsmæssigt stort antal af dem er vokset op til at være kriminelle. Problemet med dette argument er, at en legalisering af abort var en engangs historisk begivenhed og en-gang begivenheder giver ikke nok data for et gyldigt regressionsanalyse. Det er rigtigt, at abort blev legaliseret tidligere i nogle stater end andre, og Donohue og Levitt gøre brug af dette faktum. Men alle disse stater gik igennem de samme historiske processer, og mange andre ting skete i samme historiske periode, der afholdt mord satser. En gyldig regressionsanalyse skulle fange alle disse ting, og teste dem under en bred vifte af variation. De eksisterende data ikke tillader det, så resultaterne af en regressionsanalyse vil variere afhængigt af, hvilke data er udvalgt til analyse.
I dette tilfælde valgte Donohue og Levitt at fokusere på ændringer over en tolv års tid span, ignorerer udsving i disse år. Ved at gøre dette, da James Fox (2000: 303) påpegede, at de «mistede de fleste af de forskydninger i kriminalitet i denne periode — den opadgående tendens i slutningen af 1980′erne crack æra og den nedadgående korrektion i de post-crack år Dette er. noget lignende undersøgelse af virkningerne af månens faser på ocean tidevand, men kun registrere data for perioder med lavvande. «
Da jeg skulle skrive denne artikel, jeg inkluderet en sætning med teksten «snart en anden regression analytiker vil formentlig genanalysere de samme data og nå til forskellige konklusioner.» Et par dage senere, min kone rakte mig en avisartikel om netop en sådan undersøgelse. Forfatteren var ingen anden end John Lott af Yale, sammen med John Whitley fra University of Adelaide. De kværnet de samme numre og konkluderede, at «legalisere abort forøget mord satser med omkring 0,5 til 7 procent» (Lott og Whitely, 2001).
Hvorfor så markant forskellige resultater? Hvert sæt af forfattere simpelthen valgt en anderledes måde at modellere en utilstrækkelig mængde af data. Econometrics kan ikke gøre en gyldig generel lov ud af det historiske faktum, at abort blev legaliseret i 1970′erne og kriminalitet gik ned i 1990′erne. Vi ville bruge mindst et par dusin sådanne historiske erfaringer for et validt statistisk test.
Konklusioner.
Den sure test i statistisk modellering er forudsigelse. Forudsigelse behøver ikke at være perfekt. Hvis en model kan forudsige betydeligt bedre end tilfældige gæt, er det nyttigt. For eksempel, hvis en model kunne forudsige aktiekurserne endda lidt bedre end tilfældig gætte ville det gøre sine ejere meget velhavende.Så en stor indsats er gået til test og evaluering modeller for aktiekurser. Desværre forskere, der anvender økonometriske teknikker til at evaluere socialpolitikker meget sjældent udsætter deres modeller til forudsigelse tests. Deres undskyldning er, at det tager for lang tid for de resultater, der vil blive kendt. Du får ikke nye data om fattigdom, abort eller drab hvert par minutter, som du gør med aktiekurserne. Men forskerne kan gøre prædiktiv test på andre måder. De kan udvikle en model ved hjælp af data fra den ene jurisdiktion eller tidsperiode, og derefter bruge den til at forudsige data fra andre tidspunkter eller steder.Men de fleste forskere simpelthen ikke gøre dette, eller hvis de gør modellerne mislykkes, og resultaterne er aldrig offentliggjort.
Tidsskrifterne, der offentliggør økonometriske undersøgelser af forvaltningspolitiske spørgsmål ofte ikke kræver prædiktiv test, som viser, at redaktører og korrekturlæsere har lave forventninger til deres marker. Så forskerne tage data for en bestemt periode og holde finjustering og justere deres model det, indtil de kan «forklare» trends , der allerede er sket . Der er altid en række måder at gøre dette, og med moderne computere er det ikke frygteligt svært at holde prøver, indtil du finder noget, der passer. På det tidspunkt, forskeren stopper, skriver op på resultaterne, og sender papiret ud til offentliggørelse. Senere, kan en anden forsker justere modellen til opnåelse af et andet resultat. Det fylder siderne i videnskabelige tidsskrifter, og alle foregiver ikke at bemærke, at få eller ingen fremskridt er gjort. Men vi er ikke tættere på at have en gyldig økonometrisk model for mord satser i dag, end vi var, da Isaac Ehrlich offentliggjort den første model i 1975.
Det videnskabelige samfund har ikke gode procedurer for at anerkende svigt af en udbredt forskningsmetode. Metoder, der er forankret i kandidatuddannelser ved førende universiteter og offentliggjort i ansete tidsskrifter tendens til at blive foreviget. Mange lægfolk antager, at hvis en undersøgelse er blevet publiceret i et peer reviewed tidsskrift, er det gyldigt. De sager, vi har undersøgt, viser, at dette ikke altid er tilfældet. Peer review sikrer, at etablerede praksis er blevet fulgt, men det er af ringe hjælp, når en sådan praksis selv er defekt.
I 1991 rystede David Freedman, en fornem sociolog ved University of California i Berkeley og forfatter til lærebøger om kvantitative forskningsmetoder, grundlaget for regressionsmodel, da han ærligt erklærede: «Jeg tror ikke, at regression kan bære en stor del af byrden i en kausal argument heller ikke regressionsligningerne i sig selv giver meget hjælp med at kontrollere for konfunderende variable «(Freedman, 1991: 292).. Freedman s artikel fremprovokerede en række stærke reaktioner. Richard Berk (1991: 315) bemærkede, at Freedman argument «vil være meget vanskeligt for de fleste kvantitative sociologer til at acceptere Det går til hjertet af deres empiriske virksomhed og dermed hele den erhvervsmæssige karriere sætter i fare.».
Stillet over for kritikere, der ønsker en vis dokumentation for, at de kan forudsige trends, regression modelers ofte falde tilbage på statistisk one-upmanship. De gør argumenter, så kompleks, at kun andre højtuddannede regression analytikere kan forstå, endsige gendrive, dem. Ofte denne teknik virker. Potentielle kritikere simpelthen give op i frustration. The Philadelphia Inquirer har David Boldt (1999), efter at have hørt John Lott tale om skjulte våben og drab satser, og kontrol med andre eksperter, beklagede, at «forsøger at løse de faglige argumenter er næsten et fjols ærinde. Du kan drukne i tvister om t -statistikker, dummy-variabler og ‘Poisson’ vs ‘mindste kvadraters’ dataanalysemetoder. «
Boldt var korrekt at tro, at han blev lokket ind i et fjols mission. Der er i virkeligheden ingen vigtige fund i sociologi eller kriminologi, der ikke kan meddeles journalister og politiske beslutningstagere, der mangler en universitetsuddannelse i økonometri. Det er på tide at indrømme, at kejseren ikke har noget tøj. Når du får vist en økonometrisk model, bør forbrugerne insistere på bevis for, at det kan forudsige tendenser i data end de data, der anvendes til at skabe det . Modeller der fejler dette er junk videnskab, uanset hvor kompleks analysen.
REFERENCER
Berk, Richard.A. 1991. Mod en metode til almindelige dødelige, «Sociologisk Metode 21:. 315-324
.. Boldt, David 1999 « Undersøgelse beviser på pistoler, . «Philadelphia Inquirer, 14. december downloades på May17, 2000 fra: http://www.phillynews. com/inquirer/99/Dec/14/opinion/BOLDT14.htm .
.. Sort, Dan og Daniel Nagin 1998 gøre ret at bære love afskrække voldelig kriminalitet Journal of Legal Studies 27:?. 209-219
Bonner, Raymond og Ford Fessendren. 2000. stater med ingen dødsstraf aksjer lavere drab satser, «New York Times den 22. september. Downloades fra: http://www.nytimes.com/2000/09/22/national/22DEAT.html .
Donohue, John og Steven Levitt. 1999. Legaliseret abort og kriminalitet. Stanford University Law School. Downloaded i august 2000 fra: http://papers.ssrn.com/paper.taf?ABSTRACT_ID=174508 .
Fox, James. 2000. Demografi og amerikanske mord, In A. Blumstein og J. Wallman (red.), The Crime Drop in Amerika , Cambridge University Press, New York, pp. 288-317.
Freedman, David 1991. Statistiske modeller og sko læder. Sociologisk Metode 21: 291-313.
Lott, John. 2000. Flere Guns, mindre kriminalitet: Understanding Crime and Gun Control-Laws . University of Chicago Press, anden udgave med yderligere analyser.
Lott, John. og John Whitley. 2001. Abort og kriminalitet:. Uønskede børn og out-of-ægteskab fødsler, «Yale Law & Economics Research Paper nr. 254 Downloaded den 9. juli 2001 fra: http://papers.ssrn.com/sol3/papers.cfm?abstract_id = 270.126 .
.. Marvell, Thomas og Carlisle Moody, C. 1997 Konsekvenserne af fængslet vækst på drab Homicide Studies 1: 205-233.
Zimring, Frank og Gordon Hawkins 1997 Skjulte håndvåben:.. den falske afskrækkende, The Responsive Fællesskabet 7 : 46-60.