Arvutage kõrvalarvud

Autor: Charles Brown
Loomise Kuupäev: 8 Veebruar 2021
Värskenduse Kuupäev: 1 Juuli 2024
Anonim
Exercise and your Immune System – Garmin® Retail Training
Videot: Exercise and your Immune System – Garmin® Retail Training

Sisu

A väljapoole või väljapoole statistikas on andmepunkt, mis erineb oluliselt valimi teistest andmepunktidest. Sageli osutavad kõrvalised näitajad statistikute jaoks mõõtmiste lahknevustele või vigadele, mille järel nad saavad andmeväljalt kõrvalekalded eemaldada. Kui nad otsustavad tegelikult kõrvalekalded andmekogumist eemaldada, võib see uuringu põhjal tehtud järeldustes märkimisväärseid muudatusi teha. Seetõttu on statistiliste andmete nõuetekohaseks tõlgendamiseks oluline arvutada ja määrata kõrvalnähud.

Astuda

  1. Siit saate teada, kuidas võimalikke kõrvalekaldeid märgata. Enne kui saame otsustada, kas konkreetsest andmekogumist eemaldatakse anomaalsed väärtused, peame muidugi kõigepealt andmekogumis tuvastama võimalikud kõrvalekalded. Üldiselt on kõrvalarvud andmepunktid, mis kalduvad oluliselt kõrvale suundumusest, mis moodustavad komplekti teised väärtused - teisisõnu tulista välja muudest väärtustest. Tavaliselt on seda tabelites ja (eriti) graafikutes lihtne ära tunda. Kui andmekogum on visuaalselt graafiline, jäävad kõrvalised väärtused muudest väärtustest "kaugele". Näiteks kui enamik andmekogumi punkte moodustab sirge joone, ei vasta välised näitajad sellele joonele.
    • Heidame pilgu andmekogumile, mis näitab ruumi 12 erineva objekti temperatuure. Kui 11 eseme temperatuur kõigub mõne kraadi võrra kuni umbes 21 ° C, samal ajal kui ühe eseme, ahju, temperatuur on 150 ° C, näete silmapilgul, et ahi on ilmselt väljapoole jääv.
  2. Sorteeri kõik andmepunktid madalamast kõrgeimani. Kõrvalarvude arvutamise esimene samm on leida andmekogumi keskmine väärtus (või keskmine väärtus). See ülesanne muutub palju lihtsamaks, kui komplekti väärtused on järjestuses madalamast suurimani. Nii et enne jätkamist sorteerige oma andmekogumi väärtused niimoodi.
    • Jätkame ülaltoodud näitega. Siin on meie andmekogum, mis näitab ruumi erinevate objektide temperatuure Fahrenheiti kraadides: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Kui sorteerime hulga väärtused madalamast suurimani, saab sellest meie uus komplekt: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Arvutage andmekogumi mediaan. Andmekogumi mediaan on andmepunkt, kus pool andmetest asub selle kohal ja pool andmetest on selle all - tegelikult on see andmekogumi "keskpunkt". Kui andmekogum sisaldab paaritu arvu punkte, on mediaani lihtne leida - mediaan on punkt, millel on nii palju punkte kui allpool. Kui punkte on paarisarv, kuna keskpunkte pole üks, tuleb mediaani leidmiseks võtta kahe keskpunkti keskmine. Kõrvalarvude arvutamisel osutab mediaanile tavaliselt muutuja Q2 - kuna see jääb esimese ja kolmanda kvartiili Q1 ja Q3 vahele. Need muutujad määrame hiljem.
    • Ärge laske end segi ajada paarisarvuliste punktide arvuga - kahe keskpunkti keskmine on sageli arv, mida andmekogumis endas pole - see on okei. Kui kaks keskpunkti on samad, on keskmine muidugi ka see arv - ka see on Okei.
    • Meie näites on meil 12 punkti. Kaks keskmist mõistet on vastavalt punktid 6 ja 7 - 70 ja 71. Seega on meie andmekogumi mediaan nende kahe punkti keskmine: ((70 + 71) / 2) =70,5.
  4. Arvutage esimene kvartiil. See punkt, mida tähistame muutujaga Q1, on andmepunkt, millest madalamal asub 25 protsenti (või veerand) vaatlustest. Teisisõnu, see on kõigi teie andmekogumi punktide keskpunkt allpool mediaan. Kui mediaanist on paarisarv väärtusi, peate Q1 leidmiseks uuesti võtma kahe keskmise väärtuse keskmise, nagu oleksite võinud teha mediaani ise.
    • Meie näites on kuus punkti mediaani kohal ja kuus punkti sellest allpool. Nii et esimese kvartiili leidmiseks tuleb võtta kahe keskmise punkti keskmine kuue alumise punkti vahel. Alumise kuue punktid 3 ja 4 on mõlemad 70, seega on nende keskmine ((70 + 70) / 2) =70. Seega on meie Q1 väärtus 70.
  5. Arvutage kolmas kvartiil. See punkt, mida tähistame muutujaga Q3, on andmepunkt, mille kohal asub 25 protsenti andmetest. Q3 leidmine on praktiliselt sama mis Q1 leidmine, ainult et me vaatame antud juhul punkte ülal mediaan.
    • Jätkates ülaltoodud näidet, näeme, et mediaani kohal oleva kuue punkti kaks keskmist punkti on 71 ja 72. Nende kahe punkti keskmine on ((71 + 72) / 2) =71,5. Seega on meie Q3 väärtus 71,5.
  6. Leidke interkvartiilide vahemik. Nüüd, kui oleme määranud Q1 ja Q3, peame arvutama nende kahe muutuja vahemaa. Q1 ja Q3 vahelise kauguse leiate lahutades Q3 Q1-st. Kvartalidevahelise vahemiku jaoks saadud väärtus on teie andmekogumi mittehälbivate punktide piiride määramisel ülioluline.
    • Meie näites on Q1 ja Q3 väärtused vastavalt 70 ja 71,5. Kvartiilidevahelise vahemiku leidmiseks arvutame Q3 - Q1: 71,5 - 70 =1,5.
    • See töötab isegi siis, kui Q1, Q3 või mõlemad numbrid on negatiivsed. Näiteks kui meie Q1 väärtus oleks -70, oleks kvartiilidevaheline vahemik 71,5 - (-70) = 141,5, mis on õige.
  7. Leidke andmestiku „Sisemised piirid“. Hälbeid saate ära tunda, määrates kindlaks, kas need jäävad arvude piiridesse; nn "sisemised piirid" ja "välised piirid". Punkt, mis jääb andmestiku sisemistest piiridest välja, klassifitseeritakse üheks leebe hälbeja punkt, mis asub väljaspool välispiire, klassifitseeritakse üheks äärmuslik väljapoole. Andmekogumi sisepiiride leidmiseks korrutage kõigepealt kvartiilidevaheline vahemik 1,5-ga. Lisage tulemus Q3-le ja lahutage see Q1-st. Need kaks tulemust on teie andmekogumi sisemised piirid.
    • Meie näites on kvartalidevaheline vahemik (71,5–70) ehk 1,5. Korrutage see 1,5-ga, et saada 2,25. Lisame selle arvu Q3-le ja lahutame selle Q1-st, et leida sisepiirid järgmiselt:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Nii et sisepiirid on 67,75 ja 73,75.
    • Meie andmekogumis jääb sellest vahemikust välja ainult ahju temperatuur - 300 kraadi Fahrenheiti. Nii et see võib olla kerge kõrvalekalle. Kuid me ei ole veel kindlaks teinud, kas see temperatuur on äärmuslik kõrvalekalle, seega ärgem tehkem veel järeldusi.
  8. Leidke andmekogumi "välised piirid". Teete seda samamoodi nagu sisemiste piiridega, ainsa erinevusega, et korrutate kvartalidevahelise kauguse 1,5 asemel 3-ga. Seejärel lisate tulemuse Q3-le ja lahutate Q1-st, et leida välised piirväärtused.
    • Meie näites korrutame kvartalidevahelise kauguse 3-ga, et saada (1,5 * 3) või 4,5. Nüüd võime leida välimised piirid samamoodi nagu sisemised piirid:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Nii et välised piirid on 65,5 ja 76.
    • Andmepunkte, mis asuvad väljaspool väliseid piire, peetakse äärmuslikeks. Meie näites on ahju temperatuur, 300 kraadi Fahrenheiti, kaugel väljaspool välispiire. Nii et ahju temperatuur on kindlasti äärmuslik väljavaade.
  9. Kasutage kvalitatiivset hinnangut, et teha kindlaks, kas peaksite välja viskama kõrvalised näitajad. Ülaltoodud meetodi abil saate kindlaks teha, kas teatud punktid on kerged, äärmuslikud või pole neid üldse. Kuid ärge tehke viga - punkti tunnistamine kõrvalepõikena muudab selle vaid üheks kandidaat tuleb eemaldada andmekogumist ja mitte kohe punkt, mis eemaldatakse peab muunduma. The põhjust miks hälbe erineb ülejäänud komplekti punktidest, on ülioluline otsustamaks, kas hälbe tuleks eemaldada. Üldiselt eemaldatakse kõrvalekalded, mis on põhjustatud mõnest veast - näiteks veast mõõtmistes, lindistustes või katseprojektis. Seevastu tavaliselt muutuvad sellised kõrvalekalded, mis pole põhjustatud vigadest ja mis paljastavad uut, ennustamatut teavet või suundumusi mitte kustutatud.
    • Teine kaalutletav kriteerium on see, kas kõrvalised väärtused mõjutavad andmekogumi keskmist viisil, mis on viltu või eksitav. See on eriti oluline, kui kavatsete oma andmekogumi keskmise põhjal järeldusi teha.
    • Hinnagem oma eeskuju. Kuna kõrgeim On ebatõenäoline, et ahi jõudis mõne ettenägematu loodusjõu tõttu temperatuurini 300 ° F, meie näites võime peaaegu 100% kindlusega järeldada, et ahi lülitati kogemata sisse, põhjustades ebanormaalselt kõrge temperatuuri näitu. Lisaks, kui me ei eemalda väärtust, tuleb meie andmekogumi keskmine (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, samas kui keskmine ilma väljund tuleb (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Kuna hälbe põhjustas inimlik eksitus ja kuna pole õige öelda, et keskmine toatemperatuur oli 32 ° C lähedal, peame valima oma välissageduse. eemalda.
  10. Saage aru, kui tähtis on (mõnikord) kõrvalseisjaid säilitada. Kuigi mõned kõrvalekalded tuleks andmekogust eemaldada seetõttu, et need on põhjustatud vigadest või seetõttu, et need moonutavad tulemusi eksitavalt, tuleks teised kõrvalekalded säilitada. Näiteks kui väärarv on korrektselt saadud (ja seega mitte vea tagajärg) ja / või kui väärarv pakub uue ülevaate mõõdetavast nähtusest, ei tohiks seda kohe eemaldada. Teaduslikud eksperimendid on eriti tundlikud olukorrad, kui tegemist on kõrvaltoimete käsitlemisega - eksliku väärtuse eemaldamine võib tähendada uue suuna või avastuse kohta olulise teabe viskamist.
    • Kujutage näiteks ette, et me kavandame uut ravimit, et kalakasvanduses kasvavad kalad suuremaks. Kasutame oma vana andmekogumit ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) selle erinevusega, et iga punkt tähistab nüüd kala massi (grammides) ) pärast sünnitust teise eksperimentaalse ravimiga ravimist. Teisisõnu andis esimene ravim ühele kalale 71 grammi, teisele kalale 70 grammi jne. Selles olukorras 300 ikka suur kõrvalekalle, kuid me ei peaks seda nüüd eemaldama. Sest kui eeldada, et kõrvalekalle ei ole vea tulemus, esindab see meie katset suurt edu. 300 grammi kala tootnud ravim toimis paremini kui ükski teine ​​ravim, nii et see on see kõige rohkem meie kogumi oluline andmepunkt vähemalt oluline andmepunkt.

Näpunäited

  • Kui leiate kõrvalekaldeid, proovige neid enne andmekogust eemaldamist selgitada; need võivad näidata jaotuse mõõtmisvigu või kõrvalekaldeid.

Vajadused

  • Kalkulaator