Een uitbijter is een waarde die aanzienlijk hoger of lager is dan de meeste waarden in uw gegevens. Als u Excel gebruikt om gegevens te analyseren, kunnen uitschieters de resultaten scheeftrekken. Het gemiddelde gemiddelde van een gegevensset kan bijvoorbeeld echt uw waarden weerspiegelen. Excel biedt een paar handige functies om uw uitschieters te helpen beheren, dus laten we eens kijken.
Een snel voorbeeld
In de onderstaande afbeelding zijn de uitschieters redelijk gemakkelijk te herkennen: de waarde van twee die aan Eric is toegekend en de waarde van 173 die aan Ryan is toegekend. In een dataset als deze is het gemakkelijk genoeg om die uitschieters handmatig op te sporen en aan te pakken.
In een grotere set gegevens zal dat niet het geval zijn. De uitschieters kunnen identificeren en ze uit statistische berekeningen kunnen verwijderen, is belangrijk – en dat is wat we in dit artikel zullen bekijken.
Hoe u uitschieters in uw gegevens kunt vinden
Om de uitschieters in een dataset te vinden, gebruiken we de volgende stappen:
- Bereken het 1e en 3e kwartiel (we zullen het even hebben over wat die zijn).
- Evalueer het interkwartielbereik (we zullen deze ook iets verderop uitleggen).
- Retourneer de boven- en ondergrenzen van ons gegevensbereik.
- Gebruik deze grenzen om de afgelegen gegevenspunten te identificeren.
Het celbereik aan de rechterkant van de gegevensset in de onderstaande afbeelding wordt gebruikt om deze waarden op te slaan.
Laten we beginnen.
Stap één: Bereken de kwartielen
Als u uw gegevens in kwartalen verdeelt, wordt elk van die sets een kwartiel genoemd. De laagste 25% van de getallen in de reeks vormen het eerste kwartiel, de volgende 25% het tweede kwartiel, enzovoort. We nemen deze stap eerst omdat de meest gebruikte definitie van een uitbijter een gegevenspunt is dat meer dan 1,5 interkwartielbereiken (IQR’s) onder het eerste kwartiel ligt en 1,5 interkwartielbereiken boven het derde kwartiel. Om die waarden te bepalen, moeten we eerst uitzoeken wat de kwartielen zijn.
Excel biedt een QUARTILE-functie om kwartielen te berekenen. Het vereist twee soorten informatie: de array en de kwart.
=QUARTILE(array, quart)
De array is het waardenbereik dat u evalueert. En de kwart is een getal dat het kwartiel vertegenwoordigt dat u wilt retourneren (bijvoorbeeld 1 voor de 1st kwartiel, 2 voor het 2e kwartiel, enzovoort).
Notitie: In Excel 2010 heeft Microsoft de functies QUARTILE.INC en QUARTILE.EXC uitgebracht als verbeteringen aan de functie QUARTILE. QUARTILE is meer achterwaarts compatibel wanneer u in meerdere versies van Excel werkt.
Laten we terugkeren naar onze voorbeeldtabel.
Om de 1 te berekenenst Kwartiel kunnen we de volgende formule gebruiken in cel F2.
=QUARTILE(B2:B14,1)
Terwijl u de formule invoert, biedt Excel een lijst met opties voor het kwartargument.
Om de 3 te berekenenrd kwartiel, kunnen we een formule invoeren zoals de vorige in cel F3, maar met een drie in plaats van een.
=QUARTILE(B2:B14,3)
Nu hebben we de kwartielgegevenspunten weergegeven in de cellen.
Stap twee: Evalueer het interkwartielbereik
Het interkwartielbereik (of IQR) is de middelste 50% van de waarden in uw gegevens. Het wordt berekend als het verschil tussen de waarde van het eerste kwartiel en de waarde van het derde kwartiel.
We gaan een eenvoudige formule gebruiken in cel F4 die de 1 aftrektst kwartiel van de 3rd kwartiel:
=F3-F2
Nu kunnen we ons interkwartielbereik zien.
Stap drie: geef de onder- en bovengrens terug
De onder- en bovengrenzen zijn de kleinste en grootste waarden van het gegevensbereik dat we willen gebruiken. Alle waarden kleiner of groter dan deze gebonden waarden zijn de uitschieters.
We berekenen de ondergrens in cel F5 door de IQR-waarde te vermenigvuldigen met 1,5 en deze vervolgens af te trekken van het Q1-gegevenspunt:
=F2-(1.5*F4)
Notitie: De haakjes in deze formule zijn niet nodig omdat het vermenigvuldigingsdeel vóór het aftrekkingsdeel wordt berekend, maar ze maken de formule wel gemakkelijker te lezen.
Om de bovengrens in cel F6 te berekenen, vermenigvuldigen we de IQR opnieuw met 1,5, maar deze keer toevoegen het naar het Q3-gegevenspunt:
=F3+(1.5*F4)
Stap vier: identificeer de uitschieters
Nu we al onze onderliggende gegevens hebben ingesteld, is het tijd om onze afgelegen gegevenspunten te identificeren – degene die lager zijn dan de ondergrenswaarde of hoger dan de bovengrenswaarde.
We gebruiken de OR-functie om deze logische test uit te voeren en tonen de waarden die aan deze criteria voldoen door de volgende formule in cel C2 in te voeren:
=OR(B2<$F$5,B2>$F$6)
We kopiëren die waarde vervolgens naar onze C3-C14-cellen. Een TRUE-waarde geeft een uitbijter aan, en zoals u kunt zien, hebben we er twee in onze gegevens.
De uitschieters negeren bij het berekenen van het gemiddelde gemiddelde
Met behulp van de QUARTILE-functie kunnen we de IQR berekenen en werken met de meest gebruikte definitie van een uitbijter. Bij het berekenen van het gemiddelde gemiddelde voor een reeks waarden en het negeren van uitschieters, is er echter een snellere en gemakkelijkere functie om te gebruiken. Deze techniek zal geen uitbijter identificeren zoals voorheen, maar het zal ons in staat stellen om flexibel te zijn met wat we zouden kunnen beschouwen als ons uitbijtergedeelte.
De functie die we nodig hebben heet TRIMMEAN, en je kunt de syntaxis ervoor hieronder zien:
=TRIMMEAN(array, percent)
De array is het bereik van waarden dat u wilt gemiddeld. De procent is het percentage gegevenspunten dat moet worden uitgesloten van de boven- en onderkant van de gegevensset (u kunt dit invoeren als een percentage of een decimale waarde).
We hebben de onderstaande formule in cel D3 in ons voorbeeld ingevoerd om het gemiddelde te berekenen en 20% uitschieters uit te sluiten.
=TRIMMEAN(B2:B14, 20%)
Daar heb je twee verschillende functies voor het omgaan met uitschieters. Of u ze nu wilt identificeren voor bepaalde rapportagebehoeften of ze wilt uitsluiten van berekeningen zoals gemiddelden, Excel heeft een functie die aan uw behoeften voldoet.