Hoe (en waarom) u de uitschietersfunctie in Excel gebruikt

Een uitbijter is een waarde die aanzienlijk hoger of lager is dan de meeste waarden in uw gegevens. Als u Excel gebruikt om gegevens te analyseren, kunnen uitschieters de resultaten scheeftrekken. Het gemiddelde gemiddelde van een gegevensset kan bijvoorbeeld echt uw waarden weerspiegelen. Excel biedt een paar handige functies om uw uitschieters te helpen beheren, dus laten we eens kijken.

Een snel voorbeeld

In de onderstaande afbeelding zijn de uitschieters redelijk gemakkelijk te herkennen: de waarde van twee die aan Eric is toegekend en de waarde van 173 die aan Ryan is toegekend. In een dataset als deze is het gemakkelijk genoeg om die uitschieters handmatig op te sporen en aan te pakken.

Bereik van waarden met uitschieters

In een grotere set gegevens zal dat niet het geval zijn. De uitschieters kunnen identificeren en ze uit statistische berekeningen kunnen verwijderen, is belangrijk – en dat is wat we in dit artikel zullen bekijken.

Hoe u uitschieters in uw gegevens kunt vinden

Om de uitschieters in een dataset te vinden, gebruiken we de volgende stappen:

  1. Bereken het 1e en 3e kwartiel (we zullen het even hebben over wat die zijn).
  2. Evalueer het interkwartielbereik (we zullen deze ook iets verderop uitleggen).
  3. Retourneer de boven- en ondergrenzen van ons gegevensbereik.
  4. Gebruik deze grenzen om de afgelegen gegevenspunten te identificeren.

Het celbereik aan de rechterkant van de gegevensset in de onderstaande afbeelding wordt gebruikt om deze waarden op te slaan.

Bereik voor kwartielen

Laten we beginnen.

Stap één: Bereken de kwartielen

Als u uw gegevens in kwartalen verdeelt, wordt elk van die sets een kwartiel genoemd. De laagste 25% van de getallen in de reeks vormen het eerste kwartiel, de volgende 25% het tweede kwartiel, enzovoort. We nemen deze stap eerst omdat de meest gebruikte definitie van een uitbijter een gegevenspunt is dat meer dan 1,5 interkwartielbereiken (IQR’s) onder het eerste kwartiel ligt en 1,5 interkwartielbereiken boven het derde kwartiel. Om die waarden te bepalen, moeten we eerst uitzoeken wat de kwartielen zijn.

Excel biedt een QUARTILE-functie om kwartielen te berekenen. Het vereist twee soorten informatie: de array en de kwart.

=QUARTILE(array, quart)

De array is het waardenbereik dat u evalueert. En de kwart is een getal dat het kwartiel vertegenwoordigt dat u wilt retourneren (bijvoorbeeld 1 voor de 1st kwartiel, 2 voor het 2e kwartiel, enzovoort).

Notitie: In Excel 2010 heeft Microsoft de functies QUARTILE.INC en QUARTILE.EXC uitgebracht als verbeteringen aan de functie QUARTILE. QUARTILE is meer achterwaarts compatibel wanneer u in meerdere versies van Excel werkt.

Laten we terugkeren naar onze voorbeeldtabel.

Bereik voor kwartielen

Om de 1 te berekenenst Kwartiel kunnen we de volgende formule gebruiken in cel F2.

=QUARTILE(B2:B14,1)

Terwijl u de formule invoert, biedt Excel een lijst met opties voor het kwartargument.

Om de 3 te berekenenrd kwartiel, kunnen we een formule invoeren zoals de vorige in cel F3, maar met een drie in plaats van een.

=QUARTILE(B2:B14,3)

Nu hebben we de kwartielgegevenspunten weergegeven in de cellen.

Waarden 1e en 3e kwartiel

Stap twee: Evalueer het interkwartielbereik

Het interkwartielbereik (of IQR) is de middelste 50% van de waarden in uw gegevens. Het wordt berekend als het verschil tussen de waarde van het eerste kwartiel en de waarde van het derde kwartiel.

We gaan een eenvoudige formule gebruiken in cel F4 die de 1 aftrektst kwartiel van de 3rd kwartiel:

=F3-F2

Nu kunnen we ons interkwartielbereik zien.

Interkwartielwaarde

Stap drie: geef de onder- en bovengrens terug

De onder- en bovengrenzen zijn de kleinste en grootste waarden van het gegevensbereik dat we willen gebruiken. Alle waarden kleiner of groter dan deze gebonden waarden zijn de uitschieters.

We berekenen de ondergrens in cel F5 door de IQR-waarde te vermenigvuldigen met 1,5 en deze vervolgens af te trekken van het Q1-gegevenspunt:

=F2-(1.5*F4)

Excel-formule voor ondergrenswaarde

Notitie: De haakjes in deze formule zijn niet nodig omdat het vermenigvuldigingsdeel vóór het aftrekkingsdeel wordt berekend, maar ze maken de formule wel gemakkelijker te lezen.

Om de bovengrens in cel F6 te berekenen, vermenigvuldigen we de IQR opnieuw met 1,5, maar deze keer toevoegen het naar het Q3-gegevenspunt:

=F3+(1.5*F4)

Onder- en bovengrenswaarden

Stap vier: identificeer de uitschieters

Nu we al onze onderliggende gegevens hebben ingesteld, is het tijd om onze afgelegen gegevenspunten te identificeren – degene die lager zijn dan de ondergrenswaarde of hoger dan de bovengrenswaarde.

We gebruiken de OR-functie om deze logische test uit te voeren en tonen de waarden die aan deze criteria voldoen door de volgende formule in cel C2 in te voeren:

=OR(B2<$F$5,B2>$F$6)

OF-functie om uitschieters te identificeren

We kopiëren die waarde vervolgens naar onze C3-C14-cellen. Een TRUE-waarde geeft een uitbijter aan, en zoals u kunt zien, hebben we er twee in onze gegevens.

De uitschieters negeren bij het berekenen van het gemiddelde gemiddelde

Met behulp van de QUARTILE-functie kunnen we de IQR berekenen en werken met de meest gebruikte definitie van een uitbijter. Bij het berekenen van het gemiddelde gemiddelde voor een reeks waarden en het negeren van uitschieters, is er echter een snellere en gemakkelijkere functie om te gebruiken. Deze techniek zal geen uitbijter identificeren zoals voorheen, maar het zal ons in staat stellen om flexibel te zijn met wat we zouden kunnen beschouwen als ons uitbijtergedeelte.

De functie die we nodig hebben heet TRIMMEAN, en je kunt de syntaxis ervoor hieronder zien:

=TRIMMEAN(array, percent)

De array is het bereik van waarden dat u wilt gemiddeld. De procent is het percentage gegevenspunten dat moet worden uitgesloten van de boven- en onderkant van de gegevensset (u kunt dit invoeren als een percentage of een decimale waarde).

We hebben de onderstaande formule in cel D3 in ons voorbeeld ingevoerd om het gemiddelde te berekenen en 20% uitschieters uit te sluiten.

=TRIMMEAN(B2:B14, 20%)

TRIMMEAN-formule voor gemiddelde exclusief uitschieters


Daar heb je twee verschillende functies voor het omgaan met uitschieters. Of u ze nu wilt identificeren voor bepaalde rapportagebehoeften of ze wilt uitsluiten van berekeningen zoals gemiddelden, Excel heeft een functie die aan uw behoeften voldoet.

Nieuwste artikelen

spot_img

Related Stories

Leave A Reply

Vul alstublieft uw commentaar in!
Vul hier uw naam in