I denne artikel ønsker vi at dykke ned i den fascinerende verden af K-nærmeste naboer. Fra dets oprindelse til dets udvikling i dag har dette emne fanget opmærksomhed og interesse hos mennesker rundt om i verden. Med en række forskellige tilgange og perspektiver har K-nærmeste naboer sat et betydeligt præg på forskellige områder, fra videnskab til populærkultur. Igennem disse sider vil vi udforske de forskellige aspekter, der gør K-nærmeste naboer til et så relevant og spændende emne, analysere dets indvirkning og overveje dets betydning i den aktuelle kontekst.
K-nærmeste-naboer (KNN) er en klassifikationsalgoritme baseret på tanken om, at to dataprøvers numeriske værdier vil være tæt på hinanden, hvis de er fra samme klasse. K'et i navnet hentyder til det antal naboer, man tager med i klassificeringen. Kigger man eksempelvis på de nærmeste 3 naboer, er det en 3-nærmeste-naboer klassifikator.
Til klassificering af en dataprøve beregnes for hver dataprøve i datasættet den euklidiske (Eller andre former) distance. For de k dataprøver, hvor distancen er lavest, vælges den klasse, hvor der er flest forekomster i de nærmeste dataprøver.
Ved valg af et lavt k vil klassifikatoren være følsom overfor støj, hvilket især kan ses i meget støjfulde datasæt. Vælges et højt k kan det risikeres, at der ofte vil vælges den klasse, som der er flest af i datasættet.
Valget af det optimale kt kan ikke foretages deterministisk. Der findes dog algoritmer til at finde gode løsninger. Eksempelvis findes cross-validation.
For at overkomme problemet med, at KNN er modtagelig overfor støj, kan man vægte distancen, således at de dataprøver der minder mest om den, man ønsker at klassificere, vil vægte mere end de, der minder mindre om den, man klassificerer.[1] En hyppigt benyttet metode er at vægte distancen som det inverse: vægt = 1/distance.
Dette ændrer algoritmen til, at man lægger alle vægtene sammen for derefter at tage den, der har højest summeret vægt.