Normalizavimas yra naudojamas pertekliniams duomenims pašalinti ir užtikrina, kad būtų generuojami geros kokybės klasteriai, kurie gali pagerinti klasterizacijos algoritmų efektyvumą. Taigi tai tampa esminiu žingsniu prieš sujungiant grupes kaip euklidinį atstumą. yra labai jautrus skirtumų pokyčiams[3].
Ar mums reikia normalizuoti K-means klasterizacijos duomenis?
Kaip ir taikant k-NN metodą, klasterizavimui naudojamos charakteristikos turi būti išmatuotos panašiais vienetais. Šiuo atveju vienetai nėra problema, nes visos 6 charakteristikos išreiškiamos 5 balų skalėje. Normalizuoti ar standartizuoti nereikia.
Kaip paruošiate duomenis prieš sudarant grupes?
Duomenų paruošimas
Norint atlikti klasterinę analizę R, paprastai duomenys turėtų būti paruošti taip: eilutės yra stebėjimai (asmenys), o stulpeliai yra kintamieji. Visos trūkstamos duomenų reikšmės turi būti pašalintos arba įvertintos. Duomenys turi būti standartizuoti (t. y. pakeisti masteliu), kad kintamieji būtų palyginami.
Ar reikėtų keisti duomenų mastelį, kad būtų galima sugrupuoti?
Skirdami grupes, apskaičiuojate dviejų pavyzdžių panašumą sujungdami visus tų pavyzdžių funkcijų duomenis į skaitinę reikšmę. Norint sujungti funkcijų duomenis, reikia, kad duomenų mastelis būtų toks pat.
Kodėl svarbu normalizuoti funkcijas prieš sujungiant grupes?
Standartizavimas yra svarbus duomenų žingsnisIšankstinis apdorojimas.
Kaip paaiškinta šiame darbe, k-means sumažina klaidos funkciją naudojant Niutono algoritmą, ty gradientu pagrįstą optimizavimo algoritmą. Duomenų normalizavimas pagerina tokių algoritmų konvergenciją.