Normalizavimas yra naudingas kai jūsų duomenų skalė skiriasi, o jūsų naudojamas algoritmas nedaro prielaidų apie jūsų duomenų pasiskirstymą, pvz., k-artimiausius kaimynus ir dirbtinį neuroną tinklai. Standartizuojant daroma prielaida, kad jūsų duomenys turi Gauso (varpo kreivės) skirstinį.
Kada turėtume normalizuoti duomenis?
Duomenys turėtų būti normalizuoti arba standartizuoti kad visi kintamieji būtų proporcingi vienas kitam. Pavyzdžiui, jei vienas kintamasis yra 100 kartų didesnis už kitą (vidutiniškai), jūsų modelis gali veikti geriau, jei normalizuosite / standartizuosite du kintamuosius, kad jie būtų maždaug lygiaverčiai.
Kuo skiriasi normalizavimas ir standartizavimas?
Normalizavimas paprastai reiškia, kad reikšmės perskirstomos į [0, 1] diapazoną. Standartizavimas paprastai reiškia duomenų skalės pakeitimą, kad vidurkis būtų 0 ir standartinis nuokrypis būtų 1 (vieneto dispersija).
Kada ir kodėl reikia normalizuoti duomenis?
Paprasčiau tariant, normalizavimas užtikrina, kad visi jūsų duomenys visuose įrašuose atrodytų ir skaitomi vienodai. Normalizavus bus standartizuoti laukai, įskaitant įmonių pavadinimus, kontaktų vardus, URL adresus, adresų informaciją (gatves, valstijas ir miestus), telefonų numerius ir pareigų pavadinimus.
Kaip pasirinkti normalizavimą ir standartizavimą?
Verslo pasaulyje „normalizavimas“paprastai reiškia, kad verčių diapazonas yra„normalizuota nuo 0,0 iki 1,0“. „Standartizavimas“paprastai reiškia, kad verčių diapazonas yra „standartizuotas“, kad būtų galima išmatuoti, kiek standartinių nuokrypių vertė yra nuo jos vidurkio.