Dezvoltarea fara precedent a bazelor de date in aproape toate
domeniile cunoasterii umane a creat necesitatea existentei unor instrumente
din ce in ce mai puternice pentru transformarea datelor in cunostiite utile cu
orientare clara in domeniul de interes. Eforturile de creare a acestor
instrumente de lucru s-au bazat pe explorarea ideilor si metodelor dezvoltate
in cercetarile legate de invatarea automata, recunoasterea formelor, analiza
statistica a datelor, retele neuronale, etc.Toate aceste conexiuni au dus la
aparitia unor domenii noi de cercetare cunoscute sub numele data mining si
descoperirea cunostiintelor.
in urma dezvoltarii calculatoarelor electronice din ultimile doua
decenii, cea mai mare parte a datelor disponibile se gasesc inregistrate
intr-un format specific bazelor de date din sistemele de calcul si astfel,
pentru accesaera lor se face apel la tehnici de calcul pentru care a intervenit
problematica modului de extragere a lor intr-o forma utila si orientata pe
cunoastere.
Primele aspecte de care dorim sa ne ocupam sunt de abordare a
tehnicilor clasice de analiza a datelor. Aceste tehnici au fost si sunt utilizate
pe scara larga pentru rezolvarea celor mai multe din problemele practice.
Aceste tehnici sunt orientate in principal pe extragerea datelor pe baza unor
caracteristici cantitative si statistice si astfel au un grad mare de limitare.
Prin data mining se doreste sa extraga din datele existente acele
componente inplicite, necunoscute anterior si care sa fie potential utile.
Acest lucru face ca data mining sa fie un domeniu interdisciplinar care sa
regrupeze tehnici aparute initial in domenii ca invatarea automata,
recunoasterea formelor, statistica matematica, retele neuronale si altele.
Descoperirea cunostiintelor este o terminologie aparuta in finalul
secolului XX pentru a specifica intregul proces de extragere a cunostiintelor
din date, ceea ce, in acest context, reprezinta relatiile si conexiunile dintre
diversele componente ale datelor, data mining reprezentand doar
componenta de descoperire din procesul de descoperire a cunostiintelor.
Ne dorin de asemenea sa abordam subiectul descoperii cunostiintelor
cu evidentierea diferitelor etapelor ale acestuia si cu indicarea unor
probleme potentiale.
2
1.1 Tehnici traditionale de analiza datelor
Tehnicile traditionale de analiza datelor contin tehnici specifice de
statistica matematica dintre care putem enumera: analiza regresiei, analiza claselor,
analiza multidimensionala, modelarea stochastica, analiza seriilor de timp,
estimarea neliniara Dam mai jos cateva exemplificari si indicam, pentru fiecare
caz in parte neajunsurile implicate de utilizarea tehnicilor date
Analiza statistica poate determina covarianta si corelatia dintre variabilele
din interiorul datelor. insa, analiza statistica nu poate da o caracterizare a
dependentelor abstracte si conceptuale pentru un nivel sau o procedura a datelor.
De asemenea, ea nu poate da o explicatie cazuistica a motivelor pentru care exista
aceste dependente.Analiza statistica nu poate nici sa dezvolte o justificare a acestor
relatii sub forma unoir descrieri sau legi la un nivel ridicat de tip logic.
Se poate realiza o imbinare intre analiza statistica prin care se poate
determina tendinta centrala si variatia unor factori dati si o analiza de regresie prin
care de poate completa o curba pentru o multime de puncte de date. imbinarea
acestor tehnici nu poate sa produca o descriere calitativa a regularitatilor. Aceasta
imbinare nu poate nici sa determine dependenta regularitatilor de factori care nu
sunt dati explicit in date. De asemenea, imbinarea acestor analize nu pot nici sa
desemneze o analogie intre regularitatile descoporite si cele dintr-un alt domeniu.
Tehnicile de sectionare numerica pot crea o clasificare a entitatilor si sa
specifice o similaritate numerica intre entitati reunite in aceeasi clasa sau in
categorii diferite. Sectionarea n umerica nu poate insa construi o descriere
calitativa a claselor create si nu poate da ipoteze rezonabile pentru entitatile care
sunt in aceeasi categorie. Suplimentar pentru a utiliza aceste tehnici este necesat ca
anterior, printr-o analiza a datelor sa se stabileasca atributele care definesc
similaritatile sa masurile pentru acestea.
Pentru a ne putea adresa tehnicilor traditionale de analiza a datelor este
necesar sa dispunem de un istoric de o dimensiune considerabila si sa putem realiza
o motivare simbolica a lucrului care implica acele cunostiinte si date.
Pe scurt, tehnicile traditionale de analiza a datelor faciliteaza interpretarile
utile ale datelor si ajuta la generarea includerilor importante din prelucrarile
aferente datelor. Cunostiintele astfel obtinute sunt derivate din analiza datelor
facuta de om
Din necesitatea satisfacerii nevoilor crescute de instrumente pentru analiza
datelor care sa depaseasca limitarile existente la un moment dat (dintre care si cele
specificate mai sus), cercetarile au condus la utilizarea ideilor si metodelor
dezvoltate de invatarea automata. Acest domeniu este util in cazul analizei datelor
deoarece esenta cercetarilor din invatarea automata este de a dezvolta metode de
calcul pentru a ajunge la cunostiinte pornind de la fapte si de la cunostiinte
anterioare.
Volumul foarte mare de date folosite ca intrare pentru analiza datelor face
ca modelele de date sa ajunga la nivele de complexitate fara precedent. Acest lucru
necesita dezvoltarea de algoritmi robusti si eficienti prin care sa se manipuleze
multimi bogate de date cu dimensiuni ridicate.
Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.