Previzualizare referat:

Extras
Observații

Extras din referat:

Procesul de învatare, în general, este un proces în urma caruia agentul în cauza (cel care învata) îsi îmbunatateste capacitatea de actiune astfel încât, în timpul unor solicitari ulterioare, agentul întreprinde actiuni cu eficienta crescuta. Actiunile agentului au loc în cadrul unui mediu, iar în functie de interactiunea dintre agent si mediu se disting urmatoarele tipuri de învatare:

• Învatarea supervizata (Supervised learning): mediul înconjurator ofera atât problemele pe care le are de rezolvat agentul, cât si raspunsurile corecte la aceste probleme;

• Învatarea prin întarire (RL – Reinforcement Learning): mediul înconjurator furnizeaza date despre corectitudinea actiunilor întreprinse de agent, dar nu spune care sunt actiunile corecte;

• Învatarea nesupervizata (Unsupervised learning): mediul înconjurator nu ofera informatii despre corectitudinea actiunilor întreprinse de agent.

Învatarea prin întarire se refera la o clasa de probleme din învatarea automata care admite un agent sa exploreze mediul înconjurator în care agentul percepe starea (situatia) sa curenta si încearca niste actiuni asupra mediului. În schimb, mediul înconjurator furnizeaza o recompensa, care poate fi pozitiva sau negativa. Algoritmii de învatare prin întarire urmaresc sa gaseasca o politica care sa maximizeze recompensa cumulata a agentului pe parcursul problemei.

Spre deosebire de majoritatea formelor de învatare în care agentului i se spune dinainte ce actiuni sa întreprinda, în cazul învatarii prin întarire agentul trebuie sa descopere singur care actiuni duc la obtinerea unei recompense mai mari. Actiunile întreprinse pot afecta nu numai recompensa obtinuta imediat, dar si situatia urmatoare, si în consecinta toate recompensele viitoare.

Programarea agentilor se face prin semnale de întarire sau slabire (rasplata/pedeapsa) fara a fi nevoie sa se precizeze modalitatea concreta de rezolvare a sarcinii necesar a fi îndeplinita. Comportamentul adecvat se învata prin interactiuni de tipul încercarilor succesive (“trial-and-error”) asupra mediului înconjurator dinamic. Învatarea prin întarire este sinonima cu învatarea prin interactiune.

Cele doua caracteristici, încercarile succesive si recompensa întârziata, reprezinta una dintre cele mai importante caracteristici RL.

Elementele RL

Elementele de baza ale RL sunt agentul supus învatarii si mediul înconjurator acestuia. Agentul reprezinta un sistem care încearca sa îndeplineasca un scop într-un mediu complex si dinamic. În functie de mediul în care îsi desfasoara activitatea un agent poate fi de exemplu:

• Un robot, daca mediul reprezinta chiar lumea fizica;

• Agent software (“knobot”), daca mediul îl reprezinta un calculator sau retea de calculatoare (cyberspatiu). Un astfel de exemplu îl reprezinta un sistem de cautare a datelor de o anumita natura într-o retea de calculatoare. În modelul standard al RL agentul (program, robot etc.) este conectat la mediul înconjurator prin intermediul perceptiei si al actiunilor.

Agentul si mediul interactioneaza la fiecare pas al timpului discret prin:

- intrarea “s” ce semnifica starea mediului;

- pe baza semnalului “s” agentul alege o actiune “a” si o genereaza ca iesire;

- actiunea schimba starea mediului, iar valoarea tranzitiei starilor este comunicata agentului prin scalarul “r”, denumit recompensa (semnal de întarire).

Observații:

Ase, cibernetica

Download gratuit

Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.

Înregistrare Autentificare

Structură de fișiere:

Inteligenta Artificiala.doc

Alte informații:

Tipuri fișiere:: doc
Nota:: 9/10 (5 voturi)
Nr fișiere:: 1 fisier
Pagini (total):: 8 pagini
Imagini extrase:: 8 imagini
Nr cuvinte:: 2 637 cuvinte
Nr caractere:: 12 974 caractere
Marime:: 24.13KB (arhivat)
Publicat de:: NNT 1 P.
Nivel studiu:: Facultate
Tip document:: Referat
Domeniu:: Inteligența Artificială

Predat:: la facultate
Materie:: Inteligența Artificială

Inteligență Artificială

Previzualizare referat:

Extras din referat:

Observații:

Download gratuit