Managementul datelor prin aplicarea algoritmilor de învățare automată

ROTARU, Vasile

DSpace Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Tehnologia Informației (TI)
→
2024
→
View Item

dc.contributor.advisor	DUCA, Ludmila
dc.contributor.author	ROTARU, Vasile
dc.date.accessioned	2024-02-28T13:49:43Z
dc.date.available	2024-02-28T13:49:43Z
dc.date.issued	2024
dc.identifier.citation	ROTARU, Vasile. Managementul datelor prin aplicarea algoritmilor de învățare automată: tz. de master: Programul de studiu: Tehnologia Informației. Cond. şt. DUCA Ludmila, 2024.	en_US
dc.identifier.uri	http://repository.utm.md/handle/5014/26589
dc.description	Fişierul ataşat conţine: Rezumat, Abstract, Cuprins, Introducere, Bibliografie.	en_US
dc.description.abstract	Această teză explorează intersecția dintre date masive, data mining și învățarea automată prin prisma tehnologiilor bazate pe Python, în special Pandas, scikit-learn și Langchain. Studiul este structurat în trei capitole, fiecare abordând un aspect crucial al temei generale de cercetare. Capitolul 1 este despre date masive și data Mining. Acest capitol oferă o prezentare cuprinzătoare a peisajului big data și data mining, evidențiind provocările și oportunitățile generate de creșterea exponențială a datelor în domenii diverse. Accentul este pus pe înțelegerea fundațiilor teoretice ale tehnicilor de data mining și a aplicațiilor practice în extragerea de informații valoroase din seturi de date mari. Capitolul explorează, de asemenea, importanța procesării eficiente și a managementului datelor în contextul analizei big data. Capitolul 2 este despre Python, Pandas și scikit-learn, concentrându-se pe implementarea practică a analizei datelor, acest capitol se adâncește în capacitățile limbajului de programare Python și ale bibliotecilor sale larg utilizate - Pandas și scikit-learn. Se examinează modul în care aceste instrumente facilitează manipularea eficientă a datelor, explorarea și aplicarea algoritmilor de învățare automată pentru analiză predictivă. În capitolul 3 se relatează despre structura sistemului proiectat pentru analiza datelor. Se iau cazurile pentru sistemul de returnare a informației. Acestea vizează și modele lingvistice largi, dar și date prestate de Biroul Național de Statistică al Moldovei. Datele sunt colectate cu ajutorul unui crawler web implementat specific pentru a parcurge datele din această sursă. Ulterior sunt descrise etapele de curățare și organizare a datelor. Mai mult, capitolul 3 expune procesul de utilizare a modelelor lingvistice largi pentru a analiza datele, dar și utilizarea unui model lingvistic creat de la zero. Relatările capitolului 4 se referă la rezultatele obținute în urma proiectării și realizării sistemului informatic descrise în capitolul 3 pe baza datelor acumulate pe baza datelor acumulate corespunzător descrierii expuse la fel în capitolul 3. În cadrul capitolului sunt aduse exemple de performanță, precizie și cazuri de utilizare a sistemului. Mai mult, sunt făcute și comparații între modelele lingvistice largi care sunt utilizate ca parte dinamică a sistemului informatic. Prin această explorare expusă în mai multe capitole, teza își propune să demonstreze sinergia dintre domeniile datelor masive, data mining și implementarea tehnică în limbajul Python, culminând prin integrarea inovatoare a Langchain pentru a avansa în domeniul analizei predictive. Concluziile prezentate aici contribuie la peisajul în continuă evoluție al științei datelor, oferind perspective practice pentru cercetători, practicieni și organizații care doresc să valorifice în întregime potențialul datelor utilizate.	en_US
dc.description.abstract	This thesis explores the intersection of big data, data mining, and machine learning through the lens of Python-based technologies, specifically Pandas, scikit-learn, and Langchain. The study is structured into three chapters, each addressing a crucial aspect of the overall research theme. Chapter 1 focuses on big data and data mining. This chapter provides a comprehensive overview of the big data and data mining landscape, highlighting the challenges and opportunities posed by the exponential growth of data in various fields. The emphasis is on understanding the theoretical foundations of data mining techniques and their practical applications in extracting valuable insights from large datasets. The chapter also explores the importance of efficient data processing and management in the context of big data analytics. Chapter 2 delves into Python, Pandas, and scikit-learn, concentrating on the practical implementation of data analysis. This chapter explores the capabilities of the Python programming language and its widely used libraries—Pandas and scikit-learn. It examines how these tools facilitate efficient data manipulation, exploration, and the application of machine learning algorithms for predictive analytics. In Chapter 3, the structure of the system designed for data analysis is discussed. The cases for the information retrieval system are considered, targeting both large language models and data provided by the National Bureau of Statistics of Moldova. The data is collected using a web crawler implemented specifically to navigate through this source. Subsequently, the steps of data cleaning and organization are described. Furthermore, chapter 3 outlines the process of using large language models to analyze the data, as well as the use of a language model created from scratch. Chapter 4 reports the results obtained from the design and implementation of the computer system described in chapter 3, based on the data accumulated corresponding to the description outlined in chapter 3. The chapter provides examples of performance, accuracy, and use cases of the system. Moreover, a comprehensive comparison is made between the large languages models used as a dynamic part of the computer system. Through this exploration across multiple chapters, the thesis aims to demonstrate the synergistic power of big data, data mining, and Python-based technologies, culminating in the innovative integration of Langchain to advance the field of predictive analytics. The conclusions presented here contribute to the ever-evolving landscape of data science, providing practical perspectives for researchers, practitioners, and organizations looking to fully leverage the potential of their data assets.	en_US
dc.language.iso	ro	en_US
dc.publisher	Universitatea Tehnică a Moldovei	en_US
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	date masive	en_US
dc.subject	data mining	en_US
dc.subject	învățare automată	en_US
dc.subject	big data	en_US
dc.subject	machine learning	en_US
dc.subject	Python-based technologies	en_US
dc.title	Managementul datelor prin aplicarea algoritmilor de învățare automată	en_US
dc.type	Thesis	en_US