Clasificarea automatizată a tichetelor folosind algoritmi de procesare a limbajului natural și metode de învățare profundă

ȚURCAN, Cătălin

DSpace Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Ingineria software (IS)
→
2024
→
View Item

dc.contributor.advisor	BEŞLIU, Corina
dc.contributor.advisor	CATRUC, Mariana
dc.contributor.author	ȚURCAN, Cătălin
dc.date.accessioned	2024-02-28T08:59:17Z
dc.date.available	2024-02-28T08:59:17Z
dc.date.issued	2024
dc.identifier.citation	ȚURCAN, Cătălin. Clasificarea automatizată a tichetelor folosind algoritmi de procesare a limbajului natural și metode de învățare profundă: tz. de master: Programul de studiu: Ingineria software. Cond. şt. BEŞLIU Corina, 2024.	en_US
dc.identifier.uri	http://repository.utm.md/handle/5014/26562
dc.description	Fişierul ataşat conţine:Abstract, Rezumat, Contents, Introduction, References.	en_US
dc.description.abstract	In short, this paper discusses the real world advantages of implementing an automated ticket classification. Before reaching the final solution, the required data must be transformed from its original state, in one better suited for the machine learning model. Along the way, multiple challenges were found. Further down, it will be discussed how these problems were identified, what is their impact on the performance of the model, and how the problems can be fixed. Such problems include the presence of multiple languages. There is a lot of text, all in different languages and they are also very unbalanced. The common approaches are either balancing them using oversampling and undersampling methods, or discarding the uncommon languages altogether. Another problem is the unbalanced classes inside the data. The presence of a hierarchical structure for the labels is not a problem in itself, but it can be challenging to correctly implement a model which takes advantage of this extra data. The scope of this paper is to look into different encoding and classification techniques and observe if the recent advancements in pre-trained models give an obvious advantage in the ticket classification problem. For this purpose the traditional encoding and classification methods like naive bayes, linear regression and decision tree are compared to using a large pre-trained model, in this case Distil-Bert-Multilingual. The observed challenges in this specific case is identifying the performance metrics for all these methods against a dataset that has a high degree of class imbalance as well as the presence of multiple languages in the dataset. The approach is simple and consists of three parts. The first part is exploring the data and observing all the particularities of the dataset. In this case it was observed that there are a lot of classes present for classification and there are a lot of distinct languages like German, Italian, English, Maltese, etc. The next part is cleaning the data, balancing the classes using different techniques like: SMOTE, random oversampling, random undersampling, and making the choice of a model, which can perform well based on the particularities found in the first step. In this case DistilBert-Multilingual was chosen, for its encoding support of multiple languages as well as being lightweight, therefore easier computationally. The final step is obtaining and interpreting the results, which in this case, show that using a large, easily obtainable, open-source model yields better results. In short, the worst result using a pre-trained model, returned an accuracy of 59%, while the best of the traditional methods yielded 55.3%, with the worst being 37.66% using naive bayes. The contribution of this paper is to emphasize the fact that using a large pre-trained model, capable of understanding general knowledge, significantly improves the accuracy of the system, without a significant increase in computing requirements.	en_US
dc.description.abstract	Pe scurt, această lucrare discută avantajele din lumea reală ale implementării unei clasificări automate a biletelor. Înainte de a ajunge la soluția finală, datele necesare trebuie transformate din starea inițială, într-una mai potrivită pentru modelul de învățare automată. Pe parcurs, au fost găsite multiple provocări. Mai jos, se va discuta cum au fost identificate aceste probleme, care este impactul lor asupra performanței modelului și cum pot fi rezolvate problemele. Astfel de probleme includ prezența mai multor limbi. Există o mulțime de texte, toate în limbi diferite și, de asemenea, sunt foarte dezechilibrate. Abordările comune sunt fie echilibrarea lor folosind metode de supraeșantionare și subeșantionare, fie eliminarea totală a limbilor neobișnuite. O altă problemă o reprezintă clasele dezechilibrate din interiorul datelor. Prezența unei structuri ierarhice pentru etichete nu este o problemă în sine, dar poate fi o provocare să implementezi corect un model care profită de aceste date suplimentare. Scopul acestei lucrări este de a analiza diferite tehnici de codificare și clasificare și de a observa dacă progresele recente în modelele pre-antrenate oferă un avantaj evident în problema clasificării biletelor. În acest scop, metodele tradiționale de codificare și clasificare precum bayes naive, regresie liniară și arbore de decizie sunt comparate cu utilizarea unui model mare pre-antrenat, în acest caz Distil-Bert-Multilingual. Provocările observate în acest caz specific este identificarea valorilor de performanță pentru toate aceste metode în raport cu un set de date care are un grad ridicat de dezechilibru de clasă, precum și prezența mai multor limbi în setul de date. Abordarea este simplă și constă din trei părți. Prima parte este explorarea datelor și observarea tuturor particularităților setului de date. În acest caz s-a observat că există o mulțime de clase prezente pentru clasificare și există o mulțime de limbi distincte precum germană, italiană, engleză, malteză etc. Următoarea parte este curățarea datelor, echilibrarea claselor folosind diferite tehnici precum : SMOTE, supraeșantionare aleatoare, subeșantionare aleatoare și alegerea unui model, care poate funcționa bine pe baza particularităților găsite în primul pas. În acest caz, a fost ales DistilBert-Multilingual, pentru suportul său de codificare pentru mai multe limbi, precum și pentru faptul că este ușor, deci mai ușor din punct de vedere computațional. Pasul final este obținerea și interpretarea rezultatelor, care în acest caz arată că utilizarea unui model open-source mare, ușor de obținut, dă rezultate mai bune. Pe scurt, cel mai prost rezultat folosind un model pre-antrenat, a returnat o precizie de 59%, în timp ce cele mai bune metode tradiționale au dat 55,3%, cel mai rău fiind 37,66% folosind bayes naive. Contribuția acestei lucrări este de a sublinia faptul că utilizarea unui model pre instruit mare, capabil să înțeleagă cunoștințele generale, îmbunătățește semnificativ precizia sistemului, fără o creștere semnificativă a cerințelor de calcul.	en_US
dc.language.iso	en	en_US
dc.publisher	Universitatea Tehnică a Moldovei	en_US
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.subject	automated ticket classification	en_US
dc.subject	machine learning model	en_US
dc.subject	multiple languages	en_US
dc.subject	clasificare automată a biletelor	en_US
dc.subject	model de învățare automată	en_US
dc.subject	tehnici de codificare	en_US
dc.title	Clasificarea automatizată a tichetelor folosind algoritmi de procesare a limbajului natural și metode de învățare profundă	en_US
dc.type	Thesis	en_US