IRTUM – Institutional Repository of the Technical University of Moldova

Instrumente de parafrazare a textului utilizând metodele PLN

Show simple item record

dc.contributor.advisor MORARU, Vasile
dc.contributor.author PETRACHI, Alexandru
dc.date.accessioned 2024-04-04T10:51:15Z
dc.date.available 2024-04-04T10:51:15Z
dc.date.issued 2023
dc.identifier.citation PETRACHI, Alexandru. Instrumente de parafrazare a textului utilizând metodele PLN: tz. de master: Programul de studiu: Mаnаgеmеtul Аpliсаțiilоr Infоrmаțiоnаlе. Cond. şt. MORARU Vasile. Universitatea Tehnică a Moldovei. Chişinău, 2023. en_US
dc.identifier.uri http://repository.utm.md/handle/5014/26742
dc.description Fişierul ataşat conţine: Rezumat, Abstract, Cuprins, Introducere, Bibliografie. en_US
dc.description.abstract Prin intermediul tezei de master ne-am propus să creăm și să evaluăme diverse metode de parafrazare în limba română. Proiectul a început prin ajustarea fină a unui model de similaritate semantică și a modelelor de traducere (EN-RO, RO-EN și FI-RO). A urmat reglarea fină a unui model gramatical și a unui model de parafrazare. A fost creat un set de date pentru pre-training și a fost actualizat constant, ajungând la peste patru milioane de înregistrări. În ceea ce privește rezultatele metodelor de parafrazare, am testat mai multe abordări, inclusiv înlocuirea sinonimelor, traducerea inversa și diverse modele de parafrazare precum Flan-t5-small, Flan-t5-base, Flan-t5-large și pipeline. Am evaluat aceste metode folosind o abordare de evaluare umană, care a arătat că metoda pipeline a avut cea mai bună performanță. În plus, această lucrare are o valoare semnificativă pentru comunitatea PLN, deoarece oferă acces la mai multe modele ajustate care pot fi utilizate pentru diverse aplicații, cum ar fi clasificarea textului, analiza sentimentelor, traducerea automată și multe altele. În plus, munca noastră evidențiază importanța creării de seturi de date mari și diverse pentru modelele de pre-instruire, precum și necesitatea evaluării umane pentru a evalua cu precizie performanța acestor modele. Pe scurt, această lucrare a contribuit la avansarea procesării limbajului natural în limba română și poate servi drept resursă valoroasă pentru cercetătorii și practicienii din acest domeniu. Sperăm că munca noastră va inspira cercetări și dezvoltare în continuare în acest domeniu și, în cele din urmă, va conduce la aplicații de procesare a limbajului natural mai precise și mai eficiente pentru limba română. en_US
dc.description.abstract Through the master's thesis, we set out to create and evaluate various methods of paraphrasing in Romanian. The project started by fine-tuning a semantic similarity model and translation models (EN-RO, RO-EN and FI-RO). Fine-tuning a grammar model and a paraphrasing model followed. A pre-training dataset was created and constantly updated, reaching over four million records. Regarding the results of paraphrasing methods, we tested several approaches, including synonym replacement, reverse translation, and various paraphrasing models such as Flan-t5-small, Flan-t5-base, Flan-t5-large, and pipeline. We evaluated these methods using a human evaluation approach, which showed that the pipeline method performed best. Furthermore, this work is of significant value to the PLN community as it provides access to several tuned models that can be used for various applications such as text classification, sentiment analysis, machine translation, and more. Furthermore, our work highlights the importance of creating large and diverse datasets for pre-training models, as well as the need for human evaluation to accurately assess the performance of these models. In short, this work has contributed to the advancement of natural language processing in Romanian and can serve as a valuable resource for researchers and practitioners in this field. We hope that our work will inspire further research and development in this area and ultimately lead to more accurate and efficient natural language processing applications for the Romanian language. en_US
dc.language.iso ro en_US
dc.publisher Universitatea Tehnică a Moldovei en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject set de date (dataset) en_US
dc.subject învățare automată en_US
dc.subject îInvătare profundă en_US
dc.subject Natural Language Processing (NLP) en_US
dc.subject paraphrasing en_US
dc.subject fine-tune en_US
dc.title Instrumente de parafrazare a textului utilizând metodele PLN en_US
dc.type Thesis en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account