dc.contributor.advisor | MORARU, Vasile | |
dc.contributor.author | PETRACHI, Alexandru | |
dc.date.accessioned | 2024-04-04T10:51:15Z | |
dc.date.available | 2024-04-04T10:51:15Z | |
dc.date.issued | 2023 | |
dc.identifier.citation | PETRACHI, Alexandru. Instrumente de parafrazare a textului utilizând metodele PLN: tz. de master: Programul de studiu: Mаnаgеmеtul Аpliсаțiilоr Infоrmаțiоnаlе. Cond. şt. MORARU Vasile. Universitatea Tehnică a Moldovei. Chişinău, 2023. | en_US |
dc.identifier.uri | http://repository.utm.md/handle/5014/26742 | |
dc.description | Fişierul ataşat conţine: Rezumat, Abstract, Cuprins, Introducere, Bibliografie. | en_US |
dc.description.abstract | Prin intermediul tezei de master ne-am propus să creăm și să evaluăme diverse metode de parafrazare în limba română. Proiectul a început prin ajustarea fină a unui model de similaritate semantică și a modelelor de traducere (EN-RO, RO-EN și FI-RO). A urmat reglarea fină a unui model gramatical și a unui model de parafrazare. A fost creat un set de date pentru pre-training și a fost actualizat constant, ajungând la peste patru milioane de înregistrări. În ceea ce privește rezultatele metodelor de parafrazare, am testat mai multe abordări, inclusiv înlocuirea sinonimelor, traducerea inversa și diverse modele de parafrazare precum Flan-t5-small, Flan-t5-base, Flan-t5-large și pipeline. Am evaluat aceste metode folosind o abordare de evaluare umană, care a arătat că metoda pipeline a avut cea mai bună performanță. În plus, această lucrare are o valoare semnificativă pentru comunitatea PLN, deoarece oferă acces la mai multe modele ajustate care pot fi utilizate pentru diverse aplicații, cum ar fi clasificarea textului, analiza sentimentelor, traducerea automată și multe altele. În plus, munca noastră evidențiază importanța creării de seturi de date mari și diverse pentru modelele de pre-instruire, precum și necesitatea evaluării umane pentru a evalua cu precizie performanța acestor modele. Pe scurt, această lucrare a contribuit la avansarea procesării limbajului natural în limba română și poate servi drept resursă valoroasă pentru cercetătorii și practicienii din acest domeniu. Sperăm că munca noastră va inspira cercetări și dezvoltare în continuare în acest domeniu și, în cele din urmă, va conduce la aplicații de procesare a limbajului natural mai precise și mai eficiente pentru limba română. | en_US |
dc.description.abstract | Through the master's thesis, we set out to create and evaluate various methods of paraphrasing in Romanian. The project started by fine-tuning a semantic similarity model and translation models (EN-RO, RO-EN and FI-RO). Fine-tuning a grammar model and a paraphrasing model followed. A pre-training dataset was created and constantly updated, reaching over four million records. Regarding the results of paraphrasing methods, we tested several approaches, including synonym replacement, reverse translation, and various paraphrasing models such as Flan-t5-small, Flan-t5-base, Flan-t5-large, and pipeline. We evaluated these methods using a human evaluation approach, which showed that the pipeline method performed best. Furthermore, this work is of significant value to the PLN community as it provides access to several tuned models that can be used for various applications such as text classification, sentiment analysis, machine translation, and more. Furthermore, our work highlights the importance of creating large and diverse datasets for pre-training models, as well as the need for human evaluation to accurately assess the performance of these models. In short, this work has contributed to the advancement of natural language processing in Romanian and can serve as a valuable resource for researchers and practitioners in this field. We hope that our work will inspire further research and development in this area and ultimately lead to more accurate and efficient natural language processing applications for the Romanian language. | en_US |
dc.language.iso | ro | en_US |
dc.publisher | Universitatea Tehnică a Moldovei | en_US |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
dc.subject | set de date (dataset) | en_US |
dc.subject | învățare automată | en_US |
dc.subject | îInvătare profundă | en_US |
dc.subject | Natural Language Processing (NLP) | en_US |
dc.subject | paraphrasing | en_US |
dc.subject | fine-tune | en_US |
dc.title | Instrumente de parafrazare a textului utilizând metodele PLN | en_US |
dc.type | Thesis | en_US |
The following license files are associated with this item: