Această teză abordează procesarea limbajului natural (PLN) pentru analiza datelor textuale generate de rețelele sociale, cu scopul de a dezvolta metode automatizate de colectare, preprocesare și interpretare a datelor. Lucrarea este structurată în mai multe capitole, fiecare având un rol specific în fundamentarea teoretică și aplicativă a subiectului. Introducerea oferă contextul și relevanța studiului, subliniind importanța utilizării PLN pentru gestionarea volumelor mari de date textuale și transformarea acestora în informații valoroase. Se definesc scopul și obiectivele tezei, evidențiind nevoia de soluții automatizate pentru analiza textului din rețelele sociale. Capitolul 1 analizează procesele fundamentale de prelucrare a limbajului natural. Sunt descrise contextul și importanța PLN, tehnicile și metodele utilizate, precum și aplicațiile acestora în diverse domenii. De asemenea, se discută specificul textului din rețelele sociale și provocările pe care le prezintă în analiza automată. Capitolul 2 se concentrează pe metodele de colectare și pregătire a datelor din rețelele sociale. Se prezintă sursele de date, clasificarea platformelor sociale și tipurile de date disponibile, inclusiv text, metadate și conținut multimedia. Se discută metodele de preprocesare, precum eliminarea zgomotului, tokenizarea și normalizarea, alături de provocările etice și tehnice asociate acestora. Concluziile sintetizează contribuțiile și rezultatele obținute, subliniind importanța tehnologiilor de PLN pentru analiza textului din rețelele sociale. Sunt identificate direcții viitoare de cercetare și provocările care trebuie abordate pentru îmbunătățirea aplicațiilor existente. Lucrarea aduce o contribuție în domeniul procesării limbajului natural, oferind un cadru teoretic și practic pentru analiza datelor textuale din rețelele sociale, cu aplicații în marketing, cercetare socială și alte domenii relevante.
This thesis explores natural language processing (NLP) for analyzing textual data generated from social networks, aiming to develop automated methods for data collection, preprocessing, and interpretation. The thesis is structured into several chapters, each contributing to the theoretical and practical understanding of the subject. The introduction provides the context and relevance of the study, highlighting the importance of using NLP to manage large volumes of textual data and transform them into valuable insights. The objectives and purpose of the thesis are defined, emphasizing the need for automated solutions for analyzing social media text. Chapter 1 examines the fundamental processes of natural language processing. It describes the context and significance of NLP, the techniques and methods used, as well as its applications across various fields. Additionally, it discusses the specific characteristics of social media text and the challenges it presents for automated analysis. Chapter 2 focuses on methods for collecting and preparing data from social networks. It presents data sources, the classification of social platforms, and the types of data available, including text, metadata, and multimedia content. The chapter covers preprocessing methods such as noise reduction, tokenization, and normalization, alongside ethical and technical challenges associated with these processes. The conclusions summarize the contributions and results, emphasizing the significance of NLP technologies for analyzing social media text. Future research directions and challenges to be addressed for improving current applications are also identified. This thesis makes a contribution to the field of natural language processing, offering both theoretical and practical frameworks for analyzing textual data from social networks, with applications in marketing, social research, and other relevant domains.