Această lucrare de cercetare a fost realizată pentru a studia eficiența utilizătii metodelor lingvistive auto-supervizate în sarcina de a detecta articolele media false. Astfel, s-au studiat metodele existente de detectare a articolelor media false, studiind și aspectele favorabile, cât și cele mai puțin favorabile. Utilitatea inteligenței artificiale crește cu pași majori în ultimul deceniu, fiind folosită pentru eficientizarea și îmbunătățirea proceselor ce anterior erau realizate manual de către oameni sau alte metode mai puțin eficiente. În domeniul procesării limbajului natural, deasemenea, au avut loc progrese majore mai ales în direcția tehnologiilor ce sunt folosite pentru reprezentarea cuvintelor ca vectori, deoarece calculatorul nu înțelege textul, pentru a transmite informațiile către modelul de clasificare. Există modele fără context care generează o reprezentare a unui singur cuvânt pentru fiecare din vocabular, dar sunt modelele contextuale (cum ar fi BERT, GPT) care iau în considerare și contextul în care este poziționat cuvântul. Aceste modele sunt pre-antrenate pe o cantitate imensă de date și generează vectori mai performanti pentru cuvinte. Marile companii ce au acces la o cantitate imensă de date au dezvoltat modele lingvistive ce au fost pre-antrenate pe acestea. Astfel, aceste modele pre-antrenate transformă cuvintele în vectori mult mai valoroși, prin urmare obținând performanțe remarcabile în sarcinile în care sunt aplicate.
This research paper was carried out to study the effectiveness of using self-supervised linguistic methods in the task of detecting fake media articles. Thus, the existence of detecting fake media articles was studied, studying both the favorable and the less favorable aspects. The utility of artificial intelligence is growing by leaps and bounds in the last decade, being used to streamline and increase processes that were previously done manually by humans or other less efficient ones. In the field of natural language processing, also, there have been major advances especially in the direction of technologies that are used to represent words as vectors, since the computer does not understand the text, to transmit the information to the classification model. There are context-free models that generate a representation of a single word for each word in the vocabulary, but it is the contextual models (such as BERT, GPT) that also take into account the context in which the word is positioned. These models are pre-trained on a huge amount of data and generate better performing word vectors. Big companies that have access to a huge amount of data have developed language models that have been pre-trained on it. Thus, these pre-trained models transform words into much more valuable vectors, thereby achieving outstanding performance in the tasks in which they are applied.