Abstract:
Se prezintă un sistem care să asiste generarea unui fişier de intrare pentru implementarea CRF++ a modelului Conditional Random Fields. CRF++ are nevoie de un astfel de fişier pentru a construi un model care să permită detectarea opiniilor şi a aspectelor de interes pentru utilizatorii dintr-un anumit domeniu. Generatorul este implementat sub forma unui editor intuitiv şi flexibil, capabil să ofere mai multe facilităţi avansate. Astfel, se oferă posibilitatea de etichetare morfologică pentru limba română cu un nivel de precizie ridicat, chiar şi în cazul scrierii fără diacritice, prin dezvoltarea unei implementări Hidden Markov Model existente. De asemenea, este posibilă etichetarea automată a unor coloane, pe baza importului datelor din fişiere. Se permite clonarea propoziţiilor pe bază de sinonime, ceea ce permite mărirea rapidă a setului de date de antrenament pentru CRF++. Se demonstrează calitatea soluţiei prin măsurători cantitative de acurateţe şi prin prezentarea unor exemple ilustrative de rezultate.