0

Klasifikacija teksta i analiza sentimenta rečenica na srpskom jeziku

Klasifikacija teksta i analiza sentimenta predstavljaju jedan od problema oblasti koja se naziva procesuiranje prirodnog jezika. Ova oblast spaja nekoliko nauka poput računarstva, veštačke inteligencije i lingvistike. Problem koji rešava klasifikacija teksta je klasifikacija nepoznatih dokumenata u korisnički preddefinisane klase. Analiza sentimenta je specijalan slučaj klasifikacije teksta u kome postoje dve klase – pozitivna i negativna. Na ovaj način ovo predstavlja binarnu klasifikaciju. Međutim postojanje 2 klase ne olakšava posao, jer se pri ovoj klasifikaciji radi sa ljudskim emocijama i osećanjima. Kako problem klasifikacije teksta, tako i problem analize sentimenta se rešavaju uz pomoć algoritama supervizovanog mašinskog učenja. Supervizovano mašinsko učenje je učenje gde se algoritmu pokazuju prvo rešeni primeri, na osnovu kojih on uči kako da rešava problem. Prilično slično je odvođenju deteta u školu. Postoji takođe nesupervizovano učenje, gde se algoritam pušta da radi odmah na novim podacima. Međutim klasifikacija teksta se ne može rešiti pomoću takvog algoritma.

Sentiment analysis

Danas stanje sa procesuiranjem srpskog jezika je prilično loše. Jako malo ljudi se bavi rešavanjem problema iz ove oblasti, pa je tako na nedavnoj konferenciji u hotelu Hajat povodom obeležavanja svetskog dana jezičkih tehnologija rečeno da srpskom jeziku preti virtuelno izumiranje (http://www.b92.net/tehnopolis/aktuelno.php?yyyy=2012&mm=10&nav_id=655860)

Ovim radom želeo sam malo da doprinesem oblasti i srpskom jeziku u virtelnom svetu. Tako u radu je opisan rad na trenutno verovatno najpreciznijem stemmer-u za srpski jezik, kao i klasifikatoru sentimenta, koji radi uz pomoć Naive Bayes algoritma. Pored Naive Bayes algoritma, klasifikator sentimenta koristi još neke obrade, poput obrada negacija, stop termine, takođe koristi Laplace-ovo poravnanje (Laplace smoothing). Pomoću Laplasovog poravnanja se rešava problem pojave novih reči u novim dokumentima, koje nisu bile poznate u trening setu i određivanje njihovog sentimenta.

Rad u celini možete preuzeti i pročitati sa sledećeg linka:

Analiza sentimenta rečenica na srpskom jeziku (master rad) – Nikola Milošević

Born in Bratislava, Slovakia, lived in Belgrade, Serbia, now living in Manchester, UK, and visitng the world. Nikola is a great enthusiast of AI, natural language processing, machine learning, web application security, open source, mobile and web technologies. Looking forward to create future. Nikola has done PhD in natural language processing and machine learning at the University of Manchester where he works at the moment.

Twitter LinkedIn Google+ YouTube Xing  

email
Liked it? Take a second to support Nikola Milošević on Patreon!

Leave a Reply

Your email address will not be published. Required fields are marked *