Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova

(eng. Advancing Novel Textual Similarity-based Solutions in Software Development)

Program za razvoj projekata
iz oblasti veštačke inteligencije
(finansiran od Fonda za nauku Republike Srbije)

O projektu

Vesti

U ovoj sekciji biće objavljivane najsvežije vesti našeg projektnog tima.



4 naučna rada na međunarodnoj IEEE konferenciji "TELFOR 2021"

22.11.2021.

Na međunarodnoj konferenciji "TELFOR 2021" istraživači iz AVANTES projektnog tima prezentovaće 4 naučna rada iz istraživanja na ovom projektu.
U utorak, 23. novembra 2021. (14:30, sekcija Softverski alati 1), biće prezentovan rad "Software system for improving communication of children with disabilities in the Serbian language", autora koleginice Tamare Šekularac i dr Dražena Draškovića.
U sredu, 24. novembra 2021. (17:00, sekcija Softverski alati 6), biće prezentovan rad po pozivu - "Semantic Similarity and Sentiment Analysis of Short Texts in Serbian", kolege dr Vuka Batanovića. Istoga dana biće prezentovani radovi "US address classification based on text processing and machine learning" (17:20 sekcija Softverski alati 6) autora Ivane Munjas i dr Vuka Batanovića, i "Evaluation of text messages using convolutional neural networks" (8:30, sekcija Softverski alati 3) autora Vladimira Otaševića, dr Dražena Draškovića i dr Boška Nikolića.
Svi radovi biće dostupni na IEEE Explore portalu u decembru 2021, a apstrakte možete pročitati na veb sajtu, u sekciji "Rezultati" => "Objavljeni radovi".



Učešće na regionalnoj konferenciji "Data Science 2021" i nacionalnom samitu

20.11.2021.

Šestoro istraživača iz AVANTES projetnog tima uzeće učešće u radu "Data Science Conference 2021". U ponedeljak, 22. novembra 2021., u Beogradu će biti održan nacionalni "Data Science Summit", na kome će učestvovati istraživači iz relevatnih akademskih i naučnih institucija, predstavnici IT industrije, nevladinih organizacija i međunarodnih organizacija, kao i predstavnici AI instituta. Tematika 11 okruglih stolova obuhvatiće sledeće teme: Obrada prirodnih jezika i konverzacija pomoću veštačke inteligencije (AI), Etička upotreba AI, Održivost zasnovana na podacima, Implementacija modela, Mašinski i kompjuterski vid, Mogućnosti saradnje između industrije i akademske zajednice, Komercijalna primena veštačke inteligencije i mašinskog učenja, Otvoreni podaci - projekti i mogućnosti, Kako iskoristiti AI institut za razvoj ekosistema, Uticaj AI na društvo i Staž i beneficije - gde su granice?

U periodu 23-25. novembar, održaće se veći broj stručnih predavanja predstavnika IT industrije iz cele Evrope, veći broj stručnih radionica, kao i panel diskusija, u okviru "Data Science 2021" konferencije.



AVANTES tim u mreži evropskih istraživačkih institucija

06.10.2021.

Dr Dražen Drašković, član našeg istraživačkog tima, postao je koordinator evropskog projekta Horizon 2020 - EUROPEAN FEDERATION OF DATA DRIVEN INNOVATION HUBS (“EUHubs4Data”). U dvogodišnjem projektu, u periodu januar 2022 - decembar 2023, naš istraživački tim će na Elektrotehničkom fakultetu u Beogradu formirati istraživačku laboratoriju za obradu podataka - "Belgrade Data Innovation Hub" (BELDIH), a biće urađena i dva eksperimenta nad velikim podacima u saradnji sa dve evropske istraživačke institucije. Nadamo se da je nacionalni projekat AVANTES samo prvi korak ka drugim nacionalnim i evropskim projektima, na kojima će naš tim raditi u budućnosti.



Intervju sa našim najmlađim članom istraživačkog tima

01.10.2021.

Naš najmlađi član istraživačkog tima, Marija Kostić, pored angažovanja na projektu, tokom leta radila je stručnu praksu, a istovremeno završava dvogodišnje master studije "Napredne informacione tehnologije u digitalnoj transformaciji", čime će uskoro steći i drugu master diplomu. Intervju nedeljnih novina "Blic Žena" sa koleginicom Marijom možete pročitati na OVOM LINKU.

Gostovanje na RTV

27.08.2021.

U emisiji "Nauka privredi" pričali smo o našem projektu AVANTES. Emisiju možete pogledati na OVOM LINKU.

Anotacija korpusa

30.07.2021.

Anotacija korpusa za kategorizaciju komentara iz programskog koda objavljena je u sekciji "Resursi".

Poziv za učešće u radionici

17.02.2021.

Sa željom da napravimo kratku prezentaciju o ciljevima i planiranim aktivnostima našeg istraživačkog tima na ovom projektu, ali i drugim istraživačkim i razvojnim projektima iz oblasti obrade prirodnih jezika, mašinskog učenja, analize podataka, na kojima radimo na Elektrotehničkom fakultetu u Beogradu, pri Katedri za računarsku tehniku i informatiku, i u okviru Inovacionog centra ETF, organizujemo onlajn radionicu u četvrtak, 25.02.2021. godine u 12:00.

Radionica će se sastojati iz dve sesije:
1) Prezentacija projekta AVANTES i istraživačkog rada iz gorenavedenih oblasti.
2) Okrugli sto, sa diskusijama predstavnika resornih ministarstava, NGO sektora, IT kompanija i akademske zajednice.

Pozivamo sve zainteresovane da se prijave putem sledećeg linka.

Učešće na nacionalnoj konferenciji "Serbian AI Meeting"

31.01.2021.

Članovi AVANTES projektnog tima učestvovali su 18. decembra 2020. godine na nacionalnoj konferenciji "Serbian AI Meeting". Učešće na ovogodišnjoj konferenciji uzelo je više od 100 istraživača iz Srbije i naših istraživača koji rade u inostranstvu, na univerzitetima, naučnim institutima i poznatim razvojnim centrima svetskih kompanija. Tematske oblasti koje su bile obuhvaćene: opšta veštačka inteligencija, formalna logika i rezonovanje, mašinsko učenje i obrada prirodnih jezika. Slajdovi svih predavača se nalaze na sledećem linku. Ceo snimak događaja možete pogledati OVDE.



Kolega Vuk Batanović odbranio doktorsku disertaciju

25.01.2021.

Član našeg AVANTES tima, Vuk Batanović, krajem decembra 2020. godine, odbranio je svoju doktorsku disertaciju na temu "Metodologije rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima" pod mentorstvom prof. dr Boška Nikolića i prof. dr Miloša Cvetanovića.

Čestitamo dr Vuku Batanoviću na predanom radu tokom doktorskih studija, i izrade disertacije, i želimo mnogo uspeha u daljem istraživačkom radu.



Objavljen naučni rad u prestižnom naučnom časopisu PLOS ONE

16.11.2020.

Naučno-istraživački rad pod nazivom "A versatile framework for resource-limited sentiment articulation, annotation, and analysis of short texts" autora Vuka Batanovića, Miloša Cvetanovića i Boška Nikolića, objavljen je u prestižnom naučnom časopisu PLOS ONE. Apstrakt rada i link do samog naučnog rada je moguće pogledati u sekciji Rezultati - Objavljeni radovi.

Virtuelna PSSOH konferencija

27.10.2020.

Članovi našeg projektnog tima, Zaharije Radivojević i Vuk Batanović, učestvovali su na trećoj PSSOH konferenciji, pod nazivom "Primena slobodnog softvera i otvorenog hardvera" u organizaciji Elektrotehničkog fakulteta Univerziteta u Beogradu, na kojoj su predstavili rezultate svog rada, u sklopu projektnih aktivnosti projekta AVANTES.

Otvorena izložba posvećena naučnim projektima iz oblasti veštačke inteligencije

10.10.2020.

Izložba posvećena naučnim projektima iz oblasti veštačke inteligencije, koju je Fond za nauku Republike Srbije organizovao sa Centrom za promociju nauke, otvorena je na Savskom šetalištu na Kalemegdanskoj tvrđavi u petak, 9. oktobra. Svaki naučni projekat prikazan je posterom koji oslikava istraživanje. Članovi projektnog tima AVANTES prisustvovali su otvaranju izložbe i razgovarali sa posetiocima. Izložba je otvorena do 23. oktobra.

Inicijalni sastanak projektnog tima

31.8.2020.

Članovi projektnog tima projekta AVANTES održali su svoj prvi sastanak na kome su podelili svoja zaduženja i zadatke za period od naredna tri meseca.



Projekat AVANTES visoko rangiran

15.8.2020.

U okviru Programa za razvoj projekata iz oblasti veštačke inteligencije, Fond za nauku Republike Srbije finansiraće 12 projekata. Od 70 projektnih predloga, na javnom konkursu zatvorenom 31.1.2020. godine, odabrano je 6 projekata iz osnovnih i 6 iz primenjenih istraživanja. Naš naučni tim i predlog projekta ostvarili su odličan rezultat od 91 poena na konačnoj rang listi projekata i rangirani su na visokom drugom mestu od 12 projekata koji će se finansirati u toku naredne dve godine.



Informacije o projektu

Akronim: AVANTES

Rezultat bliske saradnje istraživača iz naizgled udaljenih naučnih oblasti biće novi sistem koji će olakšati rad softverskim inženjerima, ali i lingvistima koji proučavaju srpski jezik.

Period: sept. 2020 - sept. 2022

Budžet: 198,261.12 €

Interdisciplinarni istraživački tim razviće inteligentni alat za prepoznavanje semantičke sličnosti između delova softverskog sistema ispisanih na programskim jezicima i komentarima na prirodnim jezicima. Posebnu pažnju istraživači će usmeriti na rešavanje problema sličnosti između dva teksta različitih dužina, pre svega na srpskom, uz upoređivanje sa rezultatima dobijenim za engleski jezik. Takođe, realizovani sistem će moći da prepozna duplikate delova softvera. Za potrebe projekta koristiće se novi metodi za analizu programskog koda koji podrazumevaju upotrebu tehnika mašinskog učenja i veštačke inteligencije.

Osim alata za utvrđivanje sličnosti između delova softvera i unesenih komentara, grupa softverskih inženjera i lingvista formiraće i novi algoritam za pretragu koda prema značenju, tačnije putem upita na prirodnom jeziku (srpskom i engleskom).

Projekat AVANTES od velikog je značaja za Srbiju, jer će istraživači formirati skupove anotiranih podataka i uvesti inovacije u postojeće tehnologije za obradu srpskog jezika, za koji je trenutno dostupno daleko manje resursa nego za veće jezike poput engleskog. To će olakšati rad softverskim inženjerima u našoj zemlji, ali i lingvistima koji se bave istraživanjem srpskom jezika.

Članovi tima

Tim je multidisciplinaran i čine ga istraživači sa Elektrotehničkog fakulteta Univerziteta u Beogradu, Filološkog fakulteta Univerziteta u Beogradu i Inovacionog centra Elektrotehničkog fakulteta.



Prof. dr Boško Nikolić

Rukovodilac projekta

Prof. dr Zaharije Radivojević

Član projektnog tima

Doc. dr Dražen Drašković

Član projektnog tima

Dr Vuk Batanović

Član projektnog tima

Vladimir Jocović, master inž. el. i rač.

Član projektnog tima

Tamara Šekularac, master inž. el. i rač.

Član projektnog tima

Marko Mićović, master inž. el. i rač.

Član projektnog tima

Uroš Radenković, master inž. el. i rač.

Član projektnog tima

Jelica Cincović, master inž. el. i rač.

Član projektnog tima

Adrian Milaković, master inž. el. i rač.

Član projektnog tima

Dušan Stojković, master inž. el. i rač.

Član projektnog tima

Aleksa Srbljanović, dipl. el. inž.

Član projektnog tima

Prof. dr Maja Miličević Petrović

Član projektnog tima

Prof. dr Radoslava Trnavac

Član projektnog tima

Doc. dr Tanja Samardžić

Član projektnog tima

Prof. dr Borko Kovačević

Član projektnog tima

Resursi

Ovde će biti prikazani resursi koji će biti objavljeni tokom trajanja projekta.

Anotacija korpusa

objavljeno 30.07.2021.

Anotacija korpusa za kategorizaciju komentara iz programskog koda

Objavljeni radovi

U ovoj sekciji biće objavljivani radovi sa konferencija i iz naučnih časopisa.

  • V.Batanović et al., "Open Resources and Technologies for Serbian Language Processing"

    V.Batanović, N.Ljubešić, T. Samardžić, M. Miličević Petrović, "Open Resources and Technologies for Serbian Language Processing", PSSOH conference, Belgrade, Oct. 2020
    Link: https://zenodo.org/record/4113230#.X6GcaohKiUk
    Apstrakt: Otvorenost jezičkih resursa i alata je od velike važnosti za povećanje kvaliteta i brzine razvoja tehnologija za računarsku obradu prirodnih jezika. U ovom radu predstavljeni su otvoreni resursi za obradu srpskog jezika. Opisani su ručno anotirani korpusi, kao i širi spektar alata i računarskih modela, uključujući i veb servis koji omogućava njihovo jednostavno korišćenje.

  • V. Batanović, M.Cvetanović, B.Nikolić, "A versatile framework for resource-limited sentiment articulation, annotation, and analysis of short texts", PLoS ONE 15(11): e0242050. https://doi.org/10.1371/journal.pone.0242050
    Link: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0242050
    Apstrakt:
    Choosing a comprehensive and cost-effective way of articulating and annotating the sentiment of a text is not a trivial task, particularly when dealing with short texts, in which sentiment can be expressed through a wide variety of linguistic and rhetorical phenomena. This problem is especially conspicuous in resource-limited settings and languages, where design options are restricted either in terms of manpower and financial means required to produce appropriate sentiment analysis resources, or in terms of available language tools, or both. In this paper, we present a versatile approach to addressing this issue, based on multiple interpretations of sentiment labels that encode information regarding the polarity, subjectivity, and ambiguity of a text, as well as the presence of sarcasm or a mixture of sentiments. We demonstrate its use on Serbian, a resource-limited language, via the creation of a main sentiment analysis dataset focused on movie comments, and two smaller datasets belonging to the movie and book domains. In addition to measuring the quality of the annotation process, we propose a novel metric to validate its cost-effectiveness. Finally, the practicality of our approach is further validated by training, evaluating, and determining the optimal configurations of several different kinds of machine-learning models on a range of sentiment classification tasks using the produced dataset.

  • S. Tubić, M. Cvetanović, Z. Radivojević, S. Stojanović, "Annotated functional decomposition", COMPUTER APPLICATIONS IN ENGINEERING EDUCATION, pp. 1-13, March, 2021
    Link: https://onlinelibrary.wiley.com/doi/10.1002/cae.22394
    Apstrakt: Experiences gained from the domain‐specific courses showed that students focus mostly on how to implement solutions and less on what must be considered within the solution. In the case of information systems-related courses, students focus on system development using specific languages and frameworks while often disregard the required logical checks and constraints. This paper introduces annotated functional decomposition (AFD) to assist students in overcoming the challenge of understanding the logic of an information system. AFD leverages methodological concepts from computational thinking and represents a problem decomposition approach that is extended with additional levels of decomposition. These levels of decomposition are orthogonal and implemented with annotations that enrich a decomposition with information regarding control and data flow, as well as reuse and implementation details. AFD could be exercised with a supporting AFD Tool developed as an Eclipse IDE plugin that performs syntax and semantic checks along with the generation of UML sequential diagrams. The AFD Tool and its source code are available free of charge. Quantitative and qualitative evaluations of AFD Tool usage during an information systems course revealed that students who used AFD achieved higher average grades than those who used UML for solving the same problems, and moreover that students perceived AFD as easy to understand and use.

  • M. Kotlar, M. Punt, Z. Radivojević, M. Cvetanović, V.Milutinović, "Novel Meta-Features for Automated Machine Learning Model Selection in Anomaly Detection", IEEE ACCESS (Volume: 3), pp. 89675 - 89687, June, 2021
    Link: https://ieeexplore.ieee.org/document/9461173
    Apstrakt: A growing number of research papers shed light on automated machine learning (AutoML) frameworks, which are becoming a promising solution for building complex machine learning models without human expertise and assistance. The key challenge in enabling AutoML frameworks to build an efficient model for anomaly detection tasks is to determine the best underlying model for a given task and optimization metric. The meta-learning approaches based on a set of meta-features that describes data properties can enable efficient model selection in AutoML frameworks. The existing meta-learning approaches based on statistical and information-theoretic meta-features require large amounts of data and computational resources to extract data properties. This paper proposes a novel set of meta-features for model selection in anomaly detection tasks based on domain-specific properties of data which overcomes the shortcomings of existing meta-features by introducing simple but effective meta-features that can be efficiently extracted or estimated by using a low amount of data. Experiments with 63 datasets from different repositories with varying schemas show that the proposed set of meta-features achieves an accuracy of 87% for model selection, while the achieved accuracy for simple meta-features is 74%, for statistical meta-features 68%, for information theory meta-feature 70%, and for a comprehensive set of meta-features by pyMFE 73%. This demonstrates that the proposed set can be adopted by AutoML frameworks across a diverse range of domains.

  • V. Batanović, "Semantic Similarity and Sentiment Analysis of Short Texts in Serbian", 29th Telecommunications Forum "TELFOR 2021", IEEE Serbia & Montenegro, November 2021
    Link: https://www.telfor.rs/program-naucne-sekcije
    Apstrakt: This paper presents an overview of the open access datasets in Serbian that have been manually annotated for the tasks of semantic textual similarity and short-text sentiment classification. In addition, it describes several kinds of statistical models that have been trained and evaluated on these datasets and discusses their results.

  • V.Otašević, D.Drašković, B.Nikolić, "Evaluation of text messages using convolutional neural networks", 29th Telecommunications Forum "TELFOR 2021", IEEE Serbia & Montenegro, November 2021
    Link: https://www.telfor.rs/program-naucne-sekcije
    Apstrakt: The impossibility of defining the numerical value of text is a major issue when it is necessary to analyze users’ comments and feedbacks about provided services. This paper presents a tool able to overcome this issue. The developed tool, which evaluates text messages, is based on a convolutional neural network. The main goal of this paper is to present the result of the research and tool’s performance in solving the problem of determining the value of text messages.

  • I. Munjas, V.Batanović, "US address classification based on text processing and machine learning", 29th Telecommunications Forum "TELFOR 2021", IEEE Serbia & Montenegro, November 2021
    Link: https://www.telfor.rs/program-naucne-sekcije
    Apstrakt: Addresses represent a crucial type of textual data for real estate companies. In order to identify, fix, or remove incorrect entries, we categorize addresses into one of six predefined classes. In this context, we explore the effects of different text processing and classification methods. The best results are obtained by using non-linear classifiers with a combination of unigram and bigram features.

  • T.Šekularac, D.Drašković, "Software system for improving communication of children with disabilities in the Serbian language", 29th Telecommunications Forum "TELFOR 2021", IEEE Serbia & Montenegro, November 2021
    Link: https://www.telfor.rs/program-naucne-sekcije
    Apstrakt: This paper presents a software system designed as communication aid for children with disabilities. The system generates digitized speech using a dictionary of symbols in the matrix form, which can be extended and modified, as well as the corresponding audio recordings and visual representations of symbols. The creators of this system managed to eliminate the shortcomings of the existing software solutions, namely the lack of flexibility and accessibility, and inability to cater for individual differences. The system is realized as a multiplatform application using Xamarin technology.

Kontaktirajte nas

Adresa:

Beograd 11000, Bulevar kralja Aleksandra 73

Loading
Vaša poruka je poslata. Hvala!