Onderzoeksgroep
Expertise
Ontwikkeling en studie van geavanceerde methoden voor het opslaan, opkuisen, bewerken en bevragen van grote hoeveelheden gegevens.
Sub-kwadratische graaf neurale netwerken: de zoektocht naar een goed evenwicht tussen efficiëntie en uitdrukkingskracht.
Abstract
Dit project situeert zich in het gebied van graph learning, een steeds populairder wordend gebied in machine learning, en richt zich op de ontwikkeling van een theoretisch kader voor het ontwerpen en analyseren van expressieve, doch efficiënte, graaf neurale netwerken. Ondanks de vooruitgang in hardware, moet men bij het ontwerpen van graaf neurale netwerken rekening houden met efficiëntie overwegingen. Dit houdt bijvoorbeeld in dat de meeste graaf neurale netwerken gebruik maken van update-functies waarvoor een lineaire hoeveelheid berekening nodig is. Een gevolg is dat dergelijke netwerken alleen eenvoudige functies kunnen leren. Hoewel er meer geavanceerde graaf neurale netwerken zijn voorgesteld, die complexere functies kunnen leren, is hun toepasbaarheid beperkt. Dit komt door het feit dat kwadratisch (of meer) berekeningen nodig zijn, wat niet haalbaar is voor grote graaf data. In dit project willen we begrijpen wat graaf neurale netwerken kunnen wanneer we berekeningen toelaten *tussen* deze lineaire en kwadratische kost. We stellen dan ook voor om sub-kwadratische graaf neurale netwerken te formaliseren, bestuderen en analyseren. Dergelijk sub-kwadratische graaf neurale netwerken zijn nog steeds efficiënt (minder dan kwadratisch) en nog steeds krachtig (meer dan wat lineaire netwerken kunnen). Bovendien vallen een aantal zeer recente graaf neurale netwerken in deze sub-kwadratische categorie. Naast het ontwikkelen van een wiskundig raamwerk voor sub-kwadratische graaf neurale netwerken, bestuderen we ook hun capaciteiten, zowel theoretisch als praktisch.Onderzoeker(s)
- Promotor: Geerts Floris
- Mandaathouder: Černý Marek
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Vector-inbeddingmethoden gezien als "views" op gegevensbanken.
Abstract
In het afgelopen decennium zijn vector-inbeddingmethoden ontwikkeld om machine learning mogelijk te maken over gestructureerde gegevens zoals grafen of, meer in het algemeen, relationele gegevensbanken. Hoewel de empirische effectiviteit van vector-inbeddingen voor specifieke leertaken en toepassingsdomeinen goed is onderzocht, is het minder duidelijk welke informatie van de gestructureerde gegevens is bevat in inbeddingen. In dit project postuleren we dat, door naar inbeddingen te kijken door de lens van gegevensbankonderzoek, we meer inzicht kunnen krijgen in welke informatie inbeddingen bevatten. Concreet stellen we voor om bevragingstalen te ontwerpen waarin vector-inbeddingmethoden op natuurlijke wijze kunnen worden uitgedrukt. In deze setting kunnen vragen met betrekking tot het soort informatie dat is gecodeerd in de ingebedde vectoren worden geformuleerd als het herschrijven van een query als een query over "views", en zullen we dit probleem bestuderen. Door rekening te houden met de structurele eigenschappen van inbeddingsqueries, openen we bovendien de deur naar een overdracht van methoden in gegevensbanken naar vector-inbeddingen en terug. In het bijzonder kunnen gegevensbankmethoden voor incrementele query-evaluatie en query-sampling worden toegepast voor het efficiënt leren van de parameters in inbeddingen, terwijl omgekeerd vector-inbeddingen kunnen worden benut voor gegevensbank-indexering.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Declaratieve Methoden in de Informatica
Abstract
Een onderzoeksnetwerk ter promotie van samenwerking tussen vlaamse onderzoeksgroepen met interesse en expertise in declaratieve methoden in de informatica. Dit netwerk bevat ook internationale partners die rond dit thema werkzaam zijn.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
FWO Sabbatsverlof 2023-2024 (Prof. F. Geerts).
Abstract
In dit onderzoeksproject gaan we dieper in op de verbanden tussen graaf neurale netwerken en bevragingstalen voor gegevensbanken. Onlangs is namelijk aangetoond dat de meeste graaf neurale netwerkarchitecturen kunnen worden gezien als een bevraging ("query") in een bevragingstaal uitgebreid met zogenaamde numerieke aggregatie. Als gevolg hiervan kunnen resultaten over de expressieve kracht van deze bevragingstalen op natuurlijke wijze overgedragen worden naar resultaten over de expressieve kracht van graaf neurale netwerken. Deze brug, tussen database theorie en graaf "learning" opent vele interessante wegen voor verder onderzoek en voor de overdracht van technieken tussen deze twee gebieden. We belichten hier twee van dergelijke wegen die behandeld zullen worden in dit project. De eerste heeft betrekking op de vraag of recente ontwikkelingen in de evaluatie van queries (in het bijzonder optimale worst-case join-algoritmen) kunnen worden gebruikt om de efficiëntie te verbeteren van het leren van graaf neurale netwerken. De tweede heeft betrekking op het uitbreiden van neurale graafnetwerken over andere domeinen dan de reële getallen. Op deze manier kunnen ze ook op natuurlijke wijze berekeningen uitvoeren over, bijvoorbeeld, booleaanse waarden, "semirings" of andere algebraïsche structuren. Dit zou hun toepasbaarheid aanzienlijk vergroten. Door gebruik te maken van de brug met bevragingstalen voor gegevensbanken, waar dergelijke gegeneraliseerde semantiek reeds diepgaand is bestudeerd, streven we ernaar een gedetailleerd beeld te krijgen van hoe algebraïsche eigenschappen van het onderliggende domein de expressieve kracht van graaf neurale netwerken beïnvloeden. Het gezichtspunt van een graaf neuraal netwerk vanuit een dergelijk computationeel perspectief staat momenteel hoog op de agenda in de context van neuraal algoritmisch redeneren.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
BOF Sabbatsverlof 2023 - Floris Geerts.
Abstract
Onderzoek naar uitwisseling van technieken tussen databasetheorie en graaf learning De nadruk zal liggen op de karakterisering van de expressieve kracht van het leren van grafieken in termen van op logica gebaseerde equivalentiesOnderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Updates en Provenance in Data- en Kennisbanken.
Abstract
Dit project omvat systemen die data en kennis opslaan, beheren, herstructureren, en toegang verschaffen. Een standard systeem in deze context is een database systeem. Meer recentere systemen bestaan echter uit verschillende applicaties die samenwerken in een gedistribueerde omgeving. Zelfs het World Wide Web kan gezien worden als een globaal data en kennis databank. In dit project bekijken we hoe veranderingen in de data kunnen worden getraceerd, door middel van provenance (oorsprong) data. Meer bepaald willen we provenance integreren tezamen met de gewone data in een uniform geheel.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Efficiënte inferentie voor probabilistische programma's en databanken.
Abstract
Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Computationele modellen voor big data algoritmen.
Abstract
Het ontwerp van efficiënte algoritmen is een centraal thema in de informatica. Echter, recente experimenten tonen aan dat vele algoritmen aan efficiëntie inboeten wanneer grote hoeveelheden aan data ("Big Data") aanwezig zijn. Dit geldt met name voor query-evaluatie methoden in de context van databanken. Helaas kunnen de bestaande theoretische technieken voor het analyseren van algoritmen niet onderscheiden of een algoritme al dan niet efficiënt is op big data. Inderdaad, algoritmen die beschouwd worden als efficiënt in de klassieke zin blijken dat niet meer te zijn wanneer het big data betreft. Dit vraagt om een grondige herziening van de klassieke complexiteitstheorie. Het hoofddoel van dit project is dan ook de ontwikkeling van dergelijke theoretische fundamenten met bijhorende computationele complexiteitsanalyse die de efficiëntie van algoritmen in de context van big data kunnen karakteriseren.Onderzoeker(s)
- Promotor: Geerts Floris
- Mandaathouder: Debosschere Maxime
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Een schaalbare gedistribueerde infrastructuur voor probabilistische gegevensbanken.
Abstract
Het onderzoek in probabilistische gegevensbanken situeert zich in het raakvlak van gegevensbanken en probabilistische grafische modellen. Ons eerder werk in dit gebied startte meer dan 6 jaar geleden aan de Universiteit van Stanford met de ontwikkeling van het probabilistische gegevensbanksysteem "Trio". Tot op de dag van vandaag vormen probabilistische gegevensbanken een rijk onderzoeksdomein met tal van interessante en nog onderkende aspecten. Met dit projectvoorstel willen we de verkenning motiveren van een nieuwe, gedistribueerde en schaalbare infrastructuur voor probabilistische gegevens. We beginnen bij het ontwikkelen van een dergelijke volledige infrastructuur echter niet van nul. Inderdaad, de rode draad in dit project is te bekijken hoe bestaande methoden (inclusief door onze eerder ontwikkelde methoden) kunnen worden aangepast tot gedistribueerde scenario's, en om op deze manier gegevensbeheer en probabilistische inferentie te versnellen door middel van parallelle query evaluatie voor een SQL-gebaseerde omgeving. Op dit moment zijn dergelijke gedistribueerde probabilistische gegevensbanksystemen niet voorhanden. We merken echter op dat in "Machine Learning" reeds methoden zijn ontwikkeld voor gedistribueerde probabilistische inferentie. Spijtig genoeg ondersteunen deze methoden SQL niet. Omgekeerd zijn huidige gedistribueerde gegevensbanksystemen niet voorzien van probabilistische inferentie en ze laten geen onzekere gegevens toe. Het doel van dit project is om een brug te slaan tussen methoden in gegevensbanken en machine learning. Dit is nog nooit eerder onderzocht, voor zover geweten, in de literatuur. We zijn ervan overtuigd dat het voorgestelde onderzoek tal van intrigerende en uitdagende aspecten bevat voor een doctoraatsthesis, zowel vanuit een theoretisch als vanuit een systeemontwikkeling perspectief.Onderzoeker(s)
- Promotor: Geerts Floris
- Promotor: Theobald Martin
- Mandaathouder: Blanco Hernan
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Queryen van gedistribueerde dynamische gegevens.
Abstract
Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Een probabilistische aanpak voor het verbeteren van gegevenskwaliteit.
Abstract
Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Een principiële benadering voor het verbeteren van datakwaliteit: het overbruggen van theorie en praktijk.
Abstract
De verbetering van de kwaliteit van gegevens is erkend als een van de belangrijkste uitdaging voor het beheren van gegevens. De behoefte aan effectieve methoden om fouten in de data te detecteren, om objecten te identificeren van mogelijk onbetrouwbare gegevensbronnen, en om deze fouten te herstellen is evident. Inderdaad, er is een toenemende vraag naar dergelijke methoden vanuit verscheidene hoeken in onze huidige digitale samenleving en vanuit de industrie in het bijzonder. Om tegemoet te komen aan deze vraag, is meer fundamenteel onderzoek in data quality vereist en de praktische mogelijkheden hiervan dienen te worden gerealiseerd. Meer specifiek, voortbouwend op eerder onderzoek, een uniforme theorie zal worden ontwikkeld om de kwaliteit van gegevens te verbeteren in een verscheidenheid van toepassingsgebieden.Onderzoeker(s)
- Promotor: Geerts Floris
- Mandaathouder: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject
Een principiële benadering voor het verbeteren van datakwaliteit: het overbruggen van theorie en praktijk.
Abstract
Dit project kadert in een onderzoeksopdracht toegekend door de Universiteit Antwerpen. De promotor levert de Universiteit Antwerpen de onderzoeksresultaten genoemd in de titel van het project onder de voorwaarden zoals vastgelegd door de universiteit.Onderzoeker(s)
- Promotor: Geerts Floris
Onderzoeksgroep(en)
Project type(s)
- Onderzoeksproject