Onderzoeksgroep

Expertise

Mijn expertise omvat: - Multivariate statistiek - Robuuste statistiek - Anomaly detection - Clustering - visualisatie - statistische machine learning

Regressie met celgewijze uitschieters. 01/06/2025 - 31/05/2029

Abstract

In de afgelopen decennia is de beschikbaarheid van data exponentieel gegroeid door technologische vooruitgang zoals goedkopere en grotere opslag en een toename van informatieverzamelende apparaten. Als gevolg hiervan zijn datasets enorm in omvang toegenomen en bevatten ze vaak miljoenen observaties en variabelen. Deze ontwikkeling heeft nieuwe uitdagingen gecreëerd voor de gebieden van statistiek en machine learning, die erop gericht zijn deze grote datasets op een efficiënte en uitgebreide manier te analyseren. In dit project richten we ons op regressie-analyse, een van de meest populaire hulpmiddelen voor het modelleren van een responsvariabele als functie van een aantal predictorvariabelen. Een belangrijke uitdaging bij regressie-analyse is dat de kwaliteit van de data over het algemeen onbekend is. In het bijzonder kan de data anomalieën, meetfouten en andere soorten verdachte gegevens bevatten. Het negeren van dit feit kan rampzalige effecten hebben op de resultaten van vrijwel elke methode voor data-analyse. Aan de andere kant is het detecteren van uitschieters erg moeilijk, en nog moeilijker wanneer de omvang van de dataset toeneemt. Dit motiveert de behoefte aan methodologie voor regressie die robuust is tegen uitschieters, zodat betrouwbare resultaten kunnen worden verkregen, zelfs wanneer de dataset gecontamineerd is. Traditioneel beschouwt het domein van de robuuste statistiek "casewise" uitschieters die zich op het niveau van de observatie voordoen. Dit betekent dat een observatie ofwel verdacht is, of volledig betrouwbaar. Meer recent werd "celgewijze" contaminatie voorgesteld, die zich op het niveau van de cel voordoet en een meer realistisch vertrekpunt vormt de context van big data. Een celgewijs contaminatiemodel impliceert dat voor een gegeven observatie bepaalde variabelen betrouwbaar kunnen zijn, terwijl andere dat niet zijn. De uitdaging wordt dus om de niet-gecontamineerde datacellen te identificeren en deze te gebruiken voor de schatting, terwijl de invloed van de gecontamineerde cellen wordt beperkt. Hoewel er verschillende voorstellen zijn gedaan voor regressie onder celgewijze contaminatie, ontbreekt het de hele onderzoekslijn aan richting en algemene fundamenten. Voor gevalsgewijze verontreiniging bestaan er algemene kaders voor de ontwikkeling van robuuste schatters, en deze omvatten hulpmiddelen voor het analyseren van hun statistische en computationele eigenschappen. Het ontbreken van celgewijze tegenhangers van deze kaders maakt het probleem van celgewijze contaminatie in het algemeen slecht begrepen. Dit voorstel brengt kennis uit robuuste statistiek, machine learning en optimalisatie samen en bouwt verder op mijn zeer recente werk over robuuste covariantie schatting om het probleem van celgewijze uitschieters in regressie fundamenteel aan te pakken. Het project begint met het maken van een duidelijk overzicht van de state-of-the-art door middel van een benchmarkstudie en een samenvatting van de bestaande theorie. Het zal vervolgens een algemeen kader onderzoeken voor celgewijze robuuste lineaire regressie, de eigenschappen van het kader afleiden en efficiënte optimalisatiestrategieën ontwerpen. Het biedt mogelijkheden voor uitbreidingen in de richting van geregulariseerde schatting en niet-lineaire modellering. Naast de ontwikkeling van methodologie, streeft het project ernaar de ernst van celgewijze contaminatie in praktische uitdagingen te beoordelen door samen te werken met experts op het gebied van macro-economische tijdreeksmodellering en geneesmiddelenontwikkeling. Gezien de alomtegenwoordigheid van regressie-analyse, impliceren de verwachte resultaten een brede potentiële impact, die ver buiten de fundamentele disciplines van statistiek en informatica reikt, tot disciplines zoals epidemiologie, omics, fysica, chemometrie en economisch beleid.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject

Naar modulaire proactieve procesregeling in de chemieproductie. 01/01/2025 - 31/12/2026

Abstract

Het ontwikkelen en implementeren van algemeen toepasbare, proactieve procesbesturingsstrategieën die de efficiëntie, flexibiliteit en precisie in chemische productieprocessen verbeteren. Het project bestaat uit vier specifieke onderzoeksdoelen, die elk een dubbel voordeel bieden door zowel academische inzichten als praktische bedrijfsresultaten op te leveren. 1. Integratie van verblijftijd en non-lineariteit Het verbeteren van voorspellende modellering in chemische productie door niet-lineariteit, onderlinge afhankelijkheden en tijdvertragingen aan te pakken. Geavanceerde technieken zoals NMPC, VTR- frameworks en samengestelde optimalisatie-algoritmen zullen worden toegepast om robuuste systeemprestaties onder verschillende omstandigheden te waarborgen. 2. Productkwaliteit as objectieffunctie Predictieve modellen creëren die wetenschappelijke principes, zoals chemische reactievergelijkingen en fysische wetten, combineren met data-gedreven technieken om chemische productieprocessen nauwkeuriger te beheersen, off-spec productie te minimaliseren en het verbruik van hulptoffen te verminderen. Dit omvat het integreren van tijdsspecifieke procesdata met machine learning-algoritmen, zodat modellen zowel accuraat als interpreteerbaar zijn, wat uiteindelijk de procesefficiëntie en economische prestaties verbetert. 3. Van reactieve naar proactieve processturing Het implementeren van een robuust prescriptief modelleringsraamwerk voor chemische productieprocessen, dat real-time monitoring, uitvoerbare setpoint-adviezen en geautomatiseerde modeldrift-detectie integreert met adaptive learning capaciteiten om de procesuitkomsten continu te optimaliseren. 4. Experimentele proof-of-concept voor optimalisatie in de industrie Garanderen dat de methodologie van objectieffuncties, toepasbaar blijft op de verscheidenheid aan uitdagingen en omgevingen binnen de chemische industrie. Door de ontwikkelde data-analysetools en prescriptieve modellen te integreren in productie-omgevingen, zullen procesingenieurs en operatoren beter geïnformeerde, real-time beslissingen kunnen nemen, waarbij energieverbruik, productkwaliteit en output worden geoptimaliseerd. Deze schaalbare oplossingen zullen worden getest in meerdere installaties, wat voor heel de site voordelen oplevert zoals lagere productiekosten, verbeterde naleving van milieuregels en verhoogde productie-efficiëntie. Daarmee versterkt BASF Antwerpen haar concurrentiepositie in de wereldwijde chemische industrie.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject

Statistisch leren met cellsgewijze contaminatie 01/01/2024 - 31/12/2028

Abstract

Dit onderzoek brengt robuuste statistiek, machine learning en optimalisatie samen om algemene frameworks te ontwikkelen voor supervised en unsupervised leren wanneer de data celsgewijze contaminatie kan bevatten. Het project beoogt covariantie schattingen, principaal component analyse, lineaire en logistische regressie. Verschillende uitbreidingen zijn mogelijk in de richtingen van regularized schatten en niet-lineaire modellen door gebruik te maken van kernels. Het project beoogt zowel de ontwikkeling van statistische methodologie, als het onderzoeken van de impact van celsgewijze contaminatie in de praktijk door samen te werken met experts rond het modelleren van tijdsreeksen in economie en rond het ontwikkelen van medicijnen.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject

Robuust leren van gerichte acyclische grafen voor causale modellering. 01/11/2022 - 31/10/2026

Abstract

Door technologische vooruitgang is de beschikbare hoeveelheid data het afgelopen decennium exponentieel toegenomen. Het vakgebied data science (DS) heeft deze groei gevolgd omdat het een onmisbare tool is voor het vertalen van data naar inzicht en kennis. Waar DS zich traditioneel bezighield met leerassociaties in data, is het de laatste tijd duidelijk geworden dat causale verbanden vaak een dieper begrip van de data en een sterkere tool in veel praktische toepassingen opleveren. Een van de gevestigde technieken voor causale modellering is het gebruik van gerichte acyclische grafen (GAG) om causale relaties voor te stellen. Deze GAGs moeten geleerd worden op basis van geobserveerde data. Veel van de SOTA technieken voor het leren van dergelijke GAGs zijn erg gevoelig voor anomalieën en leveren onbetrouwbare resultaten op in hun aanwezigheid. We streven ernaar om methoden te ontwikkelen voor het leren van GAGs die efficiënt en betrouwbaar blijven indien uitschieters aanwezig zijn in de gegevens. Het project begint met het bouwen van een solide basis voor de concepten robuustheid in causale modellering. Voortbouwend op deze grondslagen, zullen we vervolgens overgaan tot het bouwen van een algemene robuuste modelleringsmethodologie. Het project bevat drie complementaire benaderingen voor het ontwikkelen van robuuste methodes voor het leren van GAGs. De ontwikkelingen zullen zowel theoretisch als empirisch geëvalueerd worden en onderworpen aan testen op reëele casussen.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject