Verklaarbare AI-technieken voor detectie van contaminerende eigenschappen voor verbeterde intrusiedetectie op basis van Machine Learning.
Cyberdreigingen komen steeds vaker voor en worden steeds geraffineerder, waardoor aanzienlijke risico's ontstaan voor informatie en kritieke infrastructuur. De gevolgen van cyberaanvallen kunnen zeer ernstig zijn, zoals operationele en financiële schade, reputatieschade en strategische implicaties. Om deze risico's te beperken, moeten doeltreffende cyberbeveiligingsmaatregelen worden genomen. Een belangrijk aspect van cyberbeveiliging zijn netwerkbeveiligingssystemen, zoals firewalls en intrusiedetectiesystemen (IDS). Eerder onderzoek heeft aangetoond dat ML gebaseerde IDS systemen uitstekende classificatie resultaten kunnen behalen met training op minimale data. Maar wanneer deze systemen bloodgesteld worden aan vergelijkbare maar ongeziene data behouden ze hun goede classificatie scores niet. De reden voor dit gebrek aan generalisatie bevind zich in de data die gebruikt wordt om de systemen te trainen. Tijdens het simuleren van verschillende aanvallen blijven er verschillende artefacten (contaminerende features) achter in de datasets. Deze contaminerende features vertekenen de resultaten en staan het betrouwbaar gebruik van de datasets in de weg. Deze studie stelt een methodologie voor om deze contaminerende features te detecteren en verwijderen gebruik makend van SHAP, een eXplainable AI techniek. Vervolgens wordt de impact van deze contaminaties op het generalisatievermogen van verschillende soorten ML-modellen geëvalueerd. Deze studie benadrukt het belang van de kwaliteit en samenstelling van datasets voor het verbeteren van de generalisatiekracht van IDS-systemen en roept op tot verder onderzoek naar het genereren van representatieve datasets die reële aanvalsscenario's weerspiegelen.