Comment isoler les noms de domaine d’une liste d’URL sur Data Studio ? Lorsqu’on travaille sur une analyse des sites référents, il se peut qu’on en ait besoin !
Pour ce faire, on utilise la fonction REGEXP_EXTRACT disponible sur Data Studio.
On a une dimensions « URL » de format « https://www.nom-de-domaine.com/category/ma-page.html »
On veut extraire le sous-domaine « www.nom-de-domaine.com »
Voici tout de suite la solution à copier coller :
REGEXP_EXTRACT(url, « ^https?://([^/]+)/ » )
Le principe de cette REGEX est de capturer le premier élément après le « // »
- ^https? : commence par « http » ou « https »
- ://()/ : on récupère ce qui se trouve entre « :// » et « / »
- [^/] : ne contient pas de « / », car on ne veut pas récupérer tous les répertoires suivants
- + : on répète le caractère précédent (c’est à dire le fait qu’il n’y ai pas de /)
A noter que sur Data Studio, les caractères « / » n’ont pas besoin d’être échappés.
Vous pouvez modifier cette règle si vous souhaitez extraire un répertoire dans l’URL. Pratique pour catégoriser les URLs automatiquement avec le premier répertoire 😉