#1876 : CSVParser.java [FR]

Importations

java.io.IOException / java.io.Reader — Entrée de flux de caractères
java.util.ArrayList, HashMap, List, Map — Stockage des résultats et indexation des colonnes d'en-tête
org.apache.commons.lang3.StringUtils — Vérification de chaîne vide dans les messages d'erreur
org.slf4j.Logger — Journalisation des erreurs

Architecture de l'analyseur — Analyseur lexical écrit à la main

Plutôt que d'utiliser des expressions régulières ou un générateur d'analyseur, CSVParser implémente un analyseur lexical caractère par caractère avec un tampon de réinjection. Cette conception privilégie le contrôle sur la gestion des erreurs et les performances pour le sous-ensemble spécifique de formatage CSV utilisé par ProjectForge.

Composants principaux

Énumération Type

enum Type { EOF, EOL, CHAR }

Types de jetons : Fin de fichier, Fin de ligne ou données de caractère. Cela pilote la machine à états de l'analyseur.

Gestion du flux de caractères

Tampon de réinjection : Un int[] de 5 éléments (pushbackBuffer) avec suivi d'index — permet l'anticipation et le retour en arrière sans support Reader pour mark()/reset()
read() : Renvoie le caractère suivant du tampon de réinjection (le cas échéant) ou du Reader sous-jacent. Suit les numéros de ligne sur \n
unread(int) : Réinjecte un caractère dans le tampon, en ajustant les compteurs de ligne/colonne
nextToken() : Tokeniseur principal — renvoie le Type suivant (EOF, EOL, CHAR) et définit cval pour les jetons de caractère. Gère \r\n (CRLF Windows) comme un seul jeton EOL

Gestion de la BOM UTF-8

skipBOM() est appelée lors de la construction pour détecter et ignorer un marqueur d'ordre d'octets UTF-8 (\uFEFF) au début du fichier. Si aucune BOM n'est présente, le premier caractère est réinjecté (unread). Cela permet une analyse correcte des fichiers CSV exportés depuis Microsoft Excel, qui inclut une BOM pour les fichiers UTF-8.

Analyse des cellules (parseCell)

La logique principale d'analyse CSV gère ces cas :

Cas	Comportement
Cellule sans guillemets	Les caractères sont accumulés jusqu'au séparateur ou à la fin de ligne
Cellule entre guillemets (`"..."`)	Les caractères entre guillemets sont accumulés ; les guillemets doivent être correctement fermés
Guillemet échappé (`""`)	Deux guillemets doubles consécutifs dans une cellule entre guillemets représentent un caractère de guillemet littéral
Saut de ligne intégré	Les sauts de ligne dans les cellules entre guillemets sont conservés (valeurs de cellule multilignes)
Espace blanc final	Les espaces blancs après le guillemet fermant sont ignorés ; attend un séparateur ou une fin de ligne ensuite
Guillemet non fermé	Lève une RuntimeException avec un message d'erreur descriptif incluant le numéro de ligne/colonne

Analyse de ligne (parseLine)

Lit les cellules jusqu'à la fin de ligne ou la fin de fichier, en les collectant dans une List<String>. Renvoie null à la fin du fichier (pas une liste vide — les appelants peuvent distinguer la fin du fichier des lignes vides).

Support des colonnes d'en-tête (parseHeadCols / getCell)

Pour les fichiers CSV avec une ligne d'en-tête, parseHeadCols() lit la première ligne et construit une colMap : Map<String, Integer> mappant les noms de colonnes à leur index positionnel. Les appels ultérieurs à getCell(List<String>, nomcolonne) récupèrent les valeurs par nom de colonne plutôt que par position. Cela permet un accès aux colonnes nommées à la manière d'Excel.

Messages d'erreur

Trois constantes d'erreur distinctes fournissent des diagnostics spécifiques :

ERROR_UNEXPECTED_QUOTATIONMARK = "Guillemet inattendu \" (uniquement autorisé dans les cellules entre guillemets)."
ERROR_QUOTATIONMARK_MISSED_AT_END_OF_CELL = "Guillemet \" manquant à la fin de la cellule."
ERROR_DELIMITER_OR_NEW_LINE_EXPECTED_AFTER_QUOTATION_MARK = "Délimiteur ou nouvelle ligne attendu après le guillemet."
ERROR_UNEXPECTED_CHARACTER_AFTER_QUOTATION_MARK = "Caractère inattendu après le guillemet."

Chaque message est enrichi des numéros de ligne et de colonne via createMessage().

Intégration avec CSVWriter

CSVParser utilise CSVWriter.DEFAULT_CSV_SEPARATOR_CHAR (';' — point-virgule) comme séparateur par défaut. C'est la convention CSV européenne (Microsoft Excel dans les paramètres régionaux allemands utilise le CSV délimité par des points-virgules). Le séparateur est configurable via setCsvSeparatorChar().

Limitations de conception

Pas de flux continu : Chaque appel à parseLine() lit une ligne et renvoie toutes les cellules — adapté aux fichiers de taille modérée mais pas aux très gros CSV (plusieurs Go)
Tampon de réinjection fixe : La réinjection de 5 caractères limite l'anticipation ; suffisant pour les motifs d'échappement CSV mais pas pour l'analyse générale
Pas de conversion de type : Toutes les valeurs sont renvoyées sous forme de chaînes ; les appelants doivent analyser les nombres, les dates, etc.
Point-virgule par défaut : Utilise la convention CSV européenne ; doit être explicitement modifié pour les fichiers séparés par des virgules
Gestion des erreurs : Utilise des RuntimeExceptions plutôt que des exceptions vérifiées ou une récupération d'erreur — une entrée malformée interrompt l'analyse

Cette implémentation personnalisée a été écrite en 2005, bien avant qu'Apache Commons CSV (publié en 2014) ou OpenCSV ne soient largement disponibles. À l'époque, le JDK n'avait pas de support CSV intégré. Le code a été maintenu avec des améliorations progressives : gestion de la BOM (commit 2024), support des champs entre guillemets multilignes et corrections de fautes de frappe via codespell.

#1876 : `CSVParser.java`

Architecture

Importations

Architecture de l'analyseur — Analyseur lexical écrit à la main

Composants principaux

Énumération Type

Gestion du flux de caractères

Gestion de la BOM UTF-8

Analyse des cellules (parseCell)

Analyse de ligne (parseLine)

Support des colonnes d'en-tête (parseHeadCols / getCell)

Messages d'erreur

Intégration avec CSVWriter

Limitations de conception

Historique Git