pegjs 🚀 - Prise en charge de l'analyse des langages basés sur l'indentation

Il est très dangereux de se fier aux effets secondaires que vous ajoutez dans des gestionnaires personnalisés pour analyser les grammaires basées sur l'indentation. Ne le fais pas. Pegjs devrait ajouter une certaine capacité à pousser et à éclater l'état conditionnel afin de sécuriser les indentations d'analyse (et d'autres grammaires contextuelles).

C'est ce que je fais pour l'instant, et je vous recommande de faire ceci : Prétraitez le fichier d'entrée et insérez vos propres jetons de retrait/retrait. J'utilise respectivement {{{{ et }}}}. Ensuite, votre grammaire est sans contexte et peut être analysée normalement. Cela peut gâcher vos valeurs de ligne/colonne, mais vous pouvez les corriger dans un post-processeur.

krisnye le 11 févr. 2014

👍3

Si vous n'avez pas besoin de cibler javascript, Pegasus , mon clone pegjs pour C#, prend en charge l'état push/pop. Voici un article wiki sur la façon de faire exactement ce que vous voulez : https://github.com/otac0n/Pegasus/wiki/Significant-Whitespace-Parsing

Je voudrais proposer que pegjs utilise ma syntaxe comme point de départ pour l'analyse basée sur l'état.

otac0n le 11 févr. 2014

La capacité de pousser et d'éclater en toute sécurité est agréable. Je l'utiliserais s'il était basé sur Javascript. Cela ne vaut tout simplement pas la peine d'intégrer un CLR juste pour l'analyse.

krisnye le 11 févr. 2014

C'est ce que je m'étais dis. Je pense, dans ce cas, que je devrais probablement essayer de rétroporter mes améliorations dans pegjs.

Cependant, je ne veux pas nécessairement le faire sans avoir une conversation avec @dmajda.

otac0n le 12 févr. 2014

👍2

@otac0n C'est sympa. Je n'écris pas C# . JavaScript est bien mieux pour moi.

jiyinyiyong le 12 févr. 2014

Les langages basés sur l'indentation sont importants. Je veux chercher à simplifier leur analyse après 1.0.0.

dmajda le 21 avr. 2014

Je pense que ce problème est mieux résolu en autorisant l'état en général, tout comme Pegasus le fait et comme suggéré dans # 285. Voici une idée (ce qui suit est la grammaire d'espaces blancs significative de Pegasus traduite en pegjs et avec mon idée de syntaxe ajoutée):

{var indentation = 0}

program
  = s:statements eof { return s }

statements
  = line+

line
  = INDENTATION s:statement { return s }

statement
  = s:simpleStatement eol { return s }
  / "if" _ n:name _? ":" eol INDENT !"bar " s:statements UNDENT {
      return { condition: n, statements: s }
    }
  / "def" _ n:name _? ":" eol INDENT s:statements UNDENT {
      return { name: n, statements: s }
    }

simpleStatement
  = a:name _? "=" _? b:name { return { lValue: a, expression: b } }

name
  = [a-zA-Z] [a-zA-Z0-9]* { return text() }

_ = [ \t]+

eol = _? comment? ("\r\n" / "\n\r" / "\r" / "\n" / eof)

comment = "//" [^\r\n]*

eof = !.

INDENTATION
  = spaces:" "* &{ return spaces.length == indentation }

INDENT
  = #STATE{indentation}{ indentation += 4 }

UNDENT
  = #STATE{indentation}{ indentation -= 4 }

Notez les blocs #STATE{indentation} près du bas (évidemment inspirés de Pegasus). J'appelle ces blocs d'état. L'idée est de permettre un bloc d'état avant les actions. Voici un bloc d'état plus compliqué :

#STATE{a, b, arr: {arr.slice()}, obj: {shallowCopy(obj)}, c}

C'est un raccourci pour :

#STATE{a: {a}, b: {b}, arr: {arr.slice()}, obj: {shallowCopy(obj)}, c: {c}}

En d'autres termes, une fois le développement abrégé appliqué, le contenu d'un bloc d'état est une liste de identifier ":" "{" code "}" . L'ajout d'un bloc d'état avant une action indique à pegjs que cette action modifiera les identifiants répertoriés, et si la règle est annulée, ces identifiants doivent être réinitialisés au code entre les accolades.

Voici les fonctions compilées pour INDENT et UNDENT à partir de la grammaire ci-dessus, avec la réinitialisation de la variable indentation ajoutée :

    function peg$parseINDENT() {
      var s0, s1, t0;

      s0 = peg$currPos;
      t0 = indentation;
      s1 = [];
      if (s1 !== peg$FAILED) {
        peg$reportedPos = s0;
        s1 = peg$c41();
      } else {
        indentation = t0;
      }
      s0 = s1;

      return s0;
    }

    function peg$parseUNDENT() {
      var s0, s1, t0;

      s0 = peg$currPos;
      t0 = indentation;
      s1 = [];
      if (s1 !== peg$FAILED) {
        peg$reportedPos = s0;
        s1 = peg$c42();
      } else {
        indentation = t0;
      }
      s0 = s1;

      return s0;
    }

Et voici un peu comment le « bloc d'état compliqué » ci-dessus pourrait être compilé :

s0 = peg$currPos;
t0 = a;
t1 = b;
t2 = arr.slice();
t3 = shallowCopy(obj);
t4 = c;
// ...
if (s1 !== peg$FAILED) {
  // ...
} else {
  peg$currPos = s0;
  a = t0;
  b = t1;
  arr = t2;
  obj = t3;
  c = t4;
}

Que pensez-vous de cette idée de pouvoir :

Dites à pegjs quelles variables avec état seront modifiées par une action.
Fournissez le code nécessaire pour stocker ces variables si elles doivent être réinitialisées. (Y compris la syntaxe abrégée pour le cas simple où la variable est une valeur primitive.)

Et que penses-tu de la syntaxe ?

Edit : Voici la grammaire syntaxique proposée (juste pour le plaisir) :

diff --git a/src/parser.pegjs b/src/parser.pegjs
index 08f6c4f..09e079f 100644
--- a/src/parser.pegjs
+++ b/src/parser.pegjs
@@ -116,12 +116,31 @@ ChoiceExpression
     }

 ActionExpression
-  = expression:SequenceExpression code:(__ CodeBlock)? {
+  = expression:SequenceExpression code:((__ StateBlock)? __ CodeBlock)? {
       return code !== null
-        ? { type: "action", expression: expression, code: code[1] }
+        ? {
+            type:       "action",
+            expression: expression,
+            code:       code[2],
+            stateVars:  (code[0] !== null ? code[0][1] : [])
+          }
         : expression;
     }

+StateBlock "state block"
+  = "#STATE{" __ first:StateBlockItem rest:(__ "," __ StateBlockItem)* __ "}" {
+      return buildList(first, rest, 3);
+    }
+
+StateBlockItem
+  = varName:Identifier expression:(__ ":" __ CodeBlock)? {
+      return {
+        type:       "stateVar",
+        name:       varName,
+        expression: expression !== null ? expression[3] : varName
+      };
+    }
+
 SequenceExpression
   = first:LabeledExpression rest:(__ LabeledExpression)* {
       return rest.length > 0

lydell le 15 févr. 2015

Salut les gars,
Juste pour clarifier, ai-je raison de dire qu'il est préférable de ne pas utiliser PEG.js (avec des solutions de contournement à partir du début de ce problème) avec des langages basés sur l'indentation jusqu'à ce que ce problème soit résolu ?
Merci.

hoho le 8 nov. 2015

@hoho, je ne vous comprends pas. Mais j'ai trouvé plus tard une autre solution pour analyser les indentations avec un combinateur d'analyseur comme des solutions et cela a fonctionné. Et je pense que mon indentation d'origine pour analyser les indentations avec PEG.js a disparu.

jiyinyiyong le 9 nov. 2015

Je veux dire qu'il existe des solutions de contournement pour analyser l'indentation, mais les commentaires indiquent que ces solutions de contournement échoueront dans certains cas.

hoho le 10 nov. 2015

Permettez-moi de clarifier la situation : l'analyse des langages basés sur l'indentation dans PEG.js est possible. Il existe différentes solutions mentionnées ci-dessus et je viens d'en créer une autre alors que j'essayais d'avoir une "sensation" pour cela (c'est une grammaire d'un langage simple avec deux déclarations, dont l'une peut contenir des sous-instructions en retrait - similaire à par exemple if en Python).

Une chose commune à toutes les solutions est qu'elles doivent suivre l'état d'indentation manuellement (car PEG.js ne peut pas le faire). Cela signifie qu'il y a deux limitations :

Vous ne pouvez pas compiler la grammaire avec la mise en cache en toute sécurité (car l'analyseur syntaxique pourrait utiliser les résultats mis en cache au lieu d'exécuter du code de manipulation d'état).
Vous ne pouvez pas revenir en arrière sur les niveaux d'indentation (car il n'y a actuellement aucun moyen de dérouler l'état lors du retour en arrière). En d'autres termes, vous ne pouvez pas analyser un langage dans lequel il existe deux constructions valides qui ne peuvent être désambiguïsées qu'après un changement de niveau de nouvelle ligne et d'indentation.

La limitation 1 peut entraîner des problèmes de performances dans certains cas, mais je ne pense pas qu'il existe de nombreuses langues pour lesquelles la limitation 2 serait un problème.

Je suis d'accord avec cet état jusqu'à la 1.0.0 et je prévois de revenir sur ce sujet quelque temps après. Le premier niveau d'amélioration pourrait consister à supprimer la limitation 2 en utilisant un suivi d'état plus explicite (comme suggéré ci-dessus) ou en fournissant un crochet de retour en arrière (afin que l'on puisse dérouler correctement l'état). Le deuxième niveau pourrait éliminer le besoin de suivre l'état d'indentation manuellement en fournissant un moyen déclaratif de le faire. Cela pourrait aider avec la limitation 1.

dmajda le 27 nov. 2015

H, j'ai écrit un correctif (minuscule, hacky) pour PEG.js qui prend en charge le retour en arrière approprié, comme je l'ai expliqué ici : https://github.com/pegjs/pegjs/issues/45

tebbi le 27 nov. 2015

👍1

désolé pour la bosse 😜

Je cherchais juste à créer des analyseurs CSON et YAML pour un langage que je conçois, et tout en cherchant des moyens de créer un analyseur basé sur l'indentation avec PEG.js, j'ai proposé une méthode simple qui :

1) ne repose pas sur l'état push/pop
2) affirmer les niveaux d'indentation via le code dans les actions

Il m'était venu à l'esprit que l'une ou l'autre des 2 solutions ci-dessus ajoutait en fait des problèmes de performances aux parseurs générés. En plus à mon avis :

1) s'appuyer sur les états ajoute non seulement une syntaxe PEG.js laide, mais peut également affecter le type d'analyseurs pouvant être générés, car ils auraient besoin de prendre en charge la gestion des états basée sur les actions.
2) parfois, l'ajout de code dans les actions entraîne une règle dépendante du langage, et pour certains développeurs, cela signifie qu'ils ne peuvent pas utiliser de plugins pour générer des parseurs pour d'autres langages comme C ou PHP sans avoir recours à plus de plugins pour gérer les actions sur les règles, ce qui signifie un système de construction plus grand juste pour prendre en charge 1 ou 2 changements.

Après un certain temps, j'ai commencé à créer ma propre variante de l'analyseur PEG.js et j'ai pensé : pourquoi ne pas simplement utiliser les opérateurs de préfixe d'incrémentation ("++") et de décrémentation ("--") (__++ expression__ et __-- expression__ ) pour gérer les résultats des expressions de correspondance (__expression *__ ou __expression +__).

Ce qui suit est un exemple de grammaire basée sur le langage simple basé sur l' intention de @dmajda , réécrit pour utiliser la nouvelle expression __++__ et __-- expression__ au lieu de __& { prédicat }__ :

Start
  = Statements

Statements
  = Statement*

Statement
  = Indent* statement:(S / I) { return statement; }

S
  = "S" EOS {
      return "S";
    }

I
  = "I" EOL ++Indent statements:Statements --Indent { return statements; }
  / "I" EOS { return []; }

Indent "indent"
  = "\t"
 / !__ "  "

__ "white space"
 = " \t"
 / " "

EOS
  = EOL
  / EOF

EOL
  = "\n"

EOF
  = !.

Beaucoup plus agréable à l'oeil, non ? Plus facile à comprendre aussi, à la fois pour les humains et les logiciels.

Comment ça marche? Facile:

1) Indent* indique à l'analyseur que nous voulons 0 ou plus de ce que Indent renvoie
2) ++Indent indique à l'analyseur d'augmenter le nombre minimum de correspondances requis pour Indent
3) Maintenant, chaque fois que l'analyseur est sur le point de renvoyer les correspondances pour Indent , il s'attend d'abord à ce qu'il y ait __1 correspondance de plus__ qu'avant, sinon _peg$SyntaxError_ est renvoyé.
4) --Indent indique à l'analyseur de diminuer le nombre minimum de correspondances requis pour Indent
5) Maintenant, à chaque fois que l'analyseur recherche Indent et renvoie les correspondances qu'il attend __1 moins__ correspondance qu'avant, sinon _peg$SyntaxError_ est renvoyé.

Cette solution est le meilleur moyen d'ajouter la prise en charge de « Significant Whitespace Parsing » sans ajouter une syntaxe laide aux grammaires PEG.js ou bloquer les générateurs tiers.

Voici les règles modifiées pour ajouter la prise en charge de l'analyse dans _src/parser.pegjs_ :

{
  const OPS_TO_PREFIXED_TYPES = {
    "$": "text",
    "&": "simple_and",
    "!": "simple_not",
    "++": "increment_match",
    "--": "decrement_match"
  };
}

PrefixedOperator
  = "$"
  / "&"
  / "!"
  / "++"
  / "--"

SuffixedOperator
  = "?"
  / "*"
  / "+" !"+"

Ai-je raison de supposer que pour le prendre en charge côté compilateur/générateur, nous devrons :

1) ajouter une passe de compilateur qui garantit que __++ expression__ ou __-- expression__ ne sont utilisés que sur __expression *__ ou __expression +__, où __expression__ doit être du type : choix, séquence ou ref_règle
2) ajouter une vérification basée sur le cache dans l'analyseur généré pour __expression *__ ou __expression +__ qui affirme que la correspondance minimale requise est satisfaite avant de renvoyer les correspondances
3) ajouter éventuellement une méthode d'assistance pour les analyseurs générés à implémenter qui renvoie le nombre de correspondances requises pour une règle donnée, par exemple. nMatches( name: String ): Number

futagoza le 15 mars 2017

@futagoza , c'est propre et intelligent. Je l'aime bien. Je travaille sur un analyseur qui gère l'état, mais le seul état dont nous avons vraiment besoin est les niveaux d'indentation. Je peux utiliser cette idée et vous en attribuer le mérite. Le suivi du niveau d'indentation nécessite toujours un état push/pop et cela peut donc toujours empêcher certaines optimisations, mais la sémantique de celui-ci est très agréable.

Si vous ajoutez des opérateurs à une grammaire, je vous recommande d'ajouter également l'opérateur préfixe @. Son but est simplement d'extraire un seul résultat de règle d'une séquence. En utilisant cela, l'exemple de grammaire devient encore plus propre. Plus aucune action triviale { return x }.

Start
  = Statements

Statements
  = Statement*

Statement
  = Indent* @(S / I)

S
  = "S" EOS {
      return "S";
    }

I
  = "I" EOL ++Indent <strong i="8">@Statements</strong> --Indent
  / "I" EOS { return []; }

Indent "indent"
  = "\t"
 / !__ "  "

__ "white space"
 = " \t"
 / " "

EOS
  = EOL
  / EOF

EOL
  = "\n"

EOF
  = !.

@kodyjking qu'est-ce que tu en penses ?

krisnye le 16 mars 2017

@futagoza Avez-vous un fork/branch avec le patch d'indentation activé et un petit exemple de grammaire ?