pegjs 🚀 - Поддержка синтаксического анализа языков на основе отступов

Очень опасно полагаться на побочные эффекты, которые вы добавляете в пользовательские обработчики для анализа грамматик на основе отступов. Просто не делай этого. Pegjs пришлось бы добавить некоторую возможность отправлять и извлекать условное состояние, чтобы сделать синтаксические отступы (и другие контекстно-зависимые грамматики) безопасными.

Это то, что я делаю сейчас, и я рекомендую вам сделать это: предварительно обработать входной файл и вставить свои собственные токены отступа / отступа. Я использую соответственно {{{{и}}}}. Тогда ваша грамматика не зависит от контекста и может быть проанализирована обычным образом. Это может испортить ваши значения строки / столбца, но вы можете исправить это в постпроцессоре.

krisnye 11 февр. 2014

👍3

Если вам не нужно настраивать таргетинг на javascript, Pegasus , мой клон pegjs для C #, поддерживает состояние push / popping. Вот статья вики о том, как делать именно то, что вы хотите: https://github.com/otac0n/Pegasus/wiki/Significant-Whitespace-Parsing

Я хотел бы предложить pegjs использовать мой синтаксис в качестве отправной точки для синтаксического анализа на основе состояния.

otac0n 11 февр. 2014

Возможность безопасно нажимать и открывать состояние - это приятно. Я бы использовал это, если бы он был основан на Javascript. Просто не стоит интегрировать CLR только для разбора.

krisnye 11 февр. 2014

Я так и подумал. Я думаю, что в этом случае мне, вероятно, следует попытаться перенести мои улучшения в pegjs.

Однако я не обязательно хочу делать это без разговора с @dmajda.

otac0n 12 февр. 2014

👍2

@ otac0n Приятно. Я не пишу на C #. JavaScript для меня намного лучше.

jiyinyiyong 12 февр. 2014

Языки, основанные на отступах, важны. Я хочу посмотреть на упрощение их синтаксического анализа после 1.0.0.

dmajda 21 апр. 2014

Я думаю, что эту проблему лучше всего решить, разрешив состояние в целом, как это делает Pegasus и как предложено в # 285. Вот идея (ниже приводится значимая грамматика пробелов Pegasus, переведенная на pegjs и с добавленной моей идеей синтаксиса):

{var indentation = 0}

program
  = s:statements eof { return s }

statements
  = line+

line
  = INDENTATION s:statement { return s }

statement
  = s:simpleStatement eol { return s }
  / "if" _ n:name _? ":" eol INDENT !"bar " s:statements UNDENT {
      return { condition: n, statements: s }
    }
  / "def" _ n:name _? ":" eol INDENT s:statements UNDENT {
      return { name: n, statements: s }
    }

simpleStatement
  = a:name _? "=" _? b:name { return { lValue: a, expression: b } }

name
  = [a-zA-Z] [a-zA-Z0-9]* { return text() }

_ = [ \t]+

eol = _? comment? ("\r\n" / "\n\r" / "\r" / "\n" / eof)

comment = "//" [^\r\n]*

eof = !.

INDENTATION
  = spaces:" "* &{ return spaces.length == indentation }

INDENT
  = #STATE{indentation}{ indentation += 4 }

UNDENT
  = #STATE{indentation}{ indentation -= 4 }

Обратите внимание на блоки #STATE{indentation} внизу (очевидно, вдохновленные Пегасом). Я называю это государственными блоками. Идея состоит в том, чтобы разрешить блокировку состояний перед действиями. Вот более сложный блок состояний:

#STATE{a, b, arr: {arr.slice()}, obj: {shallowCopy(obj)}, c}

Это сокращение для:

#STATE{a: {a}, b: {b}, arr: {arr.slice()}, obj: {shallowCopy(obj)}, c: {c}}

Другими словами, после применения сокращенного расширения содержимое блока состояния представляет собой список identifier ":" "{" code "}" . Добавление блока состояния перед действием сообщает pegjs, что это действие изменит перечисленные идентификаторы, и, если правило выполняется с возвратом, эти идентификаторы должны быть сброшены на код между фигурными скобками.

Вот скомпилированные функции для INDENT и UNDENT из приведенной выше грамматики с добавлением сброса переменной indentation :

    function peg$parseINDENT() {
      var s0, s1, t0;

      s0 = peg$currPos;
      t0 = indentation;
      s1 = [];
      if (s1 !== peg$FAILED) {
        peg$reportedPos = s0;
        s1 = peg$c41();
      } else {
        indentation = t0;
      }
      s0 = s1;

      return s0;
    }

    function peg$parseUNDENT() {
      var s0, s1, t0;

      s0 = peg$currPos;
      t0 = indentation;
      s1 = [];
      if (s1 !== peg$FAILED) {
        peg$reportedPos = s0;
        s1 = peg$c42();
      } else {
        indentation = t0;
      }
      s0 = s1;

      return s0;
    }

А вот немного того, как можно скомпилировать «сложный блок состояний» сверху:

s0 = peg$currPos;
t0 = a;
t1 = b;
t2 = arr.slice();
t3 = shallowCopy(obj);
t4 = c;
// ...
if (s1 !== peg$FAILED) {
  // ...
} else {
  peg$currPos = s0;
  a = t0;
  b = t1;
  arr = t2;
  obj = t3;
  c = t4;
}

Что вы думаете об этой идее:

Сообщите pegjs, какие переменные с состоянием будут изменены действием.
Предоставьте код, необходимый для хранения этих переменных, если их нужно сбросить. (Включая сокращенный синтаксис для простого случая, когда переменная является примитивным значением.)

А что ты думаешь о синтаксисе?

Изменить: вот предлагаемая грамматика синтаксиса (просто для удовольствия):

diff --git a/src/parser.pegjs b/src/parser.pegjs
index 08f6c4f..09e079f 100644
--- a/src/parser.pegjs
+++ b/src/parser.pegjs
@@ -116,12 +116,31 @@ ChoiceExpression
     }

 ActionExpression
-  = expression:SequenceExpression code:(__ CodeBlock)? {
+  = expression:SequenceExpression code:((__ StateBlock)? __ CodeBlock)? {
       return code !== null
-        ? { type: "action", expression: expression, code: code[1] }
+        ? {
+            type:       "action",
+            expression: expression,
+            code:       code[2],
+            stateVars:  (code[0] !== null ? code[0][1] : [])
+          }
         : expression;
     }

+StateBlock "state block"
+  = "#STATE{" __ first:StateBlockItem rest:(__ "," __ StateBlockItem)* __ "}" {
+      return buildList(first, rest, 3);
+    }
+
+StateBlockItem
+  = varName:Identifier expression:(__ ":" __ CodeBlock)? {
+      return {
+        type:       "stateVar",
+        name:       varName,
+        expression: expression !== null ? expression[3] : varName
+      };
+    }
+
 SequenceExpression
   = first:LabeledExpression rest:(__ LabeledExpression)* {
       return rest.length > 0

lydell 15 февр. 2015

Привет, народ,
Чтобы уточнить, правильно ли я считаю, что лучше не использовать PEG.js (с обходными путями, указанными в начале этой проблемы) с языками на основе отступов, пока эта проблема не будет закрыта?
Спасибо.

hoho 8 нояб. 2015

@hoho Я не понимаю ... Но позже я нашел другое решение для синтаксического анализа отступов с помощью комбинатора синтаксического анализатора, такого как решения, и оно сработало. И я думаю, что мой первоначальный отступ для анализа отступов с помощью PEG.js исчез.

jiyinyiyong 9 нояб. 2015

Я имею в виду, что есть обходные пути для анализа отступов, но в комментариях говорится, что эти обходные пути не сработают в некоторых определенных случаях.

hoho 10 нояб. 2015

Разрешите прояснить ситуацию: в PEG.js возможен парсинг языков на основе отступов. Существуют различные решения, упомянутые выше, и я просто создал еще одно, пытаясь «почувствовать» это (это грамматика простого языка с двумя операторами, одно из которых может содержать подвыполнения с отступом - аналогично, например, if в Python).

Общим для всех решений является то, что им нужно вручную отслеживать состояние отступа (потому что PEG.js не может этого сделать). Это означает, что есть два ограничения:

Вы не можете безопасно скомпилировать грамматику с кешированием (потому что синтаксический анализатор может использовать кешированные результаты вместо выполнения кода манипулирования состоянием).
Вы не можете возвращаться через уровни отступа (потому что в настоящее время нет возможности развернуть состояние при возврате). Другими словами, вы не можете проанализировать язык, в котором есть две допустимые конструкции, неоднозначность которых может быть устранена только после изменения уровня отступа и новой строки.

Ограничение 1 в некоторых случаях может вызвать проблемы с производительностью, но я не думаю, что существует много языков, для которых ограничение 2 было бы проблемой.

Я согласен с этим состоянием до 1.0.0, и я планирую вернуться к этой теме позже. Первым уровнем улучшения может быть устранение ограничения 2 с использованием более явного отслеживания состояния (как предложено выше) или путем предоставления ловушки с возвратом (чтобы можно было правильно развернуть состояние). Второй уровень - избавиться от необходимости вручную отслеживать состояние отступа, предоставив для этого декларативный способ. Это может помочь с ограничением 1.

dmajda 27 нояб. 2015

H, я написал (крошечный, хакерский) патч для PEG.js, который поддерживает правильное отслеживание с возвратом, как я объяснил здесь: https://github.com/pegjs/pegjs/issues/45

tebbi 27 нояб. 2015

👍1

извините за шишку 😜

Я как раз собирался создать парсеры CSON и YAML для языка, который разрабатываю, и пока искал способы создать парсер на основе отступов с помощью PEG.js, я придумал простой метод, который:

1) не зависит от состояния push / pop
2) утверждение уровней отступа через код в действиях

Мне пришло в голову, что любое из двух вышеупомянутых решений фактически добавляет проблемы с производительностью сгенерированным синтаксическим анализаторам. Дополнительно на мой взгляд:

1) зависимость от состояния не только добавляет уродливый синтаксис PEG.js, но также может влиять на тип парсеров, которые могут быть сгенерированы, поскольку они должны будут поддерживать передачу состояния на основе действий.
2) иногда добавление некоторого кода в действия приводит к правилу, зависящему от языка, и для некоторых разработчиков это означает, что они не могут использовать плагины для генерации парсеров для других языков, таких как C или PHP, не прибегая к дополнительным плагинам для обработки действий по правилам, которые просто означает более крупную систему сборки для поддержки 1 или 2 изменений.

Через некоторое время я начал создавать свой вариант парсера PEG.js и подумал: почему бы просто не использовать префиксные операторы инкремента («++») и декремента («-») (__ ++ выражение__ и __-- выражение__ ) для обработки результатов выражений соответствия (__expression * __ или __expression + __).

Ниже приводится пример грамматики, основанной на простом языке , основанном на намерениях @dmajda , переписанном для использования нового выражения __ ++ expression__ и __-- expression__ вместо __ & {predicate} __:

Start
  = Statements

Statements
  = Statement*

Statement
  = Indent* statement:(S / I) { return statement; }

S
  = "S" EOS {
      return "S";
    }

I
  = "I" EOL ++Indent statements:Statements --Indent { return statements; }
  / "I" EOS { return []; }

Indent "indent"
  = "\t"
 / !__ "  "

__ "white space"
 = " \t"
 / " "

EOS
  = EOL
  / EOF

EOL
  = "\n"

EOF
  = !.

Гораздо приятнее для глаз, не так ли? Легче понять, как для людей, так и для программного обеспечения.

Как это работает? просто:

1) Indent* сообщает парсеру, что мы хотим 0 или более того, что возвращает Indent
2) ++Indent указывает синтаксическому анализатору увеличить минимальное количество совпадений, необходимых для Indent
3) Теперь каждый раз, когда синтаксический анализатор собирается вернуть совпадения для Indent , он сначала ожидает, что это будет __1 more__ match, чем раньше, в противном случае выдается _peg $ SyntaxError_.
4) --Indent указывает синтаксическому анализатору уменьшить минимальное количество совпадений, необходимых для Indent
5) Теперь каждый раз, когда синтаксический анализатор ищет Indent и возвращает совпадения, которые он ожидает __1 меньше__ совпадений, чем раньше, в противном случае выдается _peg $ SyntaxError_.

Это решение - лучший способ добавить поддержку «Анализ значимых пробелов» без добавления уродливого синтаксиса в грамматики PEG.js или блокировки сторонних генераторов.

Вот измененные правила для добавления поддержки синтаксического анализа в _src / parser.pegjs_:

{
  const OPS_TO_PREFIXED_TYPES = {
    "$": "text",
    "&": "simple_and",
    "!": "simple_not",
    "++": "increment_match",
    "--": "decrement_match"
  };
}

PrefixedOperator
  = "$"
  / "&"
  / "!"
  / "++"
  / "--"

SuffixedOperator
  = "?"
  / "*"
  / "+" !"+"

Правильно ли я предполагаю, что для его поддержки со стороны компилятора / генератора нам придется:

1) добавьте проход компилятора, который гарантирует, что __ ++ выражение__ или __-- выражение__ используются только в __expression * __ или __expression + __, где __expression__ должно иметь типы: выбор, последовательность или правило_ref
2) добавьте проверку на основе кеша в сгенерированный синтаксический анализатор для __expression * __ или __expression + __, который утверждает, что минимально необходимое совпадение выполнено, прежде чем возвращать совпадения
3) необязательно добавить вспомогательный метод для сгенерированных синтаксических анализаторов для реализации, который возвращает количество совпадений, необходимых для данного правила, например. nMatches( name: String ): Number

futagoza 15 мар. 2017

@futagoza , это чисто и умно. Мне это нравится. Я работаю над синтаксическим анализатором, который обрабатывает состояние, но единственное состояние, которое нам действительно нужно, - это уровни отступа. Я могу использовать эту идею и отдать вам должное. Отслеживание уровня отступа по-прежнему эффективно требует состояния нажатия / выталкивания, и поэтому оно все еще может препятствовать некоторым оптимизациям, но семантика этого очень приятная.

Если вы добавляете операторы в грамматику, я также рекомендую добавить оператор префикса @. Его цель - просто извлечь результат единственного правила из последовательности. Используя это, образец грамматики становится еще чище. Больше никаких тривиальных действий {return x}.

Start
  = Statements

Statements
  = Statement*

Statement
  = Indent* @(S / I)

S
  = "S" EOS {
      return "S";
    }

I
  = "I" EOL ++Indent <strong i="8">@Statements</strong> --Indent
  / "I" EOS { return []; }

Indent "indent"
  = "\t"
 / !__ "  "

__ "white space"
 = " \t"
 / " "

EOS
  = EOL
  / EOF

EOL
  = "\n"

EOF
  = !.

@kodyjking, что ты об этом думаешь?

krisnye 16 мар. 2017

@futagoza У вас есть вилка / ветка с включенным патчем отступов и небольшой образец грамматики?