Latex3: Смена регистра на кириллицу

Созданный на 17 февр. 2020 · 31Комментарии · Источник: latex3/latex3

Как указано в https://github.com/latex3/latex3/issues/671 , в настоящее время

\documentclass{article}
\usepackage[T1,T2A]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{expl3}

\ExplSyntaxOn
\def\test{\text_lowercase:n}
\ExplSyntaxOff

\begin{document}
\test{\.I İ \CYRI И}
\end{document}

дает в лучшем случае «нечетный» результат.

Здесь должна быть возможность изменить регистр, поскольку это не зависит от изменений \lccode а скорее от расширения И до

\u8:И ->\IeC {\CYRI }

а потом делаю работу.

expl3 feature-request

Источник

josephwright

Самый полезный комментарий

@josephwright, но вам действительно стоит реализовать \text_lowercase:n{\emoji{Man}} = \emoji{Boy} ;-)

u-fischer 24 февр. 2020

😄3

Все 31 Комментарий

u8: И -> IeC {CYRI}

Разве не имеет смысла извлекать И из u8: И и искать регистр
информация в каком-то интаррие?

blefloch 18 февр. 2020

@blefloch
Да!

Что это вообще за команды u8: ...? Они нужны?

car222222 18 февр. 2020

@blefloch
Да!

или, может быть, не Крис. Возможно, придется иметь дело с обозначением ^^ в этом месте вместо И, но в целом я согласен, что это похоже на лучшую отправную точку

Что это вообще за команды u8: ...? Они нужны?

вы должны знать :-) ваше имя находится в файле, который содержит этот код. Да, они необходимы: в pdftex LaTeX видит байты, анализирует их и строит из них одно csname \u8:... которое содержит LICR для этого символа utf8, который в приведенном выше случае равен \IeC {\CYRI } или если \u8:... не определено отвечает без представления Unicode для ...

FrankMittelbach 18 февр. 2020

вы должны знать :-) ваше имя находится в файле, который содержит этот код.
Но не все, за что я могу отвечать, нужно :-).

Я согласен, мне следует посмотреть исходный код! По крайней мере, чтобы узнать, откуда взялся:.

Но я должен остановиться сейчас, если я разозлю кого-то, высказав свое мнение в таком общественном месте :-).

car222222 18 февр. 2020

@blefloch Тут нужно кое-что. Первый - обнаружить пару / триплет / квартет UTF-8 и получить ее целиком, а не по отдельности. Это достаточно просто: проверьте наличие активных токенов char, равных начальной точке inputenc . Второй этап - узнать, как их изменить. Причина, по которой я упомянул использование подхода \IeC{...} заключается в том, что нам не нужны _new_ данные: это точно так же, как \MakeUppercase обрабатывает их и поэтому использует \@uclclist data, которые мы уже собираю.

josephwright 18 февр. 2020

Причина, по которой я упомянул использование подхода IeC {...}, заключается в том, что нам не нужны новые данные:
Что ж, вам может понадобиться немного больше, если вы хотите охватить абсолютно каждого персонажа, который меняет регистр (возможно, не все они еще имеют LICR).

Использование чисел и таблиц Unicode, конечно, эстетически более привлекательно. Но если «Таблицы имен» пока работают. . .

Для кириллицы, греческого, армянского и т. Д. И т. Д. Можно использовать новые LICR в форме cyr {}, немного похоже на акценты?

car222222 18 февр. 2020

@ car222222 Проблема возникла из-за того, что есть места, в которых текущий \MakeUppercase будет работать, а \text_uppercase:n - нет, что сводится к вещам, которые проходят через u8:... . Вот почему я начал с этого. Если нам нужен полный диапазон Unicode в pdfTeX (выполнимо), нам нужно сохранить данные вручную в целочисленном массиве.

josephwright 18 февр. 2020

Если нам нужен полный диапазон Unicode в pdfTeX (выполнимо), нам нужно сохранить данные вручную в целочисленном массиве.

Учитывая, что pdfTeX намеренно предоставляет символы utf8 только в том случае, если они поддерживаются загруженными кодировками шрифтов, сомнительно сначала изменить регистр, а затем обнаружить, что результатом является неподдерживаемый символ. Конечно, если все данные находятся внутри формата, тогда нет никакой дополнительной полезной нагрузки (кроме занимаемого ею размера) и начальной подготовки.

FrankMittelbach 18 февр. 2020

сомнительно сначала изменить регистр, а затем обнаружить, что результатом является неподдерживаемый символ.

Я не считаю это проблемой. Строчные и прописные буквы имеют одну и ту же кодировку, поэтому вы получите ошибку на заглавной альфа, только если начнете с неподдерживаемой строчной альфы.

u-fischer 18 февр. 2020

👍1

18.02.20 15:49 Ульрике Фишер написала:

it is questionable to first case change and then find that the
result is an unsupported character.
Я не считаю это проблемой. Строчные и прописные буквы находятся в
та же кодировка, поэтому вы получите ошибку на заглавной альфе, только если вы
начните с неподдерживаемого альфа-символа в нижнем регистре.

Даже если существует кодировка с альфа-буквой в нижнем регистре, но не в верхнем регистре
альфа (вероятно, это относится к некоторым из более редких акцентов),
получение ошибки Unicode char не настроено кажется лучше, чем
случайно получил символ в нижнем регистре.

blefloch 18 февр. 2020

👍1

Я согласен с Ульрикой и Бруно. Но я не могу представить себе реалистичный случай (каламбур), в котором символы верхнего и нижнего регистра недоступны / недоступны одновременно.

car222222 18 февр. 2020

Учитывая, что pdfTeX намеренно предоставляет символы utf8, только если они поддерживаются загруженными кодировками шрифтов

Это означает, что? pdfTeX вообще не «предоставляет символы», не так ли? А «загруженные кодировки шрифтов» - это концепция LaTeX, а не движок.

Возможно, это означает, что в том способе, которым мы изначально настраивали материал utf8 для LaTeX, были только LICR (а сопоставления предоставлялись только «для известных кодировок», а затем загружались только для загруженных кодировок.

Верно, но в наши дни нет необходимости сохранять такие ограничения, не так ли?
Теперь мы, безусловно, можем легко предоставить их для любого подмножества Unicode, которое мы пожелаем, и в этом контексте нам нужно только охватывать все «символьные символы».

Отказ от ответственности: мне никогда не нравилось это ограничение на известные кодировки :-).

car222222 18 февр. 2020

    Given that pdfTeX deliberately only provides utf8 chars if
    supported by the loaded font encodings
Это означает, что? pdfTeX вообще не «предоставляет символы», не так ли? А также
«загруженные кодировки шрифтов» - это концепция LaTeX, а не движок.

значение pdflatex и написание pdftex

Может быть, это означает, что так, как мы изначально настроили материал utf8 для
LaTeX, LICR были только (а сопоставления предоставлялись только для известных
encodings ', а затем загружается только для загруженных кодировок.

да, это была хорошая вещь TM, потому что это держало мир LaTeX свободным от
тофу и отсутствующие символы

Верно, но в наши дни нет необходимости сохранять такие ограничения, не так ли?
Теперь мы, безусловно, можем легко предоставить их для любого подмножества Unicode, которое мы
желаем, и в этом контексте нам нужно только охватить всех «обслуживаемых персонажей».

Да, есть. если у вас нет глифов для набора символов, это
это бессмысленно, поэтому утверждать, что вы можете использовать Unicode как
как xetex или luatex (латекс), а затем просто генерирует дыры и нет
Предупреждения char XXX в журнале - это шаг назад к pdflatex
решение, имхо

Отказ от ответственности: мне никогда не нравилось это ограничение на известные кодировки :-).

ну, пока вы пишете по-английски, обычно не имеет значения,
напишите на других языках, и ваш документ будет поврежден без
предупреждаю вас, что это так

FrankMittelbach 18 февр. 2020

Вполне могут быть причины не загружать LICR для непредставимых символов.

Но здесь мы говорим только об определении этих LICR и символов верхнего регистра, обратите внимание на «символы».
Ничего общего с их набором, поэтому имеющиеся кодировки / шрифты не актуальны.
Пример использования: улучшенная форма предназначена только для использования в закладках pdf, никогда не должна быть набрана (по крайней мере, с помощью TeX!)

car222222 18 февр. 2020

Посмотрев на проблему немного подробнее, показалось, что легче справиться с ней, используя фиксированный список сопоставлений, чем пытаться делать что-то, заглядывая внутрь активных символов. Я быстро посмотрел, сколько существует кодовых точек с данными с изменением регистра: около 2000. Возможно, это многовато для их всех, поэтому в настоящее время я выбрал греческие и кириллические, которые покрываются T2 / LGR . Мысли приветствуются.