Linenoise: Добавить многобайтовую поддержку

Созданный на 23 янв. 2012 · 21Комментарии · Источник: antirez/linenoise

Текущий код не поддерживает многобайтовые строки, например строки, содержащие символы Юникода за пределами диапазона ASCII. Сдвиги столбцов для refreshLine вычисляются с помощью strlen (), которая возвращает 2 вместо 1 для двухбайтового символа, такого как «Ş» на турецком языке.

Библиотека должна использовать mbstowcs () или другие функции для получения количества символов вместо количества байтов для обработки столбца (стрелки вверх, вниз, стирание символа и т. Д.).

Кроме того, поскольку эти функции зависят от LC_CTYPE, вы или приложения, использующие леншум, должны вызвать setlocale (LC_ALL, ""), чтобы установить языковой стандарт приложения на системный языковой стандарт.

Спасибо.

Источник

ozancaglayan

👍2

Самый полезный комментарий

Моя вилка (https://github.com/yhirose/linenoise/tree/utf8-support) теперь поддерживает Unicode 11.0 и включает все недавние изменения, внесенные в antirez / lnenoise .

yhirose 15 окт. 2018

👍5

Все 21 Комментарий

См .: http://www.cl.cam.ac.uk/~mgk25/unicode.html

ozancaglayan 23 янв. 2012

Взгляните на мою вилку https://github.com/msteveb/linenoise , которая поддерживает utf-8.

msteveb 23 янв. 2012

Вам действительно нужны все эти функции? Я не совсем знаком с этим материалом, но я легко исправил некоторые странные проблемы, используя mbstowcs () вместо strlen (), где длина строки считается эквивалентной количеству символов в строке. Но я не мог найти способ исправить удаление широких символов с помощью backspace ..

ozancaglayan 23 янв. 2012

Подход здесь заключается в том, чтобы не полагаться на системную поддержку utf-8. Например, у меня есть системы, в которых работает uClibc без поддержки локали, которые могут успешно запускать консоль utf-8 через последовательный порт. Конечно, вы можете использовать другой подход.

msteveb 24 янв. 2012

У меня похожая проблема; Я попробовал линейный шум для реализации оболочки. Если мне нужны цветные подсказки, в расчет длины включаются escape-коды.

Более простой и легкий способ исправить:

1) разрешите самостоятельно указать длину подсказки.
2) используйте команды терминала для извлечения позиции курсора после вывода приглашения (не уверен, возможно ли это)

jasom 3 дек. 2013

Я нахожу это из кода оболочки mongo. Меня всегда раздражает все больше и больше инструментов CLI (mongo, redis-cli, node)), которые я использую, курсор которых сильно перемещается, когда есть многобайтовые символы. Я не знаю, используют ли другие льняной шум или что-то еще, но я бы хотел, чтобы это было исправлено :-)

lilydjwg 12 мар. 2014

Я сделал модифицированный бельевой шум, который позволяет вам определять ширину самостоятельно, так что это дополнительная работа для приложения, но, по крайней мере, возможная; Пользуюсь уже около 3 месяцев без проблем. Возможно, я превращу это в пул-реквест.

jasom 14 мар. 2014

В ветке 'utf-8 support' на моей вилке были исправлены следующие проблемы с UTF-8, которые появились в последней версии lenneoise 1.0:

Многобайтовые символы: ö (U+00F6)
Многокодовые символы: ö (U+006F U+0308)
Широкие символы: 日本語 ('японский')
Текст подсказки, включающий указанные выше символы и экранированный цветной текст ANSI.

Сначала я попробовал https://github.com/msteveb/linenoise. Но он не основан на последнем льняном шуме, который поддерживает фантастический многострочный режим. Также он не поддерживает широкие символы CJK и символы с несколькими кодами ...

yhirose 26 окт. 2015

Здравствуйте, я думаю о том, чтобы пойти по следующему пути с этой проблемой:

Используйте @yhirose в качестве справочника, чтобы проверить, где функции простой строки C должны быть заменены функциями с поддержкой многобайтовых символов.
Экспортируйте API, который позволяет пользователю Linenoise устанавливать альтернативные функции для расчета длины строки. По умолчанию задайте для функции простые функции C.
Включите код @yhirose в виде отдельного файла, который вы можете добавить в свое приложение, вызывая новые функции Linenoise, чтобы установить функции длины, чтобы иметь многобайтовую поддержку.

Таким образом, мы получаем, что простота льняного шума остается почти нетронутой, но при желании можно поддерживать многобайтовые символы как с помощью функций C++ , других пользовательских функций, отличных от стандартных, или тех, которые включены в сам льняной шум, если ваш проект находится на C, и вы не хотите снова и снова переписывать то, что уже написал @yhirose .

Имеет смысл для вас? Спасибо.

antirez 26 окт. 2015

@antirez , Спасибо за внимание пользователям многобайтового кода! Идея, которую вы представили, имеет для меня смысл. Я даже счастлив, потому что, если бы сама библиотека Linenoise могла предоставить расширяемость, мы могли бы легко добавить другую поддержку многобайтового кодирования.

Как вы можете видеть в моей вилке, наиболее важной концепцией для включения поддержки «многобайтовой информации» является четкое различие между « положением / шириной байта » в текстовом буфере и « положением / шириной столбца » на экране. Вот несколько примеров в UTF-8:

あ (U + 3042): E3 81 82 (3 байта): широкий (ширина 2 столбца)
ö (U + 00F6): C3 B6 (2 байта): узкий (ширина 1 столбца)
ö (U + 006F U + 0308): 6F CC 88 (3 байта): узкий (ширина 1 столбца)

Как только мы узнаем разницу, будет довольно легко правильно обрабатывать многобайтовый код. Вы можете уловить идею из изменений в 1-м коммите . Я применил тот же принцип для подсказки текста во 2-м коммите .

Единственное место, где нам нужно быть осторожными, - это код обработки многострочного режима. Например, когда последний широкий символ является широким, а в текущей строке остается только 1 столбец, этот широкий символ не помещается в оставшееся пространство. Таким образом, широкий символ должен отображаться в начале следующей строки. Этот код обрабатывает это.

Еще одна вещь, которую я сделал, - это пропустить все символы escape-последовательности ANSI при вычислении позиции / ширины столбца в третьей фиксации . Это изменение позволяет нам использовать цвет в тексте подсказки.

Я очень рад увидеть новый API в ближайшем будущем. Пожалуйста, дайте мне знать, если у вас возникнут вопросы по этому поводу. Я уверен, что вы проделаете фантастическую работу !!

yhirose 27 окт. 2015

Изучив больше зависимостей между кодом льняного шума и кодом кодировки UTF-8 в соответствии с вашей целью проектирования, я понял, что при добавлении другой поддержки кодирования необходимы только три функции.

По результатам исследования обновил свою ветку. Вот разница между льняной головкой и ответвлением utf8-support . Как вы могли видеть, я полностью избавился от всего кода, специфичного для UTF-8, из linenoise.c и поместил их в encodings/utf8.h и encodings/utf8.c . Кроме того, я добавил один экспериментальный API под названием linenoiseSetEncodingFunctions в бельеoise.h, чтобы пользователи могли устанавливать свой собственный набор функций кодирования. Я подтвердил, что все функции по-прежнему работают.

Вот фрагмент моего текущего экспериментального API:

typedef size_t (linenoisePrevCharLen)(const char *buf, size_t buf_len, size_t pos, size_t *col_len);
typedef size_t (linenoiseNextCharLen)(const char *buf, size_t buf_len, size_t pos, size_t *col_len);
typedef size_t (linenoiseReadCode)(int fd, char *buf, size_t buf_len, int* c);

void linenoiseSetEncodingFunctions(
    linenoisePrevCharLen *prevCharLenFunc,
    linenoiseNextCharLen *nextCharLenFunc,
    linenoiseReadCode *readCodeFunc);

linenoisePrevCharLen и linenoiseNextCharLen возвращают длину байта в качестве возвращаемого значения и устанавливают длину столбца в параметр col_len . linenoiseReadCode считывает байты в buf , конвертирует байты и устанавливает значимый код символа для кодировки в параметр c .

Если пользователи не вызовут linenoiseSetEncodingFunctions , это приведет к вызову реализаций _default_. Они просто обрабатывают один байт как символ.

Надеюсь, этот пост будет полезен при разработке нового API кодирования. Я очень этого жду !!

yhirose 29 окт. 2015

👍2

@yhirose , это фантастическая работа !!! :-) Я собираюсь проверить код и объединить его. Спасибо тебе за это.

antirez 8 нояб. 2015

Еще не слились?

henriqueleng 28 янв. 2016

@antirez есть ли прогресс в его объединении?

dumblob 25 июн. 2016

Я изменил свою вилку (https://github.com/yhirose/linenoise/tree/utf8-support), чтобы не отставать от недавних изменений, внесенных в исходный льняной шум, таких как функция «подсказок».

yhirose 28 июн. 2016

Большое спасибо @yhirose. Вы сделали хороший код лучше! и мой
работа проще!

@sonophoto

В понедельник, 27 июня 2016 г., 18:56:45 -0700 yhirose написал:

   I have modified my fork

(https://github.com/yhirose/linenoise/tree/utf8-support), чтобы наверстать упущенное
с недавними изменениями, внесенными в оригинальный бельевой шум, такими как «подсказки»
характерная черта.
-
Вы получаете это, потому что подписаны на эту беседу.
Ответьте на это письмо напрямую, просмотрите его на GitHub или отключите обсуждение.

Sonophoto 28 июн. 2016

Моя вилка (https://github.com/yhirose/linenoise/tree/utf8-support) теперь поддерживает Unicode 9.0.

yhirose 25 окт. 2016

@antirez Будет ли у вас в ближайшем будущем свободное время, чтобы объединить многобайтовую поддержку @yhirose ? Или мы должны переключить https://github.com/hoelzro/lua-linenoise на использование форка @yhirose до тех пор? ✌️