Новая эра, новый персонаж
Примерно через неделю Император Японии собирается отречься от престола, и название японской эпохи изменится с Хэйсэй (平 成) на Рэйва (令 和). Это мой последний пост в эпоху Хэйсэй!
Использование названия эпохи очень распространено в Японии. Чтобы это понять, необходимо обновить календари каждого японского компьютера. Что интересно, для этого также был введен новый символ Unicode (U + 32FF ㋿ КВАДРАТНАЯ ЭРА ИМЯ REIWA) ¹. Вероятно, сейчас это выглядит как пустой квадрат, потому что обновление еще не на всех компьютерах.
Этот персонаж следует тому же стилю, что и названия предыдущих эпох, такие как ㍼ и ㍻. По сути, это компактные односимвольные представления двухсимвольного названия эпохи².
Название японской эры было принято комитетом за месяц до отречения. У компаний есть всего один месяц на то, чтобы внести изменения, но об отречении было известно давно. Консорциум Unicode зарезервировал пустую кодовую точку U + 32FF перед принятием решения³, а затем выпустил обновление после того, как было объявлено название эры⁴. Это было похоже на то, как Golden Bomber заранее подготовили большую часть видеоклипа, а затем выпустили свою новую песню на основе названия эпохи в течение 2 часов после анонса.
Новые персонажи из Гонконга
Для таких важных слов, как название эпохи, легко оправдать создание нового персонажа. Я удивился, обнаружив, что правительство Гонконга опубликовало обновления для Гонконгского дополнительного набора символов совсем недавно, в 2017 году. Это обновление добавило 24 новых символа⁵. 2 из них на самом деле не только для Гонконга (鱇 как в Monkfish и € знак евро); остальные 22 - настоящие гонконгские варианты символов вроде 説 вместо 說 и 吿 вместо 告 ⁶. Когда я был моложе, я всегда задавался вопросом, почему компьютерные шрифты всегда выглядят иначе, чем я пишу. Теперь некоторые из них можно исправить.
К сожалению, наличие правильных символов не означает, что люди знают о них или будут их использовать. Например, гонконгский способ написания 被告 будет 吿, но на новостных сайтах Гонконга по-прежнему используется не гонконгский способ, например 【佔 中 九 子 案】 四 被告 即時 監禁 三 被告 緩刑 張秀賢 獲 判. 社會 服務 令 . Интересно то, что если я ищу вариант Гонконга 説話 в Google, все, что я нашел, это японские ссылки. Развитие хонг-конгесского и японского языков традиционно было более изолированным от современного китайского, возможно, неудивительно, что эти два языка сохранили те же древние способы написания слов, которые изменились в китайском языке.
То же и другое
В реальном мире 平 成 и ㍻ означают одно и то же. В компьютерах это разные кодовые точки, и на самом деле нет ничего, что связывало бы их вместе. Можно сказать, что это одно и то же, потому что они имеют одно и то же значение, но можно также возразить, что это разные вещи, потому что они будут использоваться в разных контекстах.
Точно так же в Гонконге можно легко найти несколько разных способов записать отрицательную частицу 唔, 吾 или o 吾, которые все означают одно и то же. Эти способы использовались в основном как обходные пути для разных методов ввода и разных платформ, но бывают также случаи, когда люди намеренно пишут это неправильно. Один из примеров: 吾 支持 港 獨, это утвердительное или отрицательное утверждение? (吾 также означает I на классическом китайском)
Распределенное представление слов
Для их обработки потребуется множество правил разрешения неоднозначности, если они являются отдельными кодовыми точками. К счастью, разработка векторных словосочетаний упростила эту задачу при обработке естественного языка.
Основная идея состоит в том, что вместо представления слов в виде одной кодовой точки каждое слово представляется в виде распределенного списка чисел. Каждое число будет представлять определенный аспект слова, называемый измерением. Например:
- Для 平 成 и ㍻ измерение японской эпохи будет одинаковым, но измерение, в котором используются слова, будет другим.
- Для 唔, 吾, o 吾 большинство измерений будут одинаковыми, но может быть другое измерение, указывающее на предпочтения пользователя при вводе данных. Например, пользователь, который будет использовать 吾, может также использовать 系 или 甘 вместо 係 или 咁. Слово 吾 также может иметь другие значения измерения где-то еще, потому что оно имеет отдельное значение.
При таком представлении аналогичные слова имели бы аналогичные размеры. Компьютерам легче рассуждать об этих словах, чем человеку. Также можно интерпретировать расстояние между разными словами. В следующем посте я расскажу о создании вложений на основе источников из Гонконга.
[1]: Опубликован Adobe-Japan1–7!
[2]: Краткая история лигатур имени японской эпохи
[3]: Новая японская эра
[4]: Данные языка / локали CLDR версии 35.1 выпущены для эпохи Рейва, Unicode 12.1
[5]: HKSCS-2016 и Adobe-CNS1–7
[6]: 小學生字 你寫錯多少年?