WedX - журнал о программировании и компьютерных науках

Как удалить недопустимые символы из файла в кодировке UTF-8?

Пояснение:

Я столкнулся с крайним случаем при написании своего веб-приложения. Я принимаю файлы UTF-8 для загрузки, и у меня есть проверка, подтверждающая, что они закодированы в UTF-8 (или, по крайней мере, наилучшая возможная проверка, по-видимому, нет серебряной пули, я знаю, что есть много другие вопросы о переполнении стека для этой конкретной проблемы).

В качестве теста я взял файл в кодировке ANSI и преобразовал его в UTF-8, как (в отдельных тестах), преобразовав его в UTF-8 в Notepad++, так и просто декодировав как UTF-8 (хотя это ANSI) на летать на С#, используя Encoding.UTF.GetBytes(inputStream).

Где возникает проблема:

Позже я помещаю необработанные данные файла в качестве одного из элементов XML-файла. Вот где возникает проблема. Похоже, что из файла ANSI сохранился символ, который (я предполагаю) недействителен в UTF-8. Когда я пытаюсь загрузить XML с помощью следующей команды...

XDocument xmlSample = XDocument.Load(outputPath);

Я получаю это исключение...

{"Invalid character in the given encoding. Line 10, position 14."}

Это выглядит так в Visual Studio...

VSImg

И вот так в Notepad++...

NPPImg

Ниже приведена копия и вставка персонажа.

Из NPP: ¡ Из средства просмотра строк Visual Studio:

Вопрос:

Как я могу удалить недопустимые символы из файла в кодировке UTF-8 или, по крайней мере, обнаружить их разумным способом, чтобы я мог отклонить файл?


  • Скопируйте и вставьте символ в вопрос, это может дать некоторые подсказки. 01.12.2016
  • XmlReader.Create(строка, настройки) вы можете добавить параметр настроек, чтобы игнорировать проверку символов. Это не всегда работает, но может в вашем случае. Символ температуры не является незаконным в xml, просто реализация Microsoft требует специальной обработки этих символов. 01.12.2016
  • Я копирую и вставляю персонажа. 01.12.2016
  • А можете показать оригинального персонажа? (FFFD) — это замещающий символ: используется для замены входящего символа, значение неизвестно или непредставимо в Unicode, тогда как ¡ (C2A1) является invalid< /а>. Я предполагаю, что Visual Studio правильно заменяет замещающий символ, а npp делает что-то странное. Обратите внимание, что вы можете получить код через BitConverter.ToString(Encoding.UTF8.GetBytes("�")) 01.12.2016
  • В MSDN есть страница здесь, использует регулярное выражение, однако он имеет \w для фильтрации недопустимых символов. Кажется, это сработало с двумя символами, которые вы показали здесь, но я не знаю, заканчивается ли это удалением полезных символов или нет. 01.12.2016
  • В Notepad ++ вы использовали кодировать как или конвертировать в для перекодирования? Encode As представляет байты только в том виде, в каком они были прочитаны с диска с использованием новой выбранной кодировки. Поскольку ANSI и UTF-8 различаются выше символа 127, это может привести к неожиданным результатам. Записи «Преобразовать в» в меню «Кодировка» фактически берут символы и правильно преобразуют их в новую выбранную кодировку. 01.12.2016
  • @Kevin Я использовал «Преобразовать в», но он все еще считает, что этот символ недействителен, когда я пытаюсь запустить XDocument.Load(outputPath); 01.12.2016
  • Как вы в настоящее время проверяете действительность UTF-8? Кажется, что этот тест недостаточно тщательный. 05.12.2016

Ответы:


1

Во-первых, что касается вашего примера, слово «Температура» предполагает, что оскорбительный символ на самом деле является знаком «градус» (°, Unicode 176), так что полный текст читается как «Температура (°C)». В этом случае символ будет закодирован как \260 байт в ANSI и как два байта \302\260 в UTF-8. \260 (в данном случае ему предшествует левая скобка) не является допустимым кодом UTF-8.

Во-вторых, если вам все еще интересно по прошествии более года, не могли бы вы пояснить, как вы используете Encoding.UTF.GetBytes() для «декодирования файла как UTF-8?» GetBytes()читает символы, а не байты, а символы в C# не имеют кодировки; кодировка была применена при чтении файла и преобразовании его в символы. Что делает UTF.GetBytes(), так это кодирует (не декодирует) символы в последовательность байтов UTF-8.

Чтобы проверить входящую последовательность байтов, вы можете использовать Encoding.UTF.GetChars() для декодирования вашей последовательности байтов в символы. В зависимости от используемого конструктора вы можете получить «очищенную» строку символов (с потерей данных в случае возникновения проблем) или получить DecoderFallbackException для ошибочных последовательностей байтов, чтобы вы могли отклонить ввод.

22.02.2018
Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]