C char против хранилища символов Java

Привет!!

Как программист, основные типы данных, с которыми мы учимся работать, являются примитивными.

Наиболее распространенные примитивные типы данных показаны на диаграмме ниже.

Мы также узнаем, сколько памяти занимает каждая переменная каждого типа данных при хранении в памяти для языка, который мы изучаем.

Но то, что нам редко удается узнать, — это сравнительная таблица требований к памяти для переменной определенного типа данных.

Только недавно у меня появилась возможность изучить сравнение требований к памяти для символьной переменной языка C с требованиями к памяти для символьной переменной языка Java.

По-видимому, размер памяти, занимаемый символом C, не совпадает с размером памяти, занимаемым символом Java!

Схематическое представление памяти, необходимой для символа C и Java, показано ниже.

Это бросает вопрос в наши умы не так ли?

Мы знаем, что char — самый простой тип данных, так как он может содержать только один символ внутри себя.

Затем,

Почему более продвинутый язык, такой как Java, требует больше места для хранения символов?

Вот ответ на этот вопрос!!

C использует формат кодировки ASCII, а Java использует формат кодировки UTF-8.

Это был однострочный ответ на однострочный вопрос. Но затем давайте углубимся в это и узнаем, как именно C оказался всего в 1 байте, а Java — в 2 байта.

Итак, для начала, вот простая формула преобразования —

Однако важность этой формулы мы рассмотрим позже…

Я уверен, что каждый из вас знает, что ваш компьютер понимает только два сигнала, а именно ВЫКЛ. и ВКЛ.. Простое объяснение этому состоит в том, что это электронное устройство, которое либо ток/сигнал или нет.

Те же OFF и ON представлены в более простой форме как 0 и 1 соответственно, что мы знаем как двоичный язык или машинопонятный язык.

Следовательно, если предположить, что в мире существует всего два алфавита, мы могли бы легко представить их в двоичной форме, используя приведенную ниже таблицу:

Теперь предположим, что в мире существует всего 4 алфавита, поэтому их двоичное представление будет примерно таким:

Точно так же, если у нас есть 8 алфавитов и представление их в двоичном виде будет —

Идея здесь в том, что для представления каждых 2^n символов требуется n битов, то есть для 2¹ символов требуется только 1 бит памяти, для 2² символов нам нужно 2 бита в памяти, для 2³ символов нам нужно 3 бита памяти. памяти, и серия продолжается.

Следовательно, мы можем вывести другую формулу —

Теперь поговорим о форматах кодировки ASCII и UTF-8.

ASCII или Американский стандартный код для обмена информацией — наиболее распространенный формат кодирования. Он представляет только 128 различных символов/команд.

Вот таблица символов ASCII —

Что касается UTF-8 или формата преобразования Unicode — 8-битный, он способен представлять1 112 064 допустимых кодовых точки символов с использованием 17 плоскостей, каждая из которых состоит из 65 536 символов.

Другими словами,

ASCII → 128 символов → 2⁷ символов → 7 бит

UTF-8 → 65536 символов в одной плоскости → 2¹⁶ символов → 16 бит

Теперь, чтобы привести его к стандартному округленному значению, ASCII использует один дополнительный бит в своем представлении, поэтому он достигает 8 бит, в то время как UTF-8 уже имеет стандартное округленное значение.

Преобразование этих битов в байты (используя исходную формулу)—

ASCII → 8 бит → 1 байт

UTF-8 → 16 бит → 2*8 бит → 2 байта

Следовательно,

C, который использует представление ASCII для своего типа данных char, занимает 1 байт памяти,

пока,

Java, использующая представление UTF-8 для своего типа данных char, занимает 2 байта памяти.

Надеюсь, сегодня вы чему-то научились!!

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning