Любопытный случай невыровненного доступа на ARM

ARM - потрясающая архитектура. Я не сомневаюсь в этом. Мне это всегда нравилось. Это RISC, поэтому у нас нет множества избыточных инструкций, и в большинстве случаев есть только один способ достичь заданного результата. Все инструкции имеют длину 32 бита и одинаковую ширину. У нас есть множество регистров общего назначения. Но за это приходится платить. Невыровненный доступ, как известно, сложен и, следовательно, с этой проблемой мы сталкиваемся слишком часто. Тем не менее, потому что когда-то это не работало.

В первую очередь, что вообще означает выравнивание? Что означает, что адрес выровнен по X? Проще говоря, это означает, что условие addr% X == 0 истинно, где% представляет собой целочисленную операцию по модулю. Например, 8000 выравнивается по 2, 4, 8 и т.д., но не по 3. Интересно отметить, что каждый адрес выровнен по 1, что также, что забавно, означает, что он не выровнен. Следовательно, невыровненный доступ просто означает, что адрес памяти, к которому осуществляется доступ, не выровнен по правильному значению, некоторые инструкции, такие как LDRH, требуют 2-байтового выравнивания, тогда как инструкции, такие как LDR и STR, требуют 4- выравнивание байтов для оптимальной производительности. Подробнее о производительности позже.

Давайте посмотрим. До ARMv5 ARM не поддерживала невыровненный доступ должным образом. Для STR, STM и LDM запрошенный адрес просто округлялся до четырех. Однако для LDR после округления адреса в меньшую сторону он поворачивается по байтам вправо на значение в битах [1: 0] исходного адреса. Это инструкция LDR r0, [r1] может быть реализована в программном обеспечении следующим образом, если r1 не выровнен:

  BIC    rT, r1, #3  // bit-clear the bottom 2 bits to align it
  LDR    r0, [rT]  // load the value at aligned address
  AND    rT, r1, #3 // select the bottom 2 bits from the original
  MOV    rT, rT, LSL #3. // multiply it by 8
  MOV    r0, r0, ROR rT  // rotate right by the appropriate value

(Заметим, что rT - это произвольный временный регистр)

А что насчет LDRH? Если бит 1 установлен во время доступа к полуслову, результат будет просто неопределенным и, следовательно, непредсказуемым. Аналогично для LDRD (передача двойного слова) адрес должен быть выровнен по 4 байтам, в противном случае он будет непредсказуемым.

Однако, начиная с ARMv7, стал поддерживаться невыровненный доступ. Теперь он выполняет ожидаемое, то есть разбивает доступ на несколько более мелких операций чтения и увеличивает значение, как это сделал бы «традиционный» процессор x86. Однако в этом есть временные задержки. Однако стоит отметить тот факт, что инструкции LDM и STM по-прежнему требуют 4-байтового выравнивания, и если у них его нет, результат будет непредсказуемым. Эта версия также добавила бит A в SCTLR (системный контрольный регистр), где вы можете включить проверку выравнивания. По сути, если этот бит установлен, то каждый невыровненный доступ приведет к тому, что ARM захватит ваш код в ловушку, указанную вектором ловушки, начинающимся с нулевого адреса.

А как насчет ARMv6? ARMv6 был промежуточным ISA в этом смысле, где разработчики набора команд решили, что они будут поддерживать как путь ARMv5, так и путь ARMv7. Теперь в SCTLR появился новый бит U для управления тем, следует ли следовать пути ARMv5 или ARMv6.

Но почему невыровненный доступ такой сложный или плохой? Проблема заключается в нескольких уровнях, как в программном, так и в аппаратном обеспечении. Одним из самых простых является тот факт, что если невыровненный доступ охватывает несколько страниц (то есть областей ОЗУ), могут быть различия в разрешениях. Например, как пользователь я могу иметь доступ к байту, начинающемуся с 0x000FF, но не к байту с 0x00100. Следовательно, нам нужно выполнить несколько проверок разрешений, что приведет к немедленному снижению производительности.
Еще одна проблема заключается в том, что на ядрах, начиная с ARMv6 и более поздних версий, чтобы оборудование «исправило» невыровненный доступ, оно разделяется он разбивается на несколько меньших байтовых загрузок. Однако они не атомарны!. Следовательно, между двумя частями значения может произойти даже прерывание данных. Также интуитивно понятно, что производительность может быть снижена из-за принуждения ядра к замене доступа, который должен был быть единственным, с большим количеством доступов меньшей ширины. (Обратите внимание, что в ядре Linux есть параметр в / proc / cpu / alignment, который позволяет ядру имитировать это поведение в программном обеспечении, ну да ладно с производительностью!)

Итак, почему я пишу о невыровненном доступе? Недавно мы создали waccOS, а до этого 3D-движок игры на голой сборке ARM11. К сожалению, у нас было много проблем с невыровненным доступом, особенно с поведением LDR! В конце концов, подобный пост помог бы нам понять, насколько интересен несогласованный доступ в ARM.

Некоторые дополнительные материалы для чтения для более любопытных:

Использованная литература:

Источник изображения SCTLR от ARM ARM

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning