WedX - журнал о программировании и компьютерных науках

Обучение с использованием API обнаружения объектов не работает на графических процессорах в платформе AI

Я пытаюсь запустить обучение некоторых моделей в api обнаружения объектов tensorflow 2.

Я использую эту команду:

gcloud ai-platform jobs submit training segmentation_maskrcnn_`date +%m_%d_%Y_%H_%M_%S` \
    --runtime-version 2.1 \
    --python-version 3.7 \
    --job-dir=gs://${MODEL_DIR} \
    --package-path ./object_detection \
    --module-name object_detection.model_main_tf2 \
    --region us-central1 \
    --scale-tier CUSTOM \
    --master-machine-type n1-highcpu-32 \
    --master-accelerator count=4,type=nvidia-tesla-p100 \
    -- \
    --model_dir=gs://${MODEL_DIR} \
    --pipeline_config_path=gs://${PIPELINE_CONFIG_PATH}

Учебная работа успешно отправлена, но когда я смотрю на свою представленную работу на платформе AI, я замечаю, что она не использует графические процессоры! введите описание изображения здесь

Кроме того, просматривая журналы моей учебной работы, я заметил, что в некоторых случаях он не может открыть cuda. Он мог бы сказать что-то вроде этого:

Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib64

Несколько месяцев назад я использовал платформу AI для обучения, и это было успешным. Я не знаю, что сейчас изменилось! Фактически, для моей собственной настройки ничего не изменилось.

Для справки, сейчас я тренирую Mask RCNN. Несколько месяцев назад я обучил модели Faster RCNN и SSD.


Ответы:


1

Не удалось загрузить динамическую библиотеку libcudart.so.11.0; dlerror: libcudart.so.11.0: невозможно открыть файл общих объектов: нет такого файла или каталога; LD_LIBRARY_PATH: / usr / local / cuda / extras / CUPTI / lib64: / usr / local / cuda / lib64: / usr / local / nvidia / lib64

Я не уверен, так как все равно не смог проверить. При быстром поиске в Google выяснилось, что люди сталкивались с этой проблемой по многим причинам, и решение зависит от некоторых. В SO есть такой же запрос, и вы, вероятно, его как-то пропустили, сначала проверьте его, здесь.

Также проверьте эту связанную проблему, опубликованную ниже

После проверки всех возможных решений, которые все еще остаются проблемой, обновите свой запрос.

Я думаю, что есть некоторые несоответствия в вашей версии Cuda (CUDA, cuDNN) и tf версии, вы должны сначала проверить их в своей рабочей среде. Также убедитесь, что вы правильно обновили путь Cuda. Согласно данному сообщению об ошибке, вам необходимо убедиться, что следующее установлено правильно.

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.0/lib64/
27.03.2021
  • Я думаю, вы неправильно поняли. Api для обнаружения объектов tensorflow имеет свою собственную конфигурацию на платформе Google AI (я думаю, что это образ докера, созданный командой Google Cloud). Это означает, что у меня нет доступа к коду. Я не провожу обучение на своей локальной машине. Ни на облачной ВМ. Я использую платформу google ai, где в основном все, что мне нужно сделать, это запустить команду в моем терминале с помощью gcloud. 28.03.2021
  • Понятно, извини, это тебе не помогло. Просто попытался предоставить некоторую информацию, которая может вам помочь. 28.03.2021
  • Вы проверили это stackoverflow.com/questions/66550195/ 28.03.2021
  • Спасибо за ответ, Иннат. К сожалению, у меня это тоже не сработает! Поскольку предлагаемое решение предназначено для создания собственного пользовательского образа докера, который может запускать обучение на графическом процессоре. Я знаю, как это сделать. Но проблема, с которой я столкнулся, связана с образом докера, который создается и поддерживается командой Google Cloud. Поэтому я не могу его изменить, так как у меня нет к нему доступа! 28.03.2021
  • Новые материалы

    Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
    Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

    Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
    В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

    Объяснение документов 02: BERT
    BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

    Как проанализировать работу вашего классификатора?
    Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

    Работа с цепями Маркова, часть 4 (Машинное обучение)
    Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

    Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
    Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

    Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
    Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..


    Для любых предложений по сайту: [email protected]