Я пытаюсь запустить обучение некоторых моделей в api обнаружения объектов tensorflow 2.
Я использую эту команду:
gcloud ai-platform jobs submit training segmentation_maskrcnn_`date +%m_%d_%Y_%H_%M_%S` \
--runtime-version 2.1 \
--python-version 3.7 \
--job-dir=gs://${MODEL_DIR} \
--package-path ./object_detection \
--module-name object_detection.model_main_tf2 \
--region us-central1 \
--scale-tier CUSTOM \
--master-machine-type n1-highcpu-32 \
--master-accelerator count=4,type=nvidia-tesla-p100 \
-- \
--model_dir=gs://${MODEL_DIR} \
--pipeline_config_path=gs://${PIPELINE_CONFIG_PATH}
Учебная работа успешно отправлена, но когда я смотрю на свою представленную работу на платформе AI, я замечаю, что она не использует графические процессоры!
Кроме того, просматривая журналы моей учебной работы, я заметил, что в некоторых случаях он не может открыть cuda. Он мог бы сказать что-то вроде этого:
Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib64
Несколько месяцев назад я использовал платформу AI для обучения, и это было успешным. Я не знаю, что сейчас изменилось! Фактически, для моей собственной настройки ничего не изменилось.
Для справки, сейчас я тренирую Mask RCNN. Несколько месяцев назад я обучил модели Faster RCNN и SSD.