Я использую Amazon Elastic MapReduce для обработки некоторых файлов журналов, загруженных на S3.
Файлы журналов загружаются ежедневно с серверов, использующих S3, но кажется, что некоторые из них повреждаются во время передачи. Это приводит к исключению java.io.IOException: IO error in map input file
.
Есть ли способ заставить hadoop пропустить плохие файлы?