Что приходит вам в голову, когда вы слышите слово «аннотатор»? … Верно, не многие знают. Вот почему я пытаюсь написать эту историю в надежде, что многие из вас могут узнать больше о Data Annotator.
Все началось в начале февраля 2019 года. В последний семестр я писал дипломную работу. Я искал возможность стажировки на портале вакансий, когда наткнулся на одну должность в Warung Pintar под названием «Стажировка аннотатора».
К счастью, требования к этой работе идеально подходят для кого-то вроде меня, специализирующегося в области языка, потому что в эту цифровую эпоху у тех, кто имеет специализацию в области ИТ, как правило, больше возможностей.
Очень взволнованный своей первой работой, я подал заявку. Пройдя собеседование, я наконец попал на стажировку.
Короче говоря, я наконец стал штатным аннотатором Warung Pintar. У меня есть М. Джемми Висгун в качестве моего наставника в Annotator, прежде чем он перейдет в другую компанию.
Что я узнал до сих пор и каковы в точности должностные инструкции Annotator? Что ж, этот ответ основан только на моем личном опыте работы аннотатором в Warung Pintar.
⦿ Аудиозапись
Чтобы Варунг Пинтар разработал автоматизированное распознавание речи (ASR), команде машинного обучения необходимы записанные голоса для улучшения своей модели ASR. Моя работа - записать как можно больше голосов и передать их команде машинного обучения. Записанные голоса состоят из того, как таланты заказывают вещи на минимаркете «warung» и как они произносят бренд, количество и единицу измерения. Таланты использовали сценарий (есть сценарий слов и сценарий предложений), который был создан на основе того, как индонезийцы произносили эти слова. Что касается инструмента, я использую Audacity просто потому, что он бесплатный (смеется) и прост в использовании.
⦿ Маркировка аудио
Перед тем, как записанный звук будет доставлен группе машинного обучения, необходима его маркировка с использованием электронной таблицы, чтобы инженер мог разрезать звук на несколько файлов в зависимости от порядка слов или предложений. Вот как это выглядит:
Самая сложная часть этого процесса - сопоставить звук с шаблоном времени, как вы можете видеть в столбцах «начало» и «конец». Шаблон времени создан для того, чтобы процесс маркировки аудио мог быть выполнен намного быстрее.
⦿ Ярлыки для изображений
Когда я впервые получил задачу маркировать изображение, я практически не знал о маркировке изображений, о том, какие инструменты использовать и как их устанавливать. Я пометил товары, которые отображаются на минимаркете, предупреждением, которое в дальнейшем будет использоваться инженером по машинному обучению для повышения узнаваемости бренда. В основном я использовал инструмент labelimg, чтобы пометить изображение. Помимо labelimg, есть много бесплатных инструментов, и все они перечислены здесь вместе со ссылкой на Github: https://www.datasetlist.com/tools/
Вот пример моей работы по маркировке изображений:
Помимо этих трех, я иногда помогаю инженеру НЛП в сортировке или исправлении набора данных, который инженер НЛП хотел использовать.
Мне нравится проводить время в качестве аннотатора, потому что я мог понять (хотя это еще немного) о машинном обучении и его использовании в эту современную цифровую эпоху.
Ааа, вот и все! Надеюсь, вам стоит прочитать эту историю * улыбается *.
Надеюсь, что «аннотатор» или «аннотатор данных» могут получить большее признание, особенно в Индонезии, в связи с увеличением использования машинного обучения и тем, что для того, чтобы машина работала автономно, ей необходимо учиться.
Вот еще одно дополнительное фото меня с моей командой: