Что приходит вам в голову, когда вы слышите слово «аннотатор»? … Верно, не многие знают. Вот почему я пытаюсь написать эту историю в надежде, что многие из вас могут узнать больше о Data Annotator.

Все началось в начале февраля 2019 года. В последний семестр я писал дипломную работу. Я искал возможность стажировки на портале вакансий, когда наткнулся на одну должность в Warung Pintar под названием «Стажировка аннотатора».

К счастью, требования к этой работе идеально подходят для кого-то вроде меня, специализирующегося в области языка, потому что в эту цифровую эпоху у тех, кто имеет специализацию в области ИТ, как правило, больше возможностей.

Очень взволнованный своей первой работой, я подал заявку. Пройдя собеседование, я наконец попал на стажировку.

Короче говоря, я наконец стал штатным аннотатором Warung Pintar. У меня есть М. Джемми Висгун в качестве моего наставника в Annotator, прежде чем он перейдет в другую компанию.

Что я узнал до сих пор и каковы в точности должностные инструкции Annotator? Что ж, этот ответ основан только на моем личном опыте работы аннотатором в Warung Pintar.

⦿ Аудиозапись

Чтобы Варунг Пинтар разработал автоматизированное распознавание речи (ASR), команде машинного обучения необходимы записанные голоса для улучшения своей модели ASR. Моя работа - записать как можно больше голосов и передать их команде машинного обучения. Записанные голоса состоят из того, как таланты заказывают вещи на минимаркете «warung» и как они произносят бренд, количество и единицу измерения. Таланты использовали сценарий (есть сценарий слов и сценарий предложений), который был создан на основе того, как индонезийцы произносили эти слова. Что касается инструмента, я использую Audacity просто потому, что он бесплатный (смеется) и прост в использовании.

⦿ Маркировка аудио

Перед тем, как записанный звук будет доставлен группе машинного обучения, необходима его маркировка с использованием электронной таблицы, чтобы инженер мог разрезать звук на несколько файлов в зависимости от порядка слов или предложений. Вот как это выглядит:

Самая сложная часть этого процесса - сопоставить звук с шаблоном времени, как вы можете видеть в столбцах «начало» и «конец». Шаблон времени создан для того, чтобы процесс маркировки аудио мог быть выполнен намного быстрее.

⦿ Ярлыки для изображений

Когда я впервые получил задачу маркировать изображение, я практически не знал о маркировке изображений, о том, какие инструменты использовать и как их устанавливать. Я пометил товары, которые отображаются на минимаркете, предупреждением, которое в дальнейшем будет использоваться инженером по машинному обучению для повышения узнаваемости бренда. В основном я использовал инструмент labelimg, чтобы пометить изображение. Помимо labelimg, есть много бесплатных инструментов, и все они перечислены здесь вместе со ссылкой на Github: https://www.datasetlist.com/tools/

Вот пример моей работы по маркировке изображений:

Помимо этих трех, я иногда помогаю инженеру НЛП в сортировке или исправлении набора данных, который инженер НЛП хотел использовать.

Мне нравится проводить время в качестве аннотатора, потому что я мог понять (хотя это еще немного) о машинном обучении и его использовании в эту современную цифровую эпоху.

Ааа, вот и все! Надеюсь, вам стоит прочитать эту историю * улыбается *.

Надеюсь, что «аннотатор» или «аннотатор данных» могут получить большее признание, особенно в Индонезии, в связи с увеличением использования машинного обучения и тем, что для того, чтобы машина работала автономно, ей необходимо учиться.

Вот еще одно дополнительное фото меня с моей командой: