アノテーション作業はIT業界の中でもまだ新しい分野であるため、例えばバナー制作1つあたりいくら、DTP1ページあたりいくらといった、業界的におおよそどれぐらい、という相場感は、アノテーションの内容次第ですが、まだ形成されていないのが現状です。
サイバーテックでは、テレワーク全盛となるコロナ禍前からアノテーション作業を行っており、新しい分野となるAIアノテーション作業を行う会社の中においても老舗の部類に属します。今までの経験や昨今の状況をふまえ、一般的なアノテーション委託費用の内訳や費用感をまとめました。
AIに関するニーズの高まりとともに、アノテーションへのニーズも増加していますが、実際にアノテーション作業に携わる企業やベンダー、個人の属性は、コロナ禍によるテレワーク浸透前と後とで全く様子が異なります。
アノテーション作業において、対象となる作業の難易度や担当者の経験値にもよりますが、コロナ禍によるテレワーク普及前は参入している企業もさほど多くはありませんでした。アノテーション作業は一見テレワークで簡単にできる作業に見えるため、コロナ禍によるテレワーク普及直後から参入企業や、クラウドソーシングに登録してアノテーション作業を行う個人ワーカーが一気に増加しました。
しかしながら、そのようなベンダーや個人ワーカーには以下の注意点があります。
バウンディングボックスのような、単純なアノテーションであればそのようなプレイヤーでも十分対応可能、かつリーズナブルなアノテーションサービスを提供することが可能と思われますが、難易度が高いアノテーション作業になると対処が出来なかったり、低い品質のアノテーションとなってしまったり、といった状況に陥ってしまうことはよく聞く話です。
サイバーテックでは、コロナ禍前の2018年に、自社開発のAIシステムである、AI校正~ライティング支援エンジンに活用する教師データのアノテーション業務を皮切りに、フィリピンに有する自社オフショア拠点である「セブITアウトソーシングセンター」にて、アノテーション作業の受託サービスを開始いたしました。
アノテーション費用の比較サイトは複数ありますが、弊社のアノテーション費用の傾向として、単価は高めとなりますが、理由は以下のような形となります
そのような特徴を有する、サイバーテックの「セブITアウトソーシング」によるアノテーションサービスですが、アノテーション作業に関して、一般的なアノテーションの外部委託費用が影響する項目としては、大きく分けると「アノテーション業務委託費用」「QA費用」「プロジェクト管理費用」の3つに分類されます。
ここでは、アノテーション業務を外部委託する場合に気になる費用相場について、それぞれの費用内訳の特徴や、代表的な費用相場などをご案内いたします。
アノテーション業務委託費用とは、教師データを作成するためにベンダーが必要とする人件費がベースとなります。実施するアノテーション作業の内容や要求スペックの違いや、画像・動画・テキスト・ドキュメント・音声など、対象となるデータセットに応じて、ベンダー企業内で作業可能となるメンバーが変わる場合がほとんどとなり、業務委託費用もそれぞれ異なります。
また、委託先企業のセキュリティ水準や体制、経験値などに応じて、業務委託費用が異なりますので、アノテーション実施ベンダーにありがちな「安かろう・悪かろう」といった結果にならないよう注意しつつ、複数社を比較・検討してみると良いでしょう。
教師データの枚数が多い場合、ベンダーによっては、ボリュームディスカウントを適用する企業もあります。
アノテーションの実施内容やデータセットに応じた、一般的な業務委託費用の業界相場としては、おおよそ以下の通りです。
画像 |
|
---|---|
動画 |
|
テキスト |
|
音声 |
|
アノテーション業務のQA(納品データの品質保証)の確認方法には、一般的に以下の方法があります。どの方法を依頼するかに応じて、QA工数が異なるため、費用も変動します。難易度の高いアノテーション作業では、ダブルチェックは必須となることが多いですが、PoCなどによる動作確認目的のための初期データとして必要とされるアノテーション済データなどの場合、シングルチェックのみでまずは進めてみる、といったケースも存在します。
また、AIシステム構築後のテストデータとして、あえて精度の低いアノテーション作業が求められる場合もありますが、その場合はチェック無しによるアノテーション作業となる場合もあります。
品質水準 | 内容 | 価格 | 品質 |
---|---|---|---|
シングルチェック | 1人のアノテーターが教師データを作成して品質を担保する。アノテーションマネージャは間引きチェックなどによる確認を実施。アノテーターごとのアノテーション品質のばらつきが発生する。 | 安 | 低 |
ダブルチェック | 1人目のアノテーターが教師データを作成した後、2人目のアノテーターが教師データの品質を確認する。2人目のアノテーターも別データに対するアノテーション作業では1人目のアノテーターになりうるため、品質ガイドラインの浸透が高次元で実現できる。事前トレーニングも効果的。 | 中 | 高 |
コンセンサス | アノテーションマネージャによる進行管理の下、複数のアノテーターが多数決で品質を決める。テキストデータへのラベル付与など、品質に対する判断を明確につけやすいアノテーション作業に向いている。 | 高 | 中 |
アノテーション作業におけるプロジェクト管理費用は、お客様とのコミュニケーション工数だけではなく、アノテーション業務の進捗管理やアノテーションチームの管理費用が含まれます。また、アノテーターに研修などが必要となる場合、それらの費用もプロジェクト管理費に含まれています。プロジェクト管理をベンダーに委託する形となる請負型の業務委託の場合、契約金額の10%~20%が平均相場となります。
準委任形式やラボ型による契約形態の場合は、プロジェクト管理をお客様側で実施する形となるため、プロジェクト管理費用は不要、もしくは非常に低い金額になることが一般的です。
対象となる教師データと同様のデータセットを学習済のモデル、あるいはきちんとした近いデータセットが存在するといったケースがまれに存在します。そのような場合は、それらを活用してアノテーション自体を行うAIシステムを構築して、ある程度自動的にアノテーションを機械側で実施してしまうという、逆説的な手法が取れることもあります。
クラス設定なども考慮すると、完全に一致することは考えにくいのですが、ある程度のアノテーションを実施した後、人手による修正を行う、といった手法も考えられます。
このようなケースがあてはまるのは、非常に大量のアノテーション作業が必要となるケースとなります。理由は、アノテーションを行うためのAIシステムの初期開発コストが必要となるためです。
また、プラットフォーム的にアノテーションの実施が出来るサービスも存在しますが、いずれにせよ補正が必要となるので、ベンダーから見たプロモーションアイテム、もしくはアノテーション作業の一部を実施するためには使えるかもしれませんが、過度に期待しないほうが良いかと思われます。
上記のようなサービスを活用する場合はもとより、通常のヒューマンラベリングによるアノテーションをリーズナブルに委託する方法として、指示書を整備する、クラス設計やクラス数などの要件を固めた上で依頼する、信頼のできるオフショアベンダーを活用する、ボリュームディスカウントを期待する、といった方法があるかと思います。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |