開発・制作支援事業TOP > システム開発や制作業務を支援する、様々なITサービス > AI向け学習データ作成（アノテーション）

AI向け学習データ作成（アノテーション）

LLM（大規模言語モデル）をはじめとする生成AIを中心に、人工知能の普及はすさまじいものがあります。日々新しいモデルが構築されていますが、AIの裏方として学習データも非常に重要な要素となります。大規模モデルに求められる大量の学習データの場合、自動的に準備される仕組みが出来ていますが、エッジAIを中心とする特定用途のAIなどでは、まだまだ個別の学習データが求められています。
サイバーテックでは、機密性の高いデータセットを扱う行うため、正社員によるセキュアなオフィス内にて、ヒューマンラベリングによる学習データ作成（アノテーション）を行っていますが、その種類や特徴などをご案内いたします。

アノテーションに求められるポイントとは？

AIシステムを構築する際、パラメータのチューニングをはじめとするモデル設計も重要ですが、同じぐらい重要なのが、学習データ、もしくは教師データであり、それらを作成する作業は一般的に「アノテーション」と呼ばれます。アノテーションとは「あるデータへ関連情報（注釈）を付与する」という意味ですが、AIシステムの構築にはアノテーション済の教師データを大量に準備し、学習させる必要があります。
モデル設計とアノテーションは車の両輪のようなものですが、ここではアノテーションの重要性や抑えるべきポイント、アノテーション作業を行う会社の特徴による長所と短所などをご紹介いたします。

アノテーションによる学習データ作成（セグメンテーション）

アノテーション作業の中でも、セグメンテーションによる学習データ作成は、正確さが求められる作業となります。モデル開発には複雑な画像の領域抽出によるアノテーションが求められる事が多く、どうしても画像一枚あたりの単価は高騰しがちです。
サイバーテックが提供する、アノテーションによる学習データ作成代行（セグメンテーション）作業では、自社オフショア拠点の経験豊富な直接雇用のスタッフがアノテーション作業を実施いたしますので、難易度の高いアノテーションであってもリーズナブルに実施することが可能です。

アノテーションによる学習データ作成（キーポイント）

アノテーション作業の中でも、キーポイント付与は画像に写っている人などの対象物に特徴点を付与する、経験が求められる作業となります。人体等の骨格検出や姿勢推定に利用されており、パーツの各所につけられた座標（キーポイント）をもとに全体像を割り出します。人体のキーポイントは数多くのデータセットがオープンソースで提供されているため、データの準備が比較的容易であるのに対し、植物や動物などの非生物でのデータセットは作成する必要があります。
サイバーテックが提供する、アノテーションによる学習データ作成代行（キーポイント付与）作業では、特徴点をしっかりと定めた上、精度を高めるために必要とされる大量の学習データを、高品質・低価格にてご提供いたします。

アノテーションによる学習データ作成（バウンディングボックス）

アノテーション作業の中でも、バウンディングボックス付与は一見簡単なようで、習熟度や物体検出の理解度の違いにより、学習データの精度にばらつきが生じます。クラウドソーシングによりアノテータを調達することでコストは抑えられますが、学習データのクオリティが低いと、いつまでたってもモデルの精度が向上せず、結果として学習コストが膨らんでしまう、あるいはチューニング工数が想定以上にかかる、という事になります。
サイバーテックが提供する、アノテーションによる学習データ作成代行（バウンディングボックス）作業では、自社直営オフショア拠点にて、経験豊富な直接雇用のスタッフがアノテーション作業をリーズナブルに代行いたします。

テキストマイニングや翻訳用AIシステムのコーパス・教師データ作成

文字列を対象としたデータマイニングであるテキストマイニングの分野でも、機械翻訳やネガポジ判定などを含め、AIの活用は進んでいますが、テキストマイニングの対象としたいコンテンツを想定したAIシステムの構築に必要とされる学習データ（教師データ）として、既存のデータセットが活用できない場合も多くあります。
サイバーテックが提供する、テキストマイニングや翻訳用AIシステムのコーパス・教師データ作成代行では、日本語の教師データ作成に限らず、英語圏のフィリピンに有する自社オフショア拠点による、英文に対するアノテーションも可能です。新たに学習データを作成することで、推論に基づいたモデルによるテキストマイニング用AIシステムの構築をリーズナブルに行うことができます。

クラシフィケーション～学習データ作成（アノテーション）

AIの導入により様々な業務カイゼンが進みつつあり、ルールベースではなくディープラーニング（深層学習）によるAIは注目されている分野となります。ディープラーニングはまだまだ本当に使える分野は限られていますが、その中でも、画像分類は効果的な領域です。
実現には大量の学習データ（教師データ）の準備が必要不可欠ですが、クラシフィケーション～AI向け学習データ作成（アノテーション）サービスでは、大量の教師データの準備が必要不可欠となるディープラーニングにおいて、アノテーション用データ整理などに使われる、カテゴリ分けによるラベリングを実施いたします。

データアーギュメンテーション（学習データの拡張・水増し）

アノテーション済の学習データ（教師データ）を活用してディープラーニングの精度を高めるためには、大量の学習データが必要ですが、データセットの分量が少ない・追加が難しいといった場合は何らかの対策が必要となります。また、少ない学習データで無理にモデル構築を行うと、過学習が発生する可能性も生じます。
サイバーテックが提供するデータアーギュメンテーション（学習データの拡張・水増し）では、Pyhtonなどを活用し、学習データを水増し（拡張）した形で納品するデジタルBPOサービスです。アウトソースの活用で、AIシステムの構築に集中できます。

御相談、ご質問はこちらお問い合わせ	サービスご案内資料や、特別資料「神は細部に宿る～アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。無料資料ダウンロード
	最新事例の公開情報や、イベント・セミナー情報をお届けします。メールマガジン登録