LLM(大規模言語モデル)をはじめとする生成AIを中心に、人工知能の普及はすさまじいものがあります。日々新しいモデルが構築されていますが、AIの裏方として学習データも非常に重要な要素となります。大規模モデルに求められる大量の学習データの場合、自動的に準備される仕組みが出来ていますが、エッジAIを中心とする特定用途のAIなどでは、まだまだ個別の学習データが求められています。
サイバーテックでは、機密性の高いデータセットを扱う行うため、正社員によるセキュアなオフィス内にて、ヒューマンラベリングによる学習データ作成(アノテーション)を行っていますが、その種類や特徴などをご案内いたします。
アノテーション作業の中でも、キーポイント付与は画像に写っている人などの対象物に特徴点を付与する、経験が求められる作業となります。人体等の骨格検出や姿勢推定に利用されており、パーツの各所につけられた座標(キーポイント)をもとに全体像を割り出します。人体のキーポイントは数多くのデータセットがオープンソースで提供されているため、データの準備が比較的容易であるのに対し、植物や動物などの非生物でのデータセットは作成する必要があります。
サイバーテックが提供する、アノテーションによる学習データ作成代行(キーポイント付与)作業では、特徴点をしっかりと定めた上、精度を高めるために必要とされる大量の学習データを、高品質・低価格にてご提供いたします。
アノテーションによる学習データ作成(バウンディングボックス)
アノテーション作業の中でも、バウンディングボックス付与は一見簡単なようで、習熟度や物体検出の理解度の違いにより、学習データの精度にばらつきが生じます。クラウドソーシングによりアノテータを調達することでコストは抑えられますが、学習データのクオリティが低いと、いつまでたってもモデルの精度が向上せず、結果として学習コストが膨らんでしまう、あるいはチューニング工数が想定以上にかかる、という事になります。
サイバーテックが提供する、アノテーションによる学習データ作成代行(バウンディングボックス)作業では、自社直営オフショア拠点にて、経験豊富な直接雇用のスタッフがアノテーション作業をリーズナブルに代行いたします。
テキストマイニングや翻訳用AIシステムのコーパス・教師データ作成
文字列を対象としたデータマイニングであるテキストマイニングの分野でも、機械翻訳やネガポジ判定などを含め、AIの活用は進んでいますが、テキストマイニングの対象としたいコンテンツを想定したAIシステムの構築に必要とされる学習データ(教師データ)として、既存のデータセットが活用できない場合も多くあります。
サイバーテックが提供する、テキストマイニングや翻訳用AIシステムのコーパス・教師データ作成代行では、日本語の教師データ作成に限らず、英語圏のフィリピンに有する自社オフショア拠点による、英文に対するアノテーションも可能です。新たに学習データを作成することで、推論に基づいたモデルによるテキストマイニング用AIシステムの構築をリーズナブルに行うことができます。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |