アノテーション事例~河川画像へのセグメンテーション

防災システムなどを開発するM社において、新規ソリューションの展開を視野に入れた研究開発用のAIシステムを構築する際に、河川画像のデータセットに対してセグメンテーションが実施された教師データ(学習データ)の作成が必要となった。
研究開発向けということで、プロジェクト途中でクラス設計などの仕様変更の可能性などもあったことから、ワンストップ型ではなくプロジェクトに並走可能であることが必要であった。複数のベンダーを比較した結果、リーズナブルであるにもかかわらず、経験豊富なアノテーターが多数在籍する、サイバーテックの自社海外拠点「セブITアウトソーシングセンター」にアノテーション作業を委託した。

ITアウトソーシング事例

アノテーション事例~河川画像へのセグメンテーション

M社

アノテーション作業が求められた背景~河川画像のセグメンテーション

将来の製品化に向けて、AIの知識を有したベンダーにアノテーション作業の委託を検討

通信技術を核に、様々な分野にソリューションを提供しているM社では、新サービスやソリューション提供に向けた様々な研究を行っている。そのうちの一つとして、川と陸地の境界線を検出する防災システムを構築しているが、AI(人工知能)による実現を目指して研究開発を行っている。

機械学習によるモデル構築を行う方針でAIシステム開発が進められているが、そのためには、精度の高い教師データ(学習データ)が大量に必要となる。ベースとなる画像のデータセットは大量に存在するが、社内で教師データ作成を行うことはコスト面から考慮しても現実的ではなく、さらにAIに関する経験が豊富なメンバーがチーム内には少ないという状況であるため、AIに関する知識を有したベンダーに学習データ作成(アノテーション作業)を委託することが社内で検討された。

また、研究開発という位置づけからプロジェクトを考慮した場合、当初想定したクラス設計による教師データをAIに学習させてみた結果、目標となる精度が出ない場合は、パラメータのチューニングだけにとどまらず、アノテーション仕様を変更する事が想定された。したがって、ワンストップ型によるアノテーション作業ではなく、プロジェクトに並走可能で、AIおよびアノテーションに関する豊富な知識を有しているベンダーにアノテーション作業を委託する方向で社内検討が実施された。

アノテーションとしてセグメンテーション作業を実施する際の課題

プロジェクト途中でアノテーションの仕様変更が可能、かつ経験豊富な要員をリーズナブルに!

今回のアノテーション作業はAIを活用したシステムの研究開発段階のものであり、また同社の社内事情も踏まえて以下のような課題が想定された。

  • 同社の開発チームにはAIシステムや教師データの準備などに精通したメンバーが少なく、かつ社内ではリソース自体も足りなかったため、自社でアノテーション作業を実施することは困難であった。
  • AIシステムの構築過程において、必要とされる教師データの仕様が全て見通せていたわけではなかったため、アノテーション作業を進める過程においても仕様の変更や追加が発生する可能性があった。
  • 川と地面の境界線が曖昧な箇所が多数あり、作業を行うアノテーターやアノテーションマネージャーに判断を求められるケースもあるため、妥当な判断が出来る類似のアノテーション作業の経験が豊富な要員が必要であった。
  • 研究開発プロジェクトという限られた予算の中、AIシステム開発と並走する形でアノテーションを実施する必要があり、アノテーション仕様に関して、同社担当者とコミュニケーションが十分にとれる実施体制が必要であった。

解決すべき課題が多いアノテーション作業となるが、外部ベンダーにアノテーション作業を依頼することを決定し、GoogleによりWebサイトを検索することにより、適したベンダー探索を開始した。

アノテーション作業の委託ベンダーとしてサイバーテックを選定した理由

海外オフショアなのでリーズナブル、かつ日本人品質で経験豊富なアノテーション作業ができる会社に委託

AIシステムおよびセグメンテーションに関する課題を踏まえて業者選定を行う中で、豊富なアノテーション作業経験を有しているにもかかわらず、現地に日本人スタッフが複数名在籍する海外拠点で実施するため、高品質ながらリーズナブルなアノテーション作業が期待できそうなサイバーテックを有力候補として見積を依頼することにした。見積依頼内容は、サイバーテックに数枚のサンプル提出を依頼した上で、その内容をふまえて最終的なアノテーション仕様を決定の上、最終見積を提示するという流れで業者の選定が行われた。

M社はサイバーテックを含め3社に見積依頼を行ったが、それぞれの企業から提示された見積金額や体制案などを検討した結果、サイバーテックがアウトソーシング先として選定された。決め手となったポイントは以下の通り。

  • 想定していたアノテーションツール(GIMP)をはじめ、類似のアノテーション作業の経験が豊富なアノテーターが多数在籍していた。
  • サイバーテックは自社の正社員が作業を実施する体制であり、かつ作業場所も在宅ワークではなく、オフィス(セブITアウトソーシングセンター内)となっているため、高い品質が期待できるとともに、データ流出といった機密保持の観点からも問題がなかった。
  • 見積段階から現地の日本人担当者が入ることにより、コミュニケーションがスムーズに進められた。更にセブITアウトソーシングセンターのあるフィリピンは日本との時差が1時間しかないため、打ち合わせのためのWeb会議の日程調整なども容易であった。
  • 研究開発向けのAIシステムであるため、少量のアノテーションを複数回実施するプロジェクト並走型で進めたいという要望にも対応可能であった。
  • 日本人窓口であるため、日本品質でありながら海外オフショアにアウトソーシングする利点であるリーズナブルな価格であり、予算的にも希望内に収まるものであった
  • 納期に関しても希望通りであった

アノテーション作業~プロジェクト並走型によるクラスの見直し

アノテーション作業を複数回に分けて、5,000枚の画像に対してセグメンテーションを実施

アノテーション作業の進め方は、研究開発向けの検証用データということで、すべてのデータセットのうち、まずは4,000枚程度の画像に対してセグメンテーションを行うこととした。川と陸地の境界線の線引きの内容がポイントとなるが、最初に少量のセグメンテーション済画像データを送付して同社内で検証を行い、次のデータでは仕様を修正した上でアノテーションを実施する進め方が取られた。そのため、定期的なオンラインミーティングにより、コミュニケーションを頻繁に取りながらアノテーション作業を実施した。

データセットは河川を撮影した画像で、当初は主に水面と陸地をセグメンテーションする内容であったが、AIシステムを構築する過程において、陸地も道路や草むら、あるいは陸地の水たまりなど、細かくセグメント分けを行い、クラス付与を行う必要が出てきた。そのため、クラス追加といった仕様変更の依頼が出た際にはミーティングを開催し、細かく対応を実施した。そのような流れを継続することで、当初予定の4,000枚の画像に対してGIMPから出力したXCF形式のデータを当初スケジュールに合わせた形で納品することができた。

この4,000枚の画像に対するセグメンテーション作業完了後、同社で実際にモデルを再構築し、精度などを含めて検証した結果、更なる仕様の変更が必要であることが判明した。追加で1,000枚程度の画像に対するセグメンテーション作業依頼があったため、事前に内容について協議を行った後に作業を実施した。セグメンテーション作業開始後も細かな仕様変更が発生したが、両社の間で十分なコミュニケーションをとった結果、大きな問題が起きることなく作業が進められた。

AIシステムを活用した研究開発プロジェクト~その後の展開

モデルの検証を進めながら社内提案を経て本格的な学習データ作成を実施

検証用の教師データがほぼ完成し、現在は同社内でAIシステム自体の検証作業が進められている。検証完了の後、本格的な製品開発に向けた社内提案を実施する予定になっている。製品化に向けて、学習データとして教師データを作成する予定のデータセットは50,000枚程度あり、かなり大規模のセグメンテーション作業が必要となる。同社の担当者からも「AIシステムが求めるアノテーションの仕様を熟知し、要望に柔軟に対応頂けるサイバーテック セブITアウトソーシングセンターに今後のセグメンテーション作業もお願いしたい」という話を頂いている。

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.