防災システムなどを開発するM社において、新規ソリューションの展開を視野に入れた研究開発用のAIシステムを構築する際に、河川画像のデータセットに対してセグメンテーションが実施された教師データ(学習データ)の作成が必要となった。
研究開発向けということで、プロジェクト途中でクラス設計などの仕様変更の可能性などもあったことから、ワンストップ型ではなくプロジェクトに並走可能であることが必要であった。複数のベンダーを比較した結果、リーズナブルであるにもかかわらず、経験豊富なアノテーターが多数在籍する、サイバーテックの自社海外拠点「セブITアウトソーシングセンター」にアノテーション作業を委託した。
ITアウトソーシング事例
アノテーション事例~河川画像へのセグメンテーション
M社
通信技術を核に、様々な分野にソリューションを提供しているM社では、新サービスやソリューション提供に向けた様々な研究を行っている。そのうちの一つとして、川と陸地の境界線を検出する防災システムを構築しているが、AI(人工知能)による実現を目指して研究開発を行っている。
機械学習によるモデル構築を行う方針でAIシステム開発が進められているが、そのためには、精度の高い教師データ(学習データ)が大量に必要となる。ベースとなる画像のデータセットは大量に存在するが、社内で教師データ作成を行うことはコスト面から考慮しても現実的ではなく、さらにAIに関する経験が豊富なメンバーがチーム内には少ないという状況であるため、AIに関する知識を有したベンダーに学習データ作成(アノテーション作業)を委託することが社内で検討された。
また、研究開発という位置づけからプロジェクトを考慮した場合、当初想定したクラス設計による教師データをAIに学習させてみた結果、目標となる精度が出ない場合は、パラメータのチューニングだけにとどまらず、アノテーション仕様を変更する事が想定された。したがって、ワンストップ型によるアノテーション作業ではなく、プロジェクトに並走可能で、AIおよびアノテーションに関する豊富な知識を有しているベンダーにアノテーション作業を委託する方向で社内検討が実施された。
今回のアノテーション作業はAIを活用したシステムの研究開発段階のものであり、また同社の社内事情も踏まえて以下のような課題が想定された。
解決すべき課題が多いアノテーション作業となるが、外部ベンダーにアノテーション作業を依頼することを決定し、GoogleによりWebサイトを検索することにより、適したベンダー探索を開始した。
AIシステムおよびセグメンテーションに関する課題を踏まえて業者選定を行う中で、豊富なアノテーション作業経験を有しているにもかかわらず、現地に日本人スタッフが複数名在籍する海外拠点で実施するため、高品質ながらリーズナブルなアノテーション作業が期待できそうなサイバーテックを有力候補として見積を依頼することにした。見積依頼内容は、サイバーテックに数枚のサンプル提出を依頼した上で、その内容をふまえて最終的なアノテーション仕様を決定の上、最終見積を提示するという流れで業者の選定が行われた。
M社はサイバーテックを含め3社に見積依頼を行ったが、それぞれの企業から提示された見積金額や体制案などを検討した結果、サイバーテックがアウトソーシング先として選定された。決め手となったポイントは以下の通り。
アノテーション作業の進め方は、研究開発向けの検証用データということで、すべてのデータセットのうち、まずは4,000枚程度の画像に対してセグメンテーションを行うこととした。川と陸地の境界線の線引きの内容がポイントとなるが、最初に少量のセグメンテーション済画像データを送付して同社内で検証を行い、次のデータでは仕様を修正した上でアノテーションを実施する進め方が取られた。そのため、定期的なオンラインミーティングにより、コミュニケーションを頻繁に取りながらアノテーション作業を実施した。
データセットは河川を撮影した画像で、当初は主に水面と陸地をセグメンテーションする内容であったが、AIシステムを構築する過程において、陸地も道路や草むら、あるいは陸地の水たまりなど、細かくセグメント分けを行い、クラス付与を行う必要が出てきた。そのため、クラス追加といった仕様変更の依頼が出た際にはミーティングを開催し、細かく対応を実施した。そのような流れを継続することで、当初予定の4,000枚の画像に対してGIMPから出力したXCF形式のデータを当初スケジュールに合わせた形で納品することができた。
この4,000枚の画像に対するセグメンテーション作業完了後、同社で実際にモデルを再構築し、精度などを含めて検証した結果、更なる仕様の変更が必要であることが判明した。追加で1,000枚程度の画像に対するセグメンテーション作業依頼があったため、事前に内容について協議を行った後に作業を実施した。セグメンテーション作業開始後も細かな仕様変更が発生したが、両社の間で十分なコミュニケーションをとった結果、大きな問題が起きることなく作業が進められた。
検証用の教師データがほぼ完成し、現在は同社内でAIシステム自体の検証作業が進められている。検証完了の後、本格的な製品開発に向けた社内提案を実施する予定になっている。製品化に向けて、学習データとして教師データを作成する予定のデータセットは50,000枚程度あり、かなり大規模のセグメンテーション作業が必要となる。同社の担当者からも「AIシステムが求めるアノテーションの仕様を熟知し、要望に柔軟に対応頂けるサイバーテック セブITアウトソーシングセンターに今後のセグメンテーション作業もお願いしたい」という話を頂いている。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |