データアーギュメンテーション(学習データの拡張・水増し)

学習データの拡張~データアーギュメンテーション

アノテーション済の学習データ(教師データ)を活用してディープラーニングの精度を高めるためには、大量の学習データが必要ですが、データセットの分量が少ない・追加が難しいといった場合は何らかの対策が必要となります。また、少ない学習データで無理にモデル構築を行うと、過学習が発生する可能性も生じます。
サイバーテックが提供するデータアーギュメンテーション(学習データの拡張・水増し)では、Pyhtonなどを活用し、学習データを水増し(拡張)した形で納品するデジタルBPOサービスです。アウトソースの活用で、AIシステムの構築に集中できます。

データアーギュメンテーション(学習データの拡張)が求められる背景

AI(人工知能)の導入により様々な業務カイゼンが進みつつあり、ルールベースではなくディープラーニング(深層学習)によるAIは注目されている分野となります。ディープラーニングが実用面において、本当に使える分野はまだまだ限られていますが、その中でも、画像情報を入力し、分類・判別する用途は効果的な領域のうちの一つです。

ただ、精度の高い分類器や判別器を生成するには、高品質かつ大量の学習データ(教師データ)を準備する事が求められます。ディープラーニング(深層学習)の精度を高めるためには、大量の学習データ(教師データ)が必要となりますが、そもそもベースとなる学習データ自体が少ない、あるいは追加が難しい、といったケースや、あまりに揃いすぎている学習データのみで学習させた場合に発生する、過剰適合や過学習(学習データに対して分類器が最適化されてしまい、汎用性が無くなる事)を防ぐ必要がある、といったニーズが存在します。

「データアーギュメンテーション(学習データの拡張)」サービス概要

サイバーテック セブITアウトソーシングセンターでは、ディープラーニングに必要不可欠な学習データ作成(アノテーション)サービスを提供しています。ただし、学習対象となる画像データ数が少ない場合、単純な画像アノテーションのみでは学習データ数が不足する事がよくあります。あるいは学習対象の画像データが揃いすぎてしまっている場合、過学習や過剰適合といった問題も発生します。そのような場合は、学習データの拡張(水増し処理、とも呼ばれます)を行い、オリジナル画像のデータから様々なエフェクトをかけた画像を大量に生成することで、学習データの絶対量を増やす必要が出てきます。

サイバーテックが提供する「データアーギュメンテーション(学習データの拡張)」サービスでは、以下のサンプル画像のような、画像データの拡張(水増し)処理を行う事が可能です。もちろん、以下の拡張パターン以外のご要望も承っております。ご指定頂いたエフェクトパターンとパラメータにより、画像データの拡張(水増し)サービスをリーズナブルにご提供することが可能です。

ランダム回転・角度指定回転

オリジナル画像を、指定角度の範囲でランダムに回転、もしくは設定値に応じた角度で画像を回転します(以下は36度ずつ回転)。

ランダム回転・角度指定回転イメージ図

ランダムズーム・倍率指定ズーム

オリジナル画像を、指定ズームの範囲でランダムにズーム、もしくは設定値に応じたピッチのズーム倍率により、画像をズーム処理します(以下はズーム倍率を10~90%に設定)。

ランダムズーム・倍率指定ズームイメージ図

水平シフト

オリジナル画像を、指定したシフト幅の範囲で、ランダムに水平シフトを行います(以下は水平シフト幅を10~90%に設定)。

水平シフトイメージ図

ランダムシフト

オリジナル画像を、指定したシフト幅の範囲で、ランダムに垂直シフトを行います(以下は垂直シフト幅を10~90%に設定)。

ランダムシフトイメージ図

水平反転

オリジナル画像を、ランダムに水平反転します。

水平反転イメージ図

垂直反転

オリジナル画像を、ランダムに垂直反転します。

垂直反転イメージ図

シアー変換

オリジナル画像を、指定したシアー変換値の範囲で、ランダムにシアー変換をかけます(以下はシアー変換値を10~90%の範囲に設定)。

シアー変換イメージ図

チャンネル(RGB)変換

オリジナル画像を、指定したチャンネル(RGB値)の範囲で、ランダムに変換をかけます(以下はRGB値を[0,0,0] - [2,2,2]の範囲で設定)。

チャンネル(RGB)変換イメージ図

機械学習のライブラリにはデータ拡張をサポートとしているものがありますが、以下のサンプル画像は、TensorFlow のフレームワークである、Kerasで使う事の出来るライブラリを主に利用しました。回転はpillowライブラリ、ズームはscipyライブラリ、それ以外はImageDataGeneratorクラスを用いて生成されています。チャンネル(RGB)変換のみ、Kerasなしの単純なTensorFlowを使用しています。

「データアーギュメンテーション(学習データの拡張)」サービスの特徴

「安心」直接雇用スタッフが行うため、高い守秘性。データ漏洩も無し!

画像データの拡張は、セブITアウトソーシングセンター内のエンジニアがTensorFlowやKeras、Pythonといった、汎用性の高いテクノロジを用いて行います。クラウドソーシングによる在宅や再委託ではないので、オリジナル画像やエフェクト済画像のデータ流出の心配もありません。もちろん、プロジェクトの内容自体の守秘性も守られます!

「リーズナブル」物価が安いフィリピンへのオフショア委託!

セブITアウトソーシングセンターは、海外オフショア委託先の中でも、ベトナム(ホーチミン・ハノイ)よりも物価が安い「フィリピン中部(セブエリア)」に位置します。エンジニア不足の状況にもかかわらず、リーズナブルに画像データの拡張サービスを提供いたします!

「高品質」日本人マネージャ管理の元、フィリピン人エンジニアが実施!

セブITアウトソーシングセンターは2006年に設立し、様々なITアウトソーシング・デジタルBPOサービスをはじめ、オフショア開発などのエンジニアリング業務を日本のお客様向けに提供してまいりました。組織成熟度の高い同拠点で、高品質な画像データの拡張作業を行い、水増し処理を行った学習データを納品いたします!

「データアーギュメンテーション(学習データの拡張)」サービス内容

「データアーギュメンテーション(学習データの拡張)」サービスの流れは以下の通りとなります。

1. 学習対象となる画像データの拡張(水増し)方針のヒアリングと現状確認

現状存在するオリジナルの画像データを、どのようなエフェクトやパラメータの方向で拡張させる必要があるのか、ヒアリングいたします。要求仕様書がある場合はそちらを拝見させていただきますが、無い場合は要件定義から行うことも可能です。場合により、ディープラーニング(深層学習)をどのような目的・用途で活用予定なのか、といった根本的な部分に踏み込んだ形でご提案する場合もございます。秘密保持契約の締結が必要となる場合は、いつでもお申しつけください。

下矢印

2. オリジナルの画像データを拡張(水増し)するプログラムをご用意

ご提案内容で問題が無い場合、実際にオリジナルの画像データを拡張(水増し)するためのプログラミングを行います。ご指定が無い場合は、TensorFlow+Python、一部Kerasフレームワークで行い、仕様に即したエフェクトごとにパラメータを付与することで、学習データの拡張を行ったものをいったん納品いたします。トライアルプロジェクトでの成果物をご確認後、正式にご発注頂けますので、オフショア委託が初めてのお客さまでも安心してご依頼いただけます。学習モデル作成に応じて、段階的に納品させていただくことも可能です。

下矢印

3. ディープラーニング(深層学習)の結果に応じてエフェクト内容やパラメータを変更

仮説の下、拡張を行った学習データを実際に用いて分類器を作成いただき、効果について検証いただきます。別途費用とはなりますが、その結果を元に、2.に戻り、エフェクトの方向性の変更・増減や、パラメータ設定の変更などを行った上で再度学習データを拡張することにより、仮説~検証を繰り返しながら、学習モデルの精度向上や、過学習の回避に向けた取り組みが可能となります。

下矢印

4. 追加学習用の学習データを準備

ディープラーニング(深層学習)は一度学習を実施したら終わりではなく、通常は追加学習を行うことで、分類器を最新に保ちつつ、最新の業務に追随させることと精度向上を目指すことが一般的です。AI向け学習データ作成(画像データの拡張)サービスにおいては、追加学習を行うための学習対象データが新たに発生した場合、学習データの水増しを継続的に行い、学習データを増やし続ける事が可能です。このような取り組みを継続される場合は、長期契約により、要員固定を行いながらさらにリーズナブルとなる、ラボ型プロジェクトが非常に適していますので、ぜひご検討ください。

「データアーギュメンテーション(学習データの拡張)」サービスの事例・価格

Python、TensorFlow、Kerasにより、ディープラーニング用の学習データ(画像)をエフェクトし増量

概要 ディープラーニング(深層学習)用の学習データとして、支給された画像に対して、複数のエフェクトパターンを9段階で実施をすることにより、学習データを約50倍に水増し。データチェックは弊社側100%にて実施。
ボリューム オリジナル画像1000ファイルを約50000ファイルまで拡張
使用ツール・技術 Python、TensorFlow、Keras
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
価格・費用 お問合せください

上記は一般的な「データアーギュメンテーション(学習データの拡張)」サービスの事例となります。そのほか多数の事例がございます、詳細はお問合せください。

「データアーギュメンテーション(学習データの拡張)」サービス Q&A

「データアーギュメンテーション(学習データの拡張)」サービスに関する次のような課題をお持ちではありませんか?

海外オフショアは、やはり品質・コミュニケーション面で不安です。

AI向け画像データの拡張作業を行う場所はフィリピン・セブITアウトソーシングセンターとなりますが、自社直轄オフショア拠点であり、ご契約および受発注は、全て東京本社と行って頂きます。いわゆる「安かろう・悪かろう」や、突然依頼を断られる、といった海外ベースのオフショア企業とは異なり、日系企業の海外オフショア拠点として責任を持って取り組ませて頂きます!

英語が話せません。日本語でのやりとりでも大丈夫?

セブITアウトソーシングセンターのフィリピン人スタッフは日本語が読めませんが、全ての案件に英語が堪能な現地日本人スタッフが付きますので、日本人とフィリピン人が協調しながら業務を進めております。10年以上の海外オフショア拠点の運営ノウハウがございますので、AI向け画像データの拡張仕様やパラメータの設定、といった指示内容も日本語で大丈夫です。海外委託における一番のリスクであるコミュニケーションの齟齬を防ぐことができます。

日本人が全てディレクションに入ると、結局割高になるのでは?

オフショア委託で一番コスト超過に陥る理由は「クオリティや納品内容の齟齬による追加費用」となります。経験豊かな日本人ディレクターがしっかり管理することにより、納期はもちろんのこと、手戻りを防ぐことにより、トータルで見ると低コストにつながります。もちろん国内企業への委託と比べてもリーズナブルです。

外国とのやり取りはタイムラグが心配なのですが

AI向け画像データの拡張作業を行う、セブITアウトソーシングセンターがあるフィリピン・セブ島は、日本との時差がたった1時間しかありません。さらに、始業時間なども日本時間に合わせておりますので、メールやスカイプのやり取りでも国境や時差を感じさせることはございません!

急ぎの納期でも対応してもらえる?

自社オフショア拠点「セブITアウトソーシングセンター」は、フィリピン セブ島エリアの独立系日系ITサービス企業において最大規模となっています。AI向け画像データの拡張作業は短期間で一気に行う事が求められる場合が多くありますが、常に最適な人員配置を行っておりますので、急な納品対応や業務ピークにも柔軟な要員調整が可能です!

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.