ITアウトソーシング事例
英文テキストへのアノテーション(属性情報の付与)~自然言語処理によるテキスト意図抽出システムのテストデータ作成
国立研究開発法人B
国立研究開発法人Bでは、広範囲な専門分野の英文文書から研究者による手作業の情報抽出に代わり、精度の高い定量的な関係性を有する英文の抽出や探索を行うシステムを構築していた。システムの精度がどの程度であるかという検証には、コンピュータが実際に書籍から抽出した情報と、全く専門知識を有しない一般人が判断し、付与した情報を比較し、コンピュータ側がどれぐらい専門家に近い形で情報抽出が出来ているかを確認する必要があった。
対象となる書籍は英文である。そのため、大学卒業程度、あるいは英字新聞の社説が普通に読める程度のネイティブレベルの英語力を持ち、かつ、その専門分野を専攻していない一般人が、コンピュータが判断したものと同様の英文を一文ずつ読み進め、専門分野の英単語が対象となる英文に含まれているかどうかを判断した結果と比較することで、システムの精度検証を行うことが可能となる。
国立研究開発法人Bには専門分野に長けている研究員しかいない。そのため、開発したシステムが専門家に近い形で情報抽出することができる、と断定するためには、開発したシステムと同様の作業をネイティブレベルの英語力を有した、かつ専門分野ではない人が行い、制度に差が出るかどうかという性能比較を行う必要があった。
比較対象を行うための検証用英文データは、システムによる情報抽出と同様の出力形式で用意される。それらの英文を読んだ上で専門分野の英単語かどうかを判断したのち、対象となる英単語に人手により属性情報の付与(アノテーション)を行う作業を実施する必要がある。加えて、対象となる書籍が英文であるため、ネイティブ程度の英語能力を有し、かつ、専門分野を専攻していないがITオペレーションは実施可能という一般人が行った作業結果と比較する必要があるが、国立研究開発法人Bではそのような人員をリーズナブルに確保することが困難となっていた。
英文へのアノテーションに求められるのは、ネイティブレベルの英語力とリーズナブルなコストとなる。国立研究開発法人Bでは、システムによるテスト結果と同様のテストデータを人力で作成するために、ネイティブレベルの英語力を有しており、ITオペレーションのスキルを有しながら専門家ではない作業員を複数有した上で、リーズナブルに実施することが可能となる企業を探していた。インターネットによる検索により、英語圏のフィリピン セブ島に有する自社オフショア拠点にて、ラボ型オフショア開発をはじめ、ITアウトソーシングや英語サポートを実施しているサイバーテックを見つけ、すぐに今回のアノテーション業務のアウトソーシングを打診した。
サイバーテックでは、フィリピン セブ島に有する自社オフショア拠点である「セブITアウトソーシングセンター」で、オフショア開発やAI向けのアノテーションサービス「セブアノ」を直接雇用の正社員にて実施している。今回は数千センテンスの英文を一人の担当者で読解し、指定された数千の英単語に即した属性情報を英文に付与するアノテーションとなるが、専門性の高い英文であるため、意味が分からない場合は、調べずに推測ベースで英文に対して属性情報を付与する形となる。
サイバーテック セブITアウトソーシングセンターが提供するアノテーションサービスを選定したポイントは、ネイティブレベルの英語力を有しており、専門分野を専攻していないがITオペレーションのスキルを有する作業者が複数名在籍するといった理由だけではなく、大量のデータセットを処理するアノテーションに重要となるリーズナブルに実施出来るという点も大きかった。
アノテーションプロジェクトの流れは、お客様から属性情報の識別ルールを提示頂いたあとは、納品物に関して最終チェックを行って頂く形となった。セブITアウトソーシングセンターのITオペレータは、数千センテンスの英文を読みながら、指定された数千の英単語が専門分野に該当する英単語であるか否かを識別していき、判断結果をExcelに入力していく作業を一人のオペレータで行う。同様の作業を複数名のオペレータが実施することにより、人数分の識別結果を納品した。
セブITアウトソーシングセンターでは、オペレータが属性情報の識別ルールを理解するまでに多少の時間は必要だったが、ルールを理解してからはスムーズに作業に取り掛かることができた。ベースとなる書籍から抽出された数千センテンスの英文は、長いものでは数行にもなり、ネイティブレベルの英語力は必要不可欠であった。また、英文はコンピュータにより機械的に抽出されたものであるため、英文の中に識別しなければならない英単語が存在しないといった場合や、X-rayとXrayなどのハイフンの有無といったゆらぎ、ChildとChildrenといった複数形と単数形の誤りなどの処理に不備が発生していた。これらを柔軟に対応し、無事複数名分のアノテーション済データを納品することができた。
国立研究開発法人Bではこの知識データベースで関係性を抽出し、それらをデータベース化して,探索するシステムへの拡張も考えられているという。実現に向けては,コンピュータがベースとなる書籍をどれぐらい専門家に近い形で情報抽出できるかにかかっている。同様の考え方による、専門知識を有しない作業員が行う属性情報の付与により評価データを作成する手法は、他の研究分野でも考えられる。
いずれにしてもキーワードは、
が実現出来る事にある。国立研究開発法人Bにおける他の研究においても、サイバーテックのセブITアウトソーシングセンターによるアノテーションサービス「セブアノ」は必要不可欠な存在となっている。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |