コンテンツデータやテキストデータの整理・整形

ITアウトソーシング「コンテンツデータやテキストデータの整理・整形」サービス詳細ページはこちら

RPAなどの情報処理ツールと人手によるプロセスを併用することにより、様々なデータのチェック、修復などを行う「コンテンツデータやテキストデータの整理・整形」サービスを実施しています。工場で使用する指示書・設計書、営業やマーケティング部門で必要となる提案書、改訂が頻発するドキュメントなど、MS Wordをはじめ、Excel・PowerPoint・Visioなどの描画機能で作成された図形オブジェクト、あるいはInDesignやFrameMakerなどのDTPツールで作成されたドキュメントデータを最新のバージョンで活用できるように、データ マイグレーションサービスをご提供いたします。

「コンテンツデータやテキストデータの整理・整形」が求められる背景

ビジネスの変革スピードが速まる中、企業が進める組織変更や統廃合・M&Aなどのダイナミックなアクションも増加しています。そのような中、複数存在するシステムの統廃合や移行に伴い、数値データやテキストデータをシステム(データベース)に格納する際に必要となる、データの正規化、表記揺れの修正、誤字脱字の修正などのデータクレンジングを行うためのツールは多数存在します。ただし、数値データではないコンテンツ データや、ドキュメント情報・テキストデータなどは、正規化・標準化が困難であるため、再活用をするために整理・整形を行う場合は、どうしてもツールと人手を併用する事になります。

例えば、大量の業務マニュアルや規程集、工場で使用する指示書・設計書などを文書管理システムやファイルサーバで一元管理する時、整理が行われていないデータのままでは、「検索しても探したい情報にヒットしない」「図面やイラストが崩れてしまい正しく表示されない」という事が発生します。また、商品カタログの仕様(スペック)表についても、不正な形式で数値データが入力されているためにマクロが動作しない・システムに取り込めない、と言ったトラブルが発生することがあります。DTPデータや図面情報などの場合は、特定のソフトウェアで閲覧・修正を行う事が多く、ビューワーを含めた環境に依存しがちですが、ソフトウェア製品自体の方針変更やサポート終了などにより、強制的に新フォーマットもしくは別フォーマットに移行(マイグレーション)しなければならないケースも見受けられます。

このようなコンテンツ データやドキュメントのクレンジング・チェックは、対応件数が多くなればなるほど、しっかりと改善プロセスを回すことができる実施体制が求められます。さらに、新たな製品やサービスを作り出す作業ではないため、コスト面においても予算確保が難しい場合がほとんどです。そのような状況であるため、クオリティを維持することができる体制構築とコストダウンの両方が求められます。

「コンテンツデータやテキストデータの整理・整形」サービス概要

データの整理・整形やクレンジングといった処理に関しては、ルールを定義し、自動化を行うツールであるRPA(ロボティック・プロセス・オートメーション:Robotic Process Automation)などのツール、もしくはバッチ処理で完結することが理想的です。そのような中、RPAや情報処理ツールで全てカバーすることが難しいコンテンツ データやドキュメント データの場合、どこかのプロセスで人手による作業やチェックが必要となり、ツールのみで完結することが困難になります。プロセスの一部分にどうしても人手による工程が入る業務、さらに対象となるデータ量が多ければ多いほど、それらの一部、もしくはツールを活用する部分ごと、コスト面で有利な海外オフショア委託が有効なソリューションとなります。

特に、MS WordやExcel、PDFのような文書ファイルは、修復、変換のすべてをプログラムで実施するのは困難であり、かなりの部分を人海戦術で行う必要性がありますが、クレンジング後の目視チェックなどは可能な限りツールを使用して効率化を図ります。一方で、クレンジング・チェック対象がHTMLやXMLのような構造化文書や、csvファイル、データベースのクレンジング・チェックを実施する場合は、構造変換や一括置換プログラムを使用して、出来るだけ自動化を図ります。

サイバーテックが有する自社オフショア拠点「セブITアウトソーシングセンター」では、対象データや業務・スケジュール・費用・お客様ニーズに応じて、RPAなどのツールを活用すると同時に、不足部分は人手でカバーいたします。データのルール化・正規化・標準化が必要となる場合は、上流部分から取り組ませて頂くことにより、プロセスの最適化を行い、コストの極小化を実現します。様々なデータを想定したクレンジング(修復、変換)~チェックを行う「コンテンツデータやテキストデータの整理・整形」サービスは、自社オフショア拠点で実施するためにリーズナブルな事はもちろん、日本人プロジェクトマネージャ・ディレクターにより、確実にPDCAを回しますので、クオリティ管理もしっかりと行われます。数多くの教材情報を取り扱ってきた実績もあり、日本語対応も得意としています。

「コンテンツデータやテキストデータの整理・整形」サービスの特徴

RPAなどの情報処理ツールと、人海戦術を併用したITアウトソーシングを提供!

サイバーテックでは、システム開発技術とオフショア・ニアショアのアウトソーシングサービスを組み合わせることで、RPAなどの情報処理ツールを出来るだけ活用しながら、ツールでカバーが困難な工程は人海戦術による作業を組み合わせたクレンジング・チェックサービスを提供します。例えば、お客様から頂いたインプットデータを一部RPAを利用、もしくはツールで整形した後で人手によるデータの補正や修復を実施、最後に差分比較ツールで効率良くチェックして納品する、という流れが可能です。

コンテンツデータから文書データまで、あらゆるデータも効率良く確実にクレンジング・チェック!

サイバーテックでは創業時より、柔軟性の高いフォーマットであるXMLに携わってまいりました。それらのノウハウを活用し、柔軟性が必要なコンテンツデータや文書データなどのクレンジング・チェックを効率良く実施します。取扱説明書や規程集の標準化や管理効率化を支援する「ドキュメントソリューション」で培った技術とノウハウを駆使して、MS WordやExcel、DTP、PDFといった文書データから、本文とそこに含まれる画像、図形オブジェクト、リンク情報などを抽出し、お客様のご要望に応じた形に整えて納品します。

ルールベースのAI・統計用に使われるExcelデータの整理・整形もリーズナブルに!

統計解析やディープラーニング(深層学習)などに用いられるビッグデータの処理は、「FORCAS」「Talend Data Preparation」「Google Cloud Dataprep」「Tableau Project Maestro」といった、専用の商用製品やサービスで行われることが一般的です。それらのツールで活用できるデータフォーマットにするため、大量のデータに対して前処理が必要となる場合も存在します。よくあるパターンが、Excelのセル結合を外す・WordやPDFなど複数のデータフォーマットが混じっているケースですが、ビッグデータの手前にある大量の下処理が必要、といった場合、セブITアウトソーシングセンターではリーズナブルに実施可能となります。特にワンタイムで終了するようなデータクリーニングや、POCフェーズなどで少量のデータに対して検証を行うような場合、全て人手で実施したほうが良いケースも存在します。

「コンテンツデータやテキストデータの整理・整形」サービス内容

「コンテンツデータやテキストデータの整理・整形」サービスの流れは以下の通りとなります。

1. 現状のヒアリングと作業対象データ・作業手順書の確認・作成

現状の課題やご要望をヒアリングし、同時に作業対象となる実データと作業手順書を拝見します。作業手順書が存在しない場合は、要件定義を実施することにより、作業手順書を作成いたします。ご予算や利用用途により、作業内容や方針などにも踏み込んだ形でご提案する場合もございます。紙ベースであり、データが存在しない場合や、PDFのみしか存在しない場合であっても対応可能な場合がございます。また、データのルール化・正規化・標準化が必要となる場合は、コンサルティング・サービスにより前工程からご支援させていただくことも可能です。秘密保持契約の締結が必要となる場合は、いつでもお申しつけください。

下矢印

2. タグ付け対象の実コンテンツと属性情報の付与設計

タグ付け対象の実コンテンツを拝見し、作業手順書に沿った形で属性情報の抽出・作成~タグ付けを実施した際の見積もりを実施します。実コンテンツの内容や属性情報の要求仕様に応じた形で、全て手動・RPA(Robotic Process Automation / ロボティック・プロセス・オートメーション)を一部活用・併用の中から最適なプランをご提案いたします。

下矢印

3. トライアルプロジェクトの実施

ご提案プランの内容で着手指示頂く前提で、少ロットの実コンテンツデータを用いた、属性情報の抽出・作成~タグ付け作業を実施いたします。RPAを一部もしくは全て採用頂く場合であっても、この時点ではライセンス費用は頂きません。想定体制でご要望のクオリティと量産スピードを両立させることが出来るかどうかに着目した形で進めさせていただき、実際に属性情報の抽出・作成~タグ付けを行った上で、作業手順書の見直しを実施します。トライアルプロジェクトにおける納品物は、少量とはなりますが、実際の業務で活用いただけます。

下矢印

4. トライアルプロジェクトの評価・検証

小ロットの実コンテンツデータを用いたトライアルプロジェクトを行った結果について、評価・検証を行います。その上で、当初ご提案したプラン通りで良いか、あるいは別のプランを再検討すべきか、このフェーズで検証いたします。見積もり内容と現状に差異があった場合は、価格・期日などを再提案いたします。別プランが良いという判断になった場合は、3.に戻り再度トライアルプロジェクトを実施することも可能です。トライアルプロジェクトでの成果物をご確認後、正式にご発注頂けますので、オフショア委託が初めてのお客さまでも安心してご依頼いただけます

下矢印

5. 本番プロジェクトの開始

トライアルプロジェクトの評価・検証を経て、問題無いとご判断頂いた後、全てのコンテンツデータを対象とした、本番プロジェクトを開始いたします。本番プロジェクトの途中であっても、対象コンテンツへの追加・変更などにより実施フローの変更が必要となった場合は、軽微なものであればプロジェクト内で吸収した形で進めることが可能です。当初の要求仕様から大きなずれが発生した場合は、3.もしくは4.のフェーズに戻り、方式の再検討から進めさせていただきます。

「コンテンツデータやテキストデータの整理・整形」サービスの事例・価格

作業指示書のデータクレンジング(MS Office文書ファイル)

概要 旧バージョンのMS Office文書ファイルを、最新のMS Officeバージョンへと移行する文書ファイルのマイグレーション及び図形のクレンジング作業を実施。お客様の社内事業所で使用する作業指示書のシステム更新に伴い、システムに取り込むことができない旧バージョンのMS Officeデータを最新バージョンのMS Officeで正しく表示できるように修復、移行する必要があった。
ボリューム・期間 約20,000ファイル・約4か月
作業内容
  • チェックツールで正誤判定
  • 目視による図形オブジェクトの破損や変形チェック
  • MS Officeソフトで破損や変形の修復作業
  • 差分比較ツールで修復作業の品質チェック
  • 作業リストへエビデンス記入
  • データとリストの納品
使用ツール・技術
  • Microsoft Word、Excel、PowerPoint、Visio(編集エディタ)
  • WinMerge(差分比較ツール・フリーソフト)
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他
  • お客様と共同で作業工程のリカバリー計画も含めた1日単位の綿密な計画を事前に作成した
  • プロジェクト開始時にお客様立ち合いの元、約1週間の現地トレーニングを実施した
  • ツール操作や手順に従ったオペレーションの習熟度が時間と共に向上し、予定より前倒しで全ファイルのクレンジングが終了した
価格・費用 お問合せください

需要予測(統計用・ルールベースAI)に使われるExcelデータの前処理(整理・整形)

概要 需要予測を行うための統計システムに使うデータの前処理を実施。対象データが現場ごとにセル結合などを独自に行ったものと、一部紙ベースの手書きデータが混在しているため、RPAによる自動化ではなく、データエントリー含め人海戦術でExcelデータの前処理(整理・整形)を実施。
ボリューム・期間 Excel 約1,000シート(一部手書きの紙資料からのデータエントリー含む)・2か月
作業内容
  • 統計解析用Excelの仕様をお伺いし、整理・整形ルールを作業指示書に落とし込み
  • Excel修正チーム:データの整理・整形を実施
  • データエントリーチーム:Excel仕様に即した形でデータエントリーを実施
  • 別途チェッカーにより最終確認後、納品
使用ツール・技術
  • Microsoft Excel
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他
  • 紙データは、手書きされた数値情報をデータエントリー
価格・費用 お問合せください

Webサイトからディープラーニング用の学習データを取得~クレンジング

概要 ディープラーニングによる学習モデルのプロトタイプ構築に用いるテキストファイルを作成。対象となるWebサイトからテキストデータのみ収集し、装飾文字や顔文字などを取り去り、データクレンジングを実施。
ボリューム 約1,000ページ
使用ツール・技術 テキストエディタ
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
価格・費用 お問合せください

上記は一般的な「コンテンツデータやテキストデータの整理・整形」サービスの事例となります。そのほか多数の事例がございます、詳細はお問合せください。

「コンテンツデータやテキストデータの整理・整形」サービス Q&A

日本語の文書やデータでも大丈夫でしょうか?

「コンテンツデータやテキストデータの整理・整形」サービスは、リーズナブルに実施させていただくため、メインでクレンジング・チェックを行うのはフィリピン人オペレータとなります。その際、フィリピン人QA(Quality Assurance:品質保証)チームによるダブルチェックや、ご要望に応じて最後に日本人のチェッカーが確認しますのでご安心ください。また日本語の読み書きが伴うクレンジング・チェック作業は、日本人オペレータが担当します。

作業指示や進捗管理はどのように行うのですか?

お客様のご要望に合わせた様々な体制構築が可能です。メールやスカイプ、プロジェクト管理ツールを駆使する事で、お客様がフィリピンの日本人マネージャとリモートでコミュニケーション頂く事ができます。また、場合により本社側でBSE(ブリッジSE)や、ディレクター・PM(プロジェクト・マネージャ)をアサインしてお客様の近くでご支援する事も可能です。

英語の作業指示書を用意しないといけないのですか?

アウトソーシングする際に、作業指示書はお客様でご用意いただいても結構ですし、サイバーテック側で作成することもできます。お客様でご用意いただく際は、手順書を英語で記載いただく必要はなく、日本語のままでお客様フォーマットの手順書をご提示いただくだけで大丈夫です。

見積や相談をする際に何を準備すれは良いですか?

ご相談頂く段階でサンプルデータと簡単なご説明資料を準備いただくとスムーズです。実際のお見積り時には、サンプルデータを使ってクレンジング作業の生産性を現地で測定した結果、お見積りいたします。もちろん事前にNDAが必要な場合はおっしゃって下さい。

システムやツール開発も含めて相談できますか?

「コンテンツデータやテキストデータの整理・整形」サービスでは、お客様と協議して最適な方法をご提案しますが、クレンジング・チェック作業自体をお客様側で実施されたい場合もあるかと思います。そのような際は、バッチスクリプトやRPAツールのみを構築してご提供する事も可能です。ご予算が少ない場合でも、まずはご相談くださいませ。

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.