【INTERVIEW】グローバルに展開する世界トップクラスのAI学習用データサービスプロバイダーDatatang
最終更新日:2021年04月21日
2011年の創業以来、全世界で1,000社以上の企業にデータサービスを提供し、
今回は、そんなDatatang株式会社にお話をお伺いしました。
写真) 代表取締役社長 神部 育也さん
圧倒的大規模な学習用データセットを保有、提供
■まず、Datatang様の概要についてお聞かせください。
—神部さん
「弊社は、一言で言うと、
Datatangは2011年に北京で創業し、10年を経て、時価総額約400億円の規模で、中国、アメリカ、韓国で展開し、これまでに1,000社を超える企業と取引を行い、
中国、アメリカ、韓国、日本で合計7箇所に拠点を構えており、45カ国のリソースパートナーを保有しています。中国、アメリカをはじめ、グローバルにデータサービスを提供しています。
日本では、昨年の2月に日本法人を設立し、学習データ提供のサービスを総合的に展開しています。昨年の前半は準備期間でしたが、後半からは急激に成長しています。お客様は、日本の大手SierやAI開発企業など様々です。
基本的なサービスとして、
ビジネススキームとしては、データ処理拠点やクラウドソーシング等のデータソースリソースを活用してデータを収集し、データファクトリーでアノテーションなどのデータ処理・品質管理を行います。それらをベースに、基本データセットとして提供したり、お客様のご要望に応じたデータの収集やアノテーションを行ったデータセットの提供、アノテーション自動化技術を搭載したプラットフォームを活用したアノテーション受託サービス、及び必要なモジュールのプラットフォームの提供をする、といった流れです。」
■どのようなデータセットを保有されているのでしょうか?
—神部さん
「まず、
もう少し具体的に説明しますと、音声データであれば、スマートスピーカー用、異常検知用などに、多言語での読み上げ音声データや、子供の音声データ、騒音データなどがあります。スマートフォンで採集した3,000人以上の日本語音声データも500時間以上分保有していますし、追加での収集も可能です。音声データには、通常の会話パターンや命令形のパターンなど、複数のパターンが含まれています。
画像では、車を運転しているドライバーを3方向から撮影したアノテーション済みの画像約10万枚や、都市部・地方部を含むストリートビューの物体検出用アノテーション済みデータ、顔や人体のキーポイントアノテーション済み画像、他にも、よく売れているデータとしては、1人当たり29枚、トータル2万人から撮影した多角度多姿勢の顔写真データ、顔がマスク等で遮断されている顔写真データは、2,000人分40万枚保有しております。
これらのデータは、男性女性はもちろん、複数の人種、複数の年齢層のデータを保有しており、お客様は、これらのデータの中から必要なデータを選定して購入して頂くことが可能です。
お客様の用途は多種多様ですが、自動運転はもちろん、監視カメラでの識別用、保険の見積判定用やエンターテインメント領域でも活用して頂いています。」
■日本企業には、どのように提供されていますか?
—神部さん
「日本企業だからといって、日本人だけのデータ、というご要望は比較的少ないです。弊社では、アジア各国のデータを保有していることもあり、これらのデータを提示させて頂くことで、ご納得頂くケースがほとんどです。
また、例として、ものにもよりますが、画像1枚当たり数十円単位から提供していますし、学習用、検証用など、お客様の用途に応じて必要な枚数もカスタマイズして提供しています。」
■データセットとは別の個別のデータ収集やアノテーションも可能ですか?
—王さん
「はい、もちろん可能です。弊社が保有していないデータに対して、お客様の要件に応じて個別に収集する事例も多くあります。おもしろいものとしては、飲酒後の顔の動画データや血圧変化データ、アメリカのレストランでの騒音データなども収集しました。
アノテーション事例も多いです。ストリートビューに対するアノテーションから、電線の欠陥箇所のアノテーションや、衛星画像に対してのセマンティックセグメンテーション、30万枚のゴミ画像に対してのアノテーションなどの特殊なケースなど、本当に多種多様なアノテーション事例があります。」
—王さん
「また、アノテーションについては、
単純なものであれば、1件数円、数十円から実施しています。また、お客様が保有しているデータへのアノテーション受託案件は急激に増えています。」
■アノテーションプラットフォームについても教えてもらえますか?
—神部さん
「弊社では、
このプラットフォームでは、音声、自然言語、画像、動画など、基本的なデータ形式すべてに対してアノテーションが可能になっており、画像用に2D/3Dバウンディングボックス、セマンティック/インスタンス/パノプティックセグメンテーション、音声用に音声速度調節や音声波形縮小拡大など、各データのアノテーション作業に必要な複数の機能を搭載しています。また、プロジェクトを管理する上で必要となるプロジェクト作成機能やタスク作成機能、アノテーターのアサイン機能や成績の確認機能、他にも自動アノテーション機能など、アノテーション業務を実施する上で必要となる基本モジュールも搭載されています。
尚、このアノテーションプラットフォームは外販しており、日本国内のクラウド環境からのサービス提供/オンプレ環境で提供可能です。また、お客様のご要望に基づいたアノテーションモジュールのカスタマイズ開発も可能です。」
■全体を通して、日本企業が気にするであろうコンプライアンスはどのように管理されていますか?
—神部さん
「弊社では、データの被収集者から版権取得契約を締結し、使用権、再利用許諾を取得しています。また、GDPR、CCPA、個人情報保護法に基づき、被収集者のプライバシー情報保護を行いながらデータの収集を行います。
そのため、お客様との間では、AI研究・開発に限定した上で、データの使用許諾を締結させて頂いています。
また、AIを得意とする法律事務所や専門機関と提携し、データ関連業務における会社規定を構築しており、各国の基準に基づいたデータ収集やアノテーションを行います。そのため、民族、宗教、婚歴等のデータ収集はお断りをしています。」
■サービスにかなり特長がある印象ですが、改めて特長はどこにあると言えますか?
—神部さん
「まず、日本においては、学習用データの流通量が、アメリカ、中国と比べると圧倒的に少ない状況です。桁が違うレベルです。そのため、
その上で、先述した「基礎データ集の提供」「カスタマイズデータサービス(カスタマイズ収集やアノテーション)」「アノテーションプラットフォーム」の3つを提供できる会社は他にはありません。」
海外の先進的ソリューションを日本で展開
■今後、日本ではどのような展開を考えていますか?
—神部さん
「日本の市場環境を見極めながらですが、日本でのデータ収集基盤を今後作っていきたいと考えていますし、日本固有データの収集も強化していきます。
他にも、アノテーションプラットフォームの外販も強化していきたいと考えています。なお、このアノテーションプラットフォームは、お客様が必要な機能モジュール単位で販売可能になっていますので、必要な機能モジュールだけを提供することができることは、このプラットフォームの強みです。
我々は、今後の日本でのAIの発展に寄与できるよう、
–ありがとうございました。
今回は、AIのデータ領域における学習用データサービスを総合的に展開する、Datatang株式会社へのインタビューでした。
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp