TableLinker
実際にやりとりされるデータは様々な形式・構造・表現で記述されており、その利活用にはデータの統合機能が必要になります。
「TableLinker」はデータセットの意味検索、表形式データの抽出、表形式データのアノテーションをサポートするツールです。TableLinkerの開発には世界的なコンペティションで評価されたNIIによる研究成果[1,2,3]が応用されています。
CADDEでは入手したデータのフォーマットの変換など、データの作成者とデータの利用者を支援するツールも開発しています。
実際にやりとりされるデータは様々な形式・構造・表現で記述されており、その利活用にはデータの統合機能が必要になります。
「TableLinker」はデータセットの意味検索、表形式データの抽出、表形式データのアノテーションをサポートするツールです。TableLinkerの開発には世界的なコンペティションで評価されたNIIによる研究成果[1,2,3]が応用されています。
PDFや画像形式の電子文書に含まれる「表」領域を抽出・解析して、表形式のデータに変換します。まず。文書の各ページのレイアウト解析を行いページに含まれる表領域を抽出します。次に表領域に含まれるセルを抽出しその種類を推定します。ページが画像の場合は,セルの抽出に加えて文字認識を行います。
自然言語処理技術を用いて、データセットの検索や加工を支援します。意味や構造を利用して表形式データを検索したり、
表形式のデータがどのようなものを指し示しているか推定します。表がどのような事柄に関するデータなのか(クラス推定)、表の項目間の関係はなんであるか(プロパティ推定)、各項目の値が何を指しているのか(エンティティ認識)といったことを知識ベース(知識グラフ)をつかって行います。
[1] P. Nguyen, I. Yamada, N. Kertkeidkachorn, R. Ichise and H. Takeda: MTab4Wikidata at SemTab 2020: Tabular Data Annotation with Wikidata E. Jiménez-Ruiz, O. Hassanzadeh, V. Efthymiou, J. Chen, K. Srinivas and V. Cutrona eds., Proceedings of the Semantic Web Challenge on Tabular Data to Knowledge Graph Matching (SemTab 2020) co-located with the 19th International Semantic Web Conference (ISWC 2020), Virtual conference (originally planned to be in Athens, Greece), November 5, 2020, Vol. 2775 of CEUR Workshop Proceedings, pp. 86-95, CEUR-WS.org (2020).
[2] P. Nguyen, I. Yamada and H. Takeda: MTabES: Entity Search with Keyword Search, Fuzzy Search, and Entity Popularities in The 35th Annual Conference of the Japanese Society for Artificial Intelligence, No. 1N4-IS-1a-02 The Japanese Society for Artificial Intelligence (2021).
[3] P. Nguyen, K. Shinoda, T. Sakamoto, D. Petrescuand, H.-N. Tran, A. Takasu, A. Aizawa and H. Takeda: NII Table Linker at the NTCIR-15 Data Search Task: Re-ranking with Pre-trained Contextualized Embeddings, Data Content, Entity-centric, and Cluster-based Approaches in Proceedings of the NTCIR-15 Conference on Evaluation of Information Access Technologies (2020).