banner
ホームページ / ブログ / SciQA 学術知識の科学的質問回答ベンチマーク
ブログ

SciQA 学術知識の科学的質問回答ベンチマーク

May 24, 2024May 24, 2024

Scientific Reports volume 13、記事番号: 7240 (2023) この記事を引用

2289 アクセス

12 オルトメトリック

メトリクスの詳細

ナレッジ グラフは、科学とテクノロジーの分野で過去 10 年間にますます人気が高まっています。 ただし、ナレッジ グラフは現在、主に事実に関する記述の集合である比較的単純から中程度の意味構造です。 質問応答 (QA) ベンチマークとシステムは、これまで主に DBpedia や Wikidata などの百科事典的なナレッジ グラフを対象としていました。 私たちは SciQA を学術知識の科学 QA ベンチマークとして提供します。 このベンチマークは、709 の研究分野からの約 15,000 の学術論文の研究貢献を説明する約 170,000 のリソースを含む Open Research Knowledge Graph (ORKG) を活用しています。 ボトムアップの方法論に従って、まず、このナレッジ グラフを使用して回答できる 100 個の複雑な質問のセットを手動で作成しました。 さらに、8 つの質問テンプレートを考案し、さらに 2,465 の質問を自動的に生成し、ORKG で回答することもできました。 質問はさまざまな研究分野と質問タイプをカバーしており、ORKG を介して対応する SPARQL クエリに変換されます。 2 つの予備評価に基づいて、結果として得られた SciQA ベンチマークが次世代 QA システムにとって困難なタスクであることを示します。 このタスクは、第 22 回国際セマンティック Web カンファレンス 2023 のオープン コンペティションの一部で、Linked Data (QALD) チャレンジとして行われます。

ナレッジ グラフは、科学とテクノロジーの分野で過去 10 年間にますます人気が高まっています。 これらは、さまざまな分野の交差点で、多用途かつ進化する知識の意味論的表現を可能にします。

情報構造化のレベル: 非構造化、半構造化、構造化。

抽象化のレベル: 概念的なものと操作的なもの。

知識表現の形式主義: グラフ、事実、実体関係、論理。 そして

テクノロジーのエコシステム。

ただし、DBpedia や Wikidata など、一般に公開されているナレッジ グラフのほとんどは、比較的単純から中程度のセマンティック構造です1。 これらは、内容、サイズ、適用範囲、および重複が異なりますが、主にエンティティの説明に配置された事実に基づく記述のコレクションを表し、おそらくクラス階層と対応するプロパティ定義によって強化されます。 質問応答 (QA) ベンチマークとシステムは、これまで主に DBpedia や Wikidata などの百科事典的なナレッジ グラフを対象としていました 2、3。 現在、研究ナレッジ グラフと呼ばれる新しいタイプのナレッジ グラフが出現しており、その内容は書誌メタデータと、学術寄稿4,5 またはパーソナライズされた OMICS データ構造で伝えられるアイデア、理論、アプローチ、主張などの科学的要素です。薬6. これらの新しい研究ナレッジ グラフは、セマンティック表現 (セマンティック インテリジェンス)、機械学習 (マシン インテリジェンス)、クラウドと専門家のソーシング (人間のインテリジェンス) という、これまで主に分離されていた 3 つの側面をますます絡み合わせます。 特に、学術コミュニケーションは、次の理由から QA にとってより困難なアプリケーション ドメインです。

知識表現の異質性。

科学的言説に伴う概念の漂流と知識の進化。

研究の貢献を説明するために使用されるさまざまな知識の粒度。

単純な実体の説明を超えた新しい知識構造。

私たちは SciQA を学術知識の科学 QA ベンチマークとして提供します。 このベンチマークは、Open Research Knowledge Graph (ORKG)4,7 (https://orkg.org) を活用しており、現在、709 の研究分野からの約 15,000 の学術論文の研究貢献を説明する約 170,000 のリソースで構成されています。 これらの研究貢献には、特に、研究プロセス、使用された方法と材料、および特定の結果に関する詳細が含まれています。 図 1 は、ORKG9 に記載されている Budde et al.8 の論文の具体例を示しています。 この論文では、ハイブリッド固体コンポーネントを製造するための 4 つの機械プロセスについて報告します。 図 1 では、ORKG に記述されている 4 つのプロセスのうち 1 つの記述の一部のみを示しています。 全体として、4 つの説明のそれぞれには、個々のステップ、その順序、ステップごとの入力コンポーネントと出力コンポーネント、測定方法、測定結果に関する機械プロセス全体の詳細が含まれています。

1000 Sequences)?/p>

The third question (ID 78 in SciQA-Handcrafted) belongs to the research field Ecology and Biodiversity of Animals and Ecosystems, Organismic Interactions from the domain of Zoology. This non-factoid question is based on the comparison Genetic Variability (COI Variation) in Studies Large Sampled (>1000 Sequences)1000 sequences). https://doi.org/10.48366/R149849 (2022)." href="/articles/s41598-023-33607-z#ref-CR42" id="ref-link-section-d14718875e2936"42 which compares the genetic variability in studies containing more than 1000 cytochrome c oxidase I (COI) barcoding sequences. The question aims to identify where the study with the maximum geographic scope took place, which in this case is a study conducted in the United States of America, Mexico, and Canada. The SPARQL query has six triple patterns, uses six query components, and is shaped like a tree./p>

1000 sequences). https://doi.org/10.48366/R149849 (2022)./p>