OpenCitationsってなんだろう

JaLC, 2023.01.24

皆さん、こんにちは。誰しも一度はサイテーだなと思ったことがあるでしょう。サイテーから連想すると、最近気になるのはOpenCitations(オープンサイテーションズ)。でもサイテーではなくサイコーな予感。今回は、OpenCitationsについてのメモです。ご存知JaLCでも「令和 4 年度ジャパンリンクセンター運営計画」にて「OpenCitations と連携し、JaLC のデータに基づく Citation ツール(JOCI)の開発・リリースに向けて調整を続ける。」とあり、気になっていました。そこで今回のコラムではOpenCitationsについて調査したことを簡単にまとめてみました。

OpenCitationsとは

皆さんは聞いたことありますか?私はよく聞くけど、詳しくは知らないという状況でした。公式のWebサイトには「OpenCitationsは、セマンティックウェブ(Linked Data)技術を利用したオープンな書誌・引用データの公開に取り組む、オープン学術のための独立した非営利のインフラストラクチャ組織です。特にI4OC(Initiative for Open Citations)の主要な設立メンバーとして、オープン引用のためのアドボカシー活動にも取り組んでいます。管理上の利便性から、OpenCitationsはボローニャ大学のResearch Centre for Open Scholarly Metadataによって管理されています。」とあります。うーん。ムズい。セマンティックウェブ(Linked Data)技術?アドボカシー活動?後で調べてみようと思います。

引用データについて

このコラムを読んでいる方は引用データと聞いてピンと来るかもしれません。論文を記述する場合、その論文が引用した文献を明示します。これは、自分の研究は他者の研究努力の上で成り立っていることや、引用したコンテンツの著者へ謝意を表す仕組みになっています。例えば論文(A)を書くとき、論文(B)を引用したことを明らかにします。この場合、AはBを引用したという方向性のある情報が生まれます。さらに論文(C)が論文(B)を引用した場合も同様に、CはBを引用したという情報が生まれます。論文(B)の著者にとって、これら引用された数(被引用数)を把握することは、自身の研究が与えた影響を測るためのひとつの指標となっています。引用データは学術的価値や研究業績に関する透明で再現可能な指標の作成において極めて重要なものであります。

OpenCitationsが生まれた背景

引用データの蓄積や提供はこれまで商業出版社等に委ねられており、無料で自由に利用することができなかったという背景があります。こちらのコンテンツで自分の書いた論文が引用された数(被引用数)をどのように調べるかを見ることができます。ScopusもWeb of Science(WoS)も有料のため無料で調べる仕組みがなかったのですが、オープンサイエンスの広がりから生まれたのがOpenCitations でした。ちなみにOpenCitationsが提供するデータはすべてCC0(いかなる権利も保有しない)ライセンスになっています。

どんなことをしているの?

OpenCitationsはどんなことをしているのか。以下について簡単にご紹介します。

  • メタデータの収集・提供
  • データのサンプル

その他、ツールやソフトウェアも提供しています。詳しくは公式ページでご確認ください。

メタデータの収集・提供

一所懸命集めています。present status and future plansによると、2022年7月現在OpenCitationsがカバーする世界の学術引用データは13億件を超え、主要な引用インデックスである2つ(エルゼビアScopus, クラリベイト・アナリティクス Web of Science(WoS))と同等になりつつあるとのこと。また、収集データはOpenCitations Data Model(OCDM)のとおりに格納されているため、データを利用する側にとって整理されたデータを利用できることはメリットです。このあたりの理解を深めるにはセマンティックウェブ(Linked Data)技術を利用したオープンな書誌・引用データの公開についての知識も必要になってくると思うので、今後掘り下げていきたいと思います。

主なデータセット

Open Citations Indexとして下記の4つのデータセットを提供しています。

データセット名 概要
COCI:
Crossrefの引用データをインデックス化したもの
COCIの最新更新時点において、Crossrefに存在するDOIで特定された著作物のオープンリファレンスで特定されるすべての引用の詳細を含むRDFデータセット。COCI は、公開されていない Crossref の文献や、DOI を持たないエンティティへの Crossref の公開文献をインデックス化することはない。
DOCI:
DataCiteの引用データをインデックス化したもの
DataCiteの最後のダンプで指定されたすべての引用の詳細を含むRDFデータセット。
POCI:
PubMedの引用データをもとにインデックスしたもの
National Institutes of Health Open Citations Collection(NIH-OCC)から取得した、PubMed Identifiers(PMID)を持つ出版物と他の PMID で識別される出版物のすべての引用の詳細を含む RDF データセット。
CROCI:
Crowdsourcingの引用データをもとにインデックスしたもの
ORCiD IDで識別され、CC0パブリックドメインの権利放棄の下で公開する法的権利を持つ個人によって預け入れられた引用を含む新しいOpenCitations Index。

各サービスの頭文字を名前に付けていくスタイル。すでに2個目のCで破綻してパチンコ台みたいな名前になっちまっただぁ。ジャパンリンクセンター運用計画にあったJOCIのJはJaLCのJなんですね。早いもの勝ち!

提供方法

以下の4つです。詳細はこちらをご確認ください。

  • SPARQLエンドポイント
  • REST API
  • 検索インターフェイス
  • 全データダンプ

SPARQL以外はJaLCでも提供しています。こちらについても今後掘り下げて行きたいと思います。

データのサンプル

実際のデータを見たほうがわかりやすいので、COCIのREST APIのサンプルでデータを見てみましょう。サンプルを見るにはJSONVueなどのChrome機能拡張をインストールすると良いです。

引用一覧(DOI指定)

指定したDOIのコンテンツが引用している文献の引用データ

ちなみにサンプルの結果にでてくるOCI(Open Citation Identifiers)は、OpenCitationsが定義した書誌引用のための世界的にユニークで持続的な識別子(PID)です。

例)020010108063601070506630807020263066305090200101080636102704000806

赤:出典元がCrossrefであることを示すPrefix
緑:主体となる文献のDOI(数値列に変換されている)
青:主体となる文献が引用している文献のDOI(数値列に変換されている)

このようにリンクの方向に関する情報がPID化されています。

被引用一覧(DOI指定)

指定したDOIのコンテンツを引用している文献の引用データ

引用データ(OCI指定)

OCIで特定される引用のメタデータ

メタデータ(DOI指定,”__”連結で複数指定可)

DOI で特定される各書誌実体に対する書誌メタデータ

引用数カウント(COCI)

指定したDOIのコンテンツに含まれる引用件数

被引用数カウント(COCI)

指定したDOIのコンテンツを引用している件数(被引用数)

最後に

ScopusやWoSのコンテンツは、ほとんどがCrossref DOIを付けているため、論文の引用文献情報はCrossrefにデポジットされています。さらにCrossrefからデータを収集しているOpenCitationsはOpenCitations Data Model(OCDM)で整理したデータセットをCrossref Open Citations Index(COCI)として提供しています。

これを活用すれば、これまで有料でしか利用できなかったScopusやWoSの引用データを利用することができます。また、OpenCitationsが公開している現状と今後の計画(present status and future plans)には「COCIインデックスは、引用メタデータと、引用元・被引用出版物のDOI識別子のみを格納しています。これらの文献の書誌メタデータは、現在、CrossrefやORCiDなどの外部機関へのライブAPIコールによってその場で取得していますが、将来的にはOpenCitations Metaデータベース内に格納される予定です。」と書かれています。ブログにはOpenCitations Metaの目的として下記の3つが書かれていました。

  • 外部へAPIコールしなくて良くなるのでレスポンスが向上する
  • DOIがない出版物を含む引用をインデックス化できる
  • DOIとPMIDのような複数の外部識別子を持つ書誌リソースのレコードの重複を排除することができる

書誌データと引用データがOpenCitationsに集まれば、データを利用する側としては楽になりそうです。また、将来的にコンテンツ(論文)の評価だけでなく、ジャーナルインパクトファクターに変わる新しいジャーナルの評価指標などが出てきたり、ジャーナルのあり方に変革をもたらすような可能性を秘めているのではないかと思ったり思わなかったりします。既にあるのかもしれませんね。

さらに、JaLCの引用データがOpenCitationsに連携され、JaLC Open Citations Index(JOCI)として公開されると、日本語文献での研究評価がし易くなったり、いずれJ-STAGEの引用・被引用リンクがほぼリアルタイムに付くようになったりするのでしょうか。その他にもこのデータを活用した新しいサービスが出てきそうな気がします。OpenCitationsのデータが充実してくると、DOI登録機関(RA)にメタデータを持つ必要がなくなってくるのでしょうか。このあたりの棲み分けがどのようになってくるのか、とても楽しみです。

それでは、良い引用ライフを!