PMC登載データ作成に向けてチップス①

PubMed, 2023.09.15

ハロー、トムです。

最近、LLM(Large Language Models)ってのが流行ってるんだ。流行に敏感な自分は、とりあえずやってみる精神で試してるんだけど、同じ問いに対していろんな回答があって、どれが正解か判断に迷うから使いこなすイメージがなかなか湧いてこないんだよね。

さて、本題に戻ります。私はPMCやJ-STAGEの登載データを作成する機会も多いので、PMC登載データ作成に焦点を当て、基本的な知識や役立つページやツールを紹介していきます。

1. はじめに

1.1 PMCとは

PMC(PubMed Central)とは、アメリカ国立衛生研究所(NIH:National Institutes of Health)の国立医学図書館(NLM: National Library of Medicine)が運営している、無料でアクセス可能な生物医学および生命科学などのオンライン論文アーカイブです。PubMedやMedlineの違いについては、当ブログの以下の記事が参考になりますので、興味がある方は参照してください。

Atlas Journal Café:
PubMedで論文が検索されるようになるまで①

1.2 PMCへのジャーナル掲載

新たにPMCに掲載する場合は、「How to Include a Journal in PMC」のページで手順や要件について詳しく記載されています。ここで注目すべきポイントは、申請時の1つに検証に必要な25件以上の登載データを用意する必要があることです。

2. PMC登載データの基礎知識

2.1. PMC登載データ形式

PMCの登載データはXML形式で、XMLのタグ付けルールはDTD(Document Type Definition)で指定されています。PMCでは、NLM DTD(National Library of Medicine Document Type Definition)やJATS(Journal Article Tag Suite)が採用されています。そもそもXMLやDTDとは何か次で説明します。

2.1.1. XMLとは

XMLはテキストベースのマークアップ言語です。データを構造化して保存・交換に広く使用されています。以下、簡単な書籍情報を記載したXMLの例です。

<book>
<title>サンプル書籍名</title>
<author>著者名</author>
<year>2023</year>
<publisher>出版社A</publisher>
</book>

この例では、<book>がルート要素となります。ルート要素とはXMLでデータの始まりであり、最上位に位置する一意の要素です。ルート要素の名前は、書籍のXMLは<book>、書籍リストのXMLは<book-list>など、目的に沿って名前が付けられることが多いです。

ルート要素から階層的に情報を記述し、書籍<book>には、書籍名<title>、著者<author>、発行年<year>、出版元<publisher>が含まれています。なお、XMLの要素やタグとは、角括弧(<>)で囲んだ名前のことを指しています。

2.1.2. DTDとは

DTDはXMLの構造や要素を定義するためのルール付けファイルです。XMLがどのような要素(Element)や属性(Attribute)を持ち、どのような階層構造を持つか明確に定義することで、データの正確性や可読性を高めることができます。ただし、注意点として、DTDはあくまで要素や階層構造を定義するのみであり、具体的なデータの内容や意味については定義していません。

そのため、PMCやJ-STAGEなど各プラットフォームでは、DTDの範囲内で独自に定めた条件でXMLから情報を取得しているため、登載データを作成するプラットフォームのガイドラインを参照する必要があります。とは言え、同じDTDであれば共通部分も多く、データの相互運用も可能です。例えば、J-STAGEのDTDはJATS 1.1を採用していますので、PMCもJATS 1.1のXMLを作成することで、最小限の修正で両プラットフォームにアップロードできます。

2.1.3. NLM DTDとは

NLM DTDは、NLMにより開発されたDTDであり、特に医学分野の学術雑誌用のXMLフォーマットです。2012年に後継のJATSが開発されましたが、NLM DTDは登載データとして現在も有効です。そのため、これまでNLM DTDを使用している方は、特に不都合が感じられない場合、急いでJATSへ移行する必要は無さそうです。

2.1.4. JATSとは

JATSは、NLM DTDの後継として2012年に開発されたXMLフォーマットです。医学分野にとどまらず、幅広い学術雑誌に対応しています。様々なプラットフォームで採用されており、汎用性が高いため、これから登載データを作成する場合はJATSで作成することをおすすめします。

2.2. 図のファイル形式とフォーマット

PMCへ登載の際に必要なファイルの情報は、「File Submission Specifications」のページに記載されており、XML、PDF、画像、電子付録について必要な情報がまとめられています。

また、「Image Quality Specifications」のページでは、図の画像ファイル形式・ファイルサイズ・画像のフォーマットについて確認できます。その中でも登載データ作成で困ることが多い、表や数式を画像で扱う場合についての記載もあります。

2.3. 登載データの命名規則

登載データの命名規則は「Naming and Delivery Specifications」のページで確認することができます。ファイルの種類ごとに識別子を付けることも紹介されており、後から図表などのファイルを差し込む際にも連番の影響を抑えることができ、効率的に管理できます。

3. PMC登載データの作成

3.1. XML(JATS)の基本構成

NLM DTDやJATSのXMLは以下のような構成が基本になります。<!– –>で囲まれた内容はコメントアウトのため、XMLの内容に影響はありません。

<article><!– ルート要素 –>
<front><!– 前書き –>
<journal-meta><!– ジャーナル情報 –>
<!– ジャーナル名・ISSN・発行機関名などの情報を入力 –>
</journal-meta>
<article-meta><!– 書誌情報 –>
<!– 標題・著者・所属・採択日等・巻号頁・抄録・キーワードなどの情報を入力 –>
</article-meta>
</front>
<body><!– 本文 –>
<!– 章節・本文・図表・数式などの情報を入力 –>
</body>
<back><!– 後書き –>
<!– 謝辞・引用文献などの情報を入力 –>
</back>
</article>

3.2. XMLのガイドラインとサンプルデータ

XMLのタグについて用途や使用方法など調べる際には、公式の「PubMed Central Tagging Guidelines」のページを確認します。このガイドラインでは、タグの使用ルールや実際のサンプルが掲載されており、XMLの作成時に参考になります。

3.2.1. XMLのサンプルデータを確認

XMLをゼロから作成するのは難しいため、「Fully-Tagged Samples」のページで提供されているXMLのサンプルデータをダウンロードし、XMLの構造やタグの使用方法について確認します。サンプルデータを通して全体の構造や流れを掴むことができ、今後の登載データ作成にも役立ちます。

3.2.2. XMLのタグを確認

XMLの要素であるタグをより詳細に知るために、「Elements」のページが役立ちます。XMLの作成では似たような用途のタグも多くあり、それぞれのタグが持つ役割や使い方について知る必要があります。例えば、参考文献では<mixed-citation>と<element-citation>など複数のタグがあり、用途に合わせてタグを使用することが重要です。

なお、タグが有効かどうかは登載するプラットフォームにより異なるため、各プラットフォームの特性を考慮してXMLのタグを決める必要があります。

4. PMC登載データ作成に関連するツール

登載データをアップロードする前に、エラーや問題点を見つけることが重要です。XMLは複雑なため、目視だけではエラーの特定に時間がかかります。そのため、「File Validation Tools」のページにあるチェックツールを用いて確認することで、データの作成や確認を効率的に行うことができます。

4.1. チェックツール

4.1.1. PMC XML Validator

PMC XML Validatorは、XMLの構造や構文を確認するためのツールです。登載データの作成が初めての方や不慣れな方、または大量のデータ作成など、データの整合性を保つために利用します。

XMLの構造 ・指定したDTDに基づいてXMLの要素や属性が規則を確認
・要素や要素の過不足や階層構造を確認
XMLの構文 ・要素やの閉じ忘れ、不正な要素やネストなどの構文エラーを確認
・基本的なXMLの構成要素を確認

4.1.2. PMC Style Checker

PMC Style Checkerは、XMLがPMCのスタイルガイドラインに準拠しているか確認するツールです。登載後、書誌情報や全文のページはPMCの仕様で表示されますので、このツールを利用することによりXMLの品質を向上させることができます。基本的には初めての作成やスタイルに不安がある場合に利用し、継続的な作成では使用しないことも多いです。

4.2. プレビューツール

4.2.1. PMC Article Previewer

PMC Article Previewerは、XMLのデータをHTML形式に変換してプレビュー表示するツールです。作成したXMLの内容、特に書誌情報・目次・本文・図表を目視で確認できます。PMCでの公開後は修正することが大変なため、このツールの利用はXMLを作成するうえで必須となります。

ツールの利用にはNCBIのログインが必要です。ログイン後にXMLや画像をZIPファイルに圧縮してアップロードするだけです。また、複数のZIPファイルをまとめてアップロードもできます。

プレビューでは他の方に確認を依頼することもあり、確認者は自身のアカウントでアップロードするため、運用方法について検討が必要です。なお、ログイン方法については、昨年に変更されており、当ブログの以下のジェイミーが書いた記事が参考になります。

Atlas Journal Café:
【2022年6月続報】PubMedを利用されているみなさん。My NCBIへのログイン方法が変更になりました。

4.2.2. PMC Math Preview Tool

PMC Math Preview Toolは、LaTeXやMathMLの数式をPNGやGIFの画像に変換することができるツールです。しかし、LaTeXやMathMLの数式は直接XMLに書いて表示も可能です。そのため、数式を画像に変換する必要性は高くはないものの、表示の一貫性、複雑な数式の対応、フォントやスタイルの固定など、効果はありそうです。

5. おわりに

本文中で紹介した「PubMed Central Tagging Guidelines」や「PMC Article Previewer」などのガイドラインやツールを活用することで、PMCの指定する規格に適合した登載データ作成に一歩近づくことができます。次回は、XMLの要素や属性によるHTML形式変換後の影響などについて紹介したいと考えています。

ありがとうございました。

キーワード : , , ,