ウェブマスター向け公式ブログ
Google フレンドリーなサイト制作・運営に関するウェブマスター向け公式情報
検索結果における PDF ファイルの取り扱いについてのヒント
2011年9月19日月曜日
Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。この使命を遂行するなかで、時として HTML 形式以外のファイル、たとえば PDF、表計算、プレゼンテーション用スライドといった形式のファイルに遭遇することがあります。ファイル形式が違うからといって、Google のアルゴリズムに支障が生じることはありません。Google では、関連性の高いコンテンツを抽出し、適切なインデックス登録を行って検索結果に反映させるよう取り組んでいます。このようなファイル形式は、標準的な HTML 形式とは大きく異なるものですが、実際にはどのようにインデックス登録されているのか、どういったガイドラインが設けられているのか、そしてファイルをインデックスに登録して欲しくない場合には、ウェブマスターの皆様はどうしたらよいか、ご存知でしょうか?
Google は
2001 年に PDF ファイルのインデックス登録を開始
(英語)し、現在では
数億件もの PDF ファイルがインデックスに登録されています
。今回は、PDF のインデックス登録に関して、よく寄せられる質問とその回答をまとめてみました。
質問: Google では、どんな形式の PDF ファイルでもインデックス登録できるのですか?
答え:一般的に、各種文字コードを使用した PDF ファイルに含まれているテキスト コンテンツは、どのような言語で書かれていようと、そのファイルがパスワード保護または暗号化されている場合を除き、インデックスに登録できます。テキストが画像として埋め込まれている場合は、Google ではその画像を
OCR
(英語)アルゴリズムで処理し、テキストを抽出することができます。簡単に言うと、PDF 文書内のテキストをコピーして、標準的なテキスト文書にペーストできるのであれば、そのテキストはインデックス登録が可能です。
質問: PDF ファイル内の画像はどうなるのですか?
答え: 現時点では、PDF ファイル内の画像はインデックスには登録されません。画像をインデックス登録するには、その画像用の HTML ページを作成する必要があります。ご自分のサイトの画像が検索結果に含まれる可能性を高めたい場合は、
ヘルプ センター
に記述されているアドバイスを参考にしてください。
質問: PDF 文書内のリンクはどのように取り扱われるのですか?
答え: 一般に、PDF ファイル内のリンクは HTML 内のリンクと同じように扱われます。つまり、リンクから PageRank をはじめとするインデックス登録のシグナルが渡されるので、Google は、その PDF ファイルをクロールしたのち、リンクをフォローできるようになります。現在のところ、PDF ファイル内のリンクに対しては
nofollow
属性は設定できません。
質問: PDF ファイルを検索結果に表示させないようにするにはどうしたらいいですか?既に検索結果に表示されている場合は、どのようにしたら削除できますか?
答え: PDF 文書を検索結果に表示させないようにする一番簡単な方法は、そのファイル用の HTTP ヘッダーに X-Robots-Tag: noindex を追加するという方法です。既にインデックスに登録されている場合は、X-Robot-Tag で noindex を指定すれば、しばらく時間が経つとインデックスから除外されていきます。早急に削除したい場合は、Google ウェブマスター ツールの
URL 削除ツール
を使用してください。
質問: PDF ファイルでも検索結果の上位にランクされますか?
答え: もちろんです。通常、他のウェブサイトと同じようにランキングされます。たとえば、[
mortgage market review
]、[
irs form 2011
]、[
paracetamol expert report
] で検索してみると、いずれも検索結果の上位に P
DF 文書が表示されます(注: この記事の作成時点)。 これは、文書の内容と、サイトへの埋め込み方法、そして他のウェブページからのリンク状況に基づいた結果です。
質問: ページを HTML と PDF の両方の形式で提供していると、重複コンテンツと見なされるのでしょうか?
答え: できれば、コンテンツは 1 つだけにすることをお勧めします。それが難しい場合は、どちらのバージョンを優先するのかを必ず示すようにしてください。その方法としては、サイトマップに優先 URL を含める方法や、HTML 内または PDF 文書の
HTTP ヘッダー
内で canonical (優先)バージョンを設定する方法などがあります。詳しくは
正規化
に関するヘルプ センターの記事を参照してください。
質問: 検索結果に表示される PDF 文書のタイトルはカスタマイズできますか?
答え: 表示するタイトルの生成には、ファイル内のタイトル メタデータとその PDF ファイルを指すリンクのアンカー テキストという 2 つの主要要素を使用しています。Google のアルゴリズムに対して、適切なタイトルを示したい場合は、上記要素を両方ともアップデートすることをお勧めします。
詳しくは、Matt Cutt による動画
PDF ファイルを検索用に最適化する
(英語)をご覧ください。また、インデックスに登録できるコンテンツ形式については、
ヘルプ センター
でご確認いただけます。ご質問やご意見がありましたら、
ウェブマスター ヘルプ フォーラム
へお寄せください。
Posted by Gary Illyes, Webmaster Trends Analyst
Original version:
PDFs in Google search results
0 件のコメント :
コメントを投稿
ラベル
+1 ボタン
AMP
API
App Indexing
Google プレイス
Merchant Center
Search Console
イベント
ウェブマスターガイドライン
ウェブマスタークイズ
ウェブマスターツール
ウェブマスターフォーラム
オートコンプリート
お知らせ
クロールとインデックス
サイトクリニック
サイトマップ
スマートフォン
セーフブラウジング
セキュリティ
データー ハイライター
ハッキング
ハングアウト
ビデオチュートリアル
マルウェア
モバイルサイト
リッチスニペット
検索エンジン最適化
検索結果
構造化データ
国際化
再審査リクエスト
初級者向け
上級者向け
中級者向け
アーカイブ
2016
2月
1月
2015
12月
11月
10月
9月
8月
7月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
災害時、急激なアクセス集中に備えてウェブマスターができること
ページ スピード サービス - ウェブ パフォーマンスを高速化
検索結果における PDF ファイルの取り扱いについてのヒント
Google Chrome でサイトをうまく表示する方法
ウェブマスター ツールの内部リンクと外部からのリンクの取り扱いを変更しました
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
8月
7月
6月
4月
3月
2月
1月
2008
12月
Feed
Follow @googlewmc
モバイルの検索結果が
4 月 21 日
から変わります。
モバイル フレンドリーかどうかをぜひ試してみてください!
0 件のコメント :
コメントを投稿