Thursday, September 1, 2011

PDF's in de zoekresultaten van Google

PDF's in de zoekresultaten van Google: Webmaster niveau: All

Onze missie is om 's werelds informatie te organiseren en universeel toegankelijk en bruikbaar te maken. Tijdens deze ambitieuze zoektocht, we soms tegenkomen niet-HTML-bestanden, zoals PDF-bestanden, spreadsheets en presentaties. Onze algoritmes niet laten verschillende bestandstypes vertragen, we werken hard om de relevante content halen en te indexeren adequaat voor onze zoekresultaten. Maar hoe we eigenlijk index van deze bestandstypes, en-omdat ze vaak zo sterk verschillen van de standaard HTML-welke richtlijnen van toepassing op deze bestanden? Wat gebeurt er als een webmaster wil niet dat wij te indexeren hen?



Google begon met het indexeren van PDF-bestanden in 2001 en heeft momenteel honderden miljoenen geïndexeerde PDF-bestanden . We hebben verzameld de meest gestelde vragen over PDF-indexering, hier zijn de antwoorden:

V: Kan Google-index even welk type van PDF-bestand?
A: Over het algemeen kunnen we indexeren tekstuele content (geschreven in elke taal) van PDF-bestanden die verschillende soorten van karakter-coderingen te gebruiken, op voorwaarde dat ze niet beveiligd met een wachtwoord of versleuteld. Als de tekst is ingebed als beelden, kunnen verwerken wij de beelden met OCR- algoritmen om de tekst te halen. De algemene regel van de duim is dat als je kunt kopiëren en plakken de tekst uit een PDF-document in een standaard tekstdocument, moeten we in staat om te indexeren die tekst.

Q: Wat gebeurt er met de beelden in PDF-bestanden?
A: Momenteel worden de beelden zijn niet geïndexeerd. Om ons te indexeren uw foto's, moet u HTML-pagina's voor hen. Ter verhoging van de kans van ons het inleveren van uw foto's in onze zoekresultaten, lees dan de tips in ons Helpcentrum .

V: Hoe vind je links behandeld in PDF-documenten?
A: Over het algemeen links in PDF-bestanden zijn net zo behandeld als links in HTML: ze kunnen passeren PageRank en andere indexering signalen, en we kunnen hen volgen nadat we hebben gekropen het PDF-bestand. Het is momenteel niet mogelijk om " nofollow "links in een PDF-document.

Q: Hoe kan ik mijn PDF-bestanden voorkomen, dat ze in de zoekresultaten, of als ze al doen, hoe kan ik verwijderen?
A: De eenvoudigste manier om PDF-documenten voorkomen, dat ze in de zoekresultaten is om een ​​X-Robots-Tag toe te voegen: noindex in de HTTP header gebruikt om het bestand te dienen. Als ze al geindexeerd, dan moet ze afhaken na verloop van tijd als je de X-Robot-Tag met de noindex richtlijn. Voor een snellere verhuizingen, kunt u gebruik maken van de URL removal tool in Google Webmaster Tools.

V: Kan PDF-bestanden rangschikken hoog in de zoekresultaten?
A: Zeker! Ze zullen over het algemeen dezelfde rang op andere webpagina's. Bijvoorbeeld, op het moment van dit bericht, [ hypotheekmarkt evaluatie ], [ IRS-formulier 2011 ] of [ paracetamol rapport van deskundigen ] allen terugkeren PDF-documenten die erin slagen om hoog scoren in onze zoekresultaten, door hun inhoud en de manier waarop ze ' re embedded en gekoppeld van andere webpagina's.

Q: Is het als duplicate content als ik een kopie van mijn pagina's in HTML-en PDF?
A: Waar mogelijk, adviseren wij serveren een enkele kopie van uw inhoud. Indien dit niet mogelijk is, zorg ervoor dat u uw voorkeur aangeven versie van, bijvoorbeeld, inclusief de voorkeur URL in uw sitemap, of door het opgeven van de canonieke versie in de HTML-of in de HTTP-headers van de PDF bron. Voor meer tips, lees onze Helpcentrum artikel over standaardisatie .

Q: Hoe kan ik invloed uitoefenen op de titel getoond in de zoekresultaten voor mijn PDF-document?
A: We maken gebruik van twee belangrijke elementen om de weergegeven titel te bepalen: de titel metagegevens in het bestand, en de ankertekst van links die verwijzen naar het PDF-bestand. Om onze algoritmes een sterk signaal over de juiste titel te gebruiken, raden we updaten beide.

Als u meer wilt weten, bekijk Matt Cutt's video over PDF-bestanden "optimalisering voor zoeken , en bezoek onze Helpcentrum voor meer informatie over de inhoud typen kunnen we index. Als u feedback of suggesties, laat het ons weten in de Webmaster Help Forum .


Geplaatst door , Webmaster Trends Analyst

No comments: