Accessoweb, Blog Web 2.0, Actualite Web 2.0


Google, le Duplicate Content, les agrégateurs anonymes et aussi ...

Publié par Philippe . le Samedi 22 Septembre 2007



Henri Labarre ( 2803.com ) parlait de ses problèmes il y a 3 jours, et en ce qui me concerne, j'ai également les mêmes problèmes de Duplicate Content.

A tel point, que j'ai même du mal à me trouver lorsque je tape le titre exact d'un de mes billets+fonctionne+pour+wordpress+et+dotclear+)%22&hl=fr&start=0&sa=N dans Google.

Par contre Yahoo ne semble pas réagir de la même façon, en mettant en avant, le billet original.

Alors, vous me direz, que d'un côté je devrais être heureux d'être autant agrégé et dupliquer dans autant de sites.

Oui ... mais voilà, ce qui me gène vraiment, c'est de trouver des site, étant de simple agrégateurs en ligne, sans aucun moyen de contacter le créateur, et même avec un Whois, on ne trouve rien ou du moins pas grand chose, à part le nom de l'hébergeur, qui ne répond pas spécialement au mail de demande de renseignement.

Donc je dois dire que ça commence à me gonfler sérieusement que l'on duplique mes billets sans me le demander au préalable. ( ce qui n'est pas le cas des blogueurs ayant mis un lecteur RSS dans leur Sidebar )

J'ai déjà contacté du monde, et certains flux ont déjà été supprimés ou sont en passe de l'être.

Alors je le demande ici, à tous ceux qui me lisent et qui agrègent mon flux. Si vous pouviez suspendre l'agrégation pendant quelques temps, cela m'arragerait beaucoup, histoire que Google reprenne un peu le sens de la marche. ( je m'adresse aussi aux blogueurs mais je vais tout de meme les contacter directement )

Par contre, j'ai vraiment une grosse interrogation par rapport au fonctionnement de Google, et si des spécialistes passent par là, j'aimerais leurs demander de m'expliquer pourquoi Google n'agit pas comme Yahoo en plaçant le billet original en 1er dans les résultats ( recherche faite avec un titre exact )

En vous remerciant pour tous les renseignements que vous pourrez m'apporter, et merci à ceux qui vont retirer le flux à la lecture de ce billet.


Notez



Dans la même rubrique
< >

Mercredi 7 Juillet 2021 - 16:52 Test Arlo Ultra - Mon avis après un test d'un an



1.Posté par Norswap le 22/09/2007 19:16
C'est dur d'être populaire pas vrai?
Je pense (mais suis pas sûr) que les problèmes de duplicate content au sens seo du terme surviennent lorsque le contenu peut être trouvé plusieurs fois sur un même domaine. Il faut donc jouer du noindex pour avoir une meilleure indexation de ses pages. Le fichiers sitemap.xml peut également être utile pour attribuer aux articles une priorité haute par rapport aux archives/page d'accueil/...

Sinon, pour ton problème de flux repris, c'est hélas inhérent au RSS et c'est un des usages qu'il possible (et permis) d'en faire. D'après moi soit on accepte et on mord sur sa chique soit on propose un flux tronqué. Aussi simple que ça.

2.Posté par jmgall le 22/09/2007 20:10
Hello Philippe,

Sacré merdier que tout ça! perso, j'agrége ton flux dans Google reader et j'ai un lien RSS sur mon blog, faut-il suprimer les deux ?? ...;-))

3.Posté par imho le 22/09/2007 20:23
Pas le courage de tout réecrire, alors je copie mon commentaire posté sur 2803, un peu plus de Duplicate content, dsl ;) :

Je me trouve des 2 côtés de la barrière, j’ai un site qui est copié comme le tien et j’ai un site qui aggrège des billets en provenance d’autres blogs.

A mon avis, plutôt que de leur demander de retirer purement et simplement ton flux, demande leur de n’en publier qu’un extrait (même si toi tu continues de le diffuser dans son intégralité)

Plusieurs avantages :

* tu gardes des liens vers ton site
* tu récupères des lecteurs.

En fait quant on est une bille en SEO et que les sites qui reprennent ton contenu sont meilleurs que toi à ce petit jeu, tu as tout intérêt à ce qu’il aggrège ton flux partiellement.

Ils t’amèneront un tas de lecteur.
Pour exexmple, mon site qui reprend une dizaine de sources, envoie plus de 3000 lecteurs quotidiennnement vers les sites dont je reprends un extrait des billets.
(cÂ’est plus que nÂ’importe quel pseudo important/indispensable annuaire)

Il sont nuls en SEO et je suis meilleur qu’eux, donc je ressort en tête sur Google, et les internautes viennent chez moi. L’article étant tronqué, ils suivent le lien vers le site original. Il gagne donc un lien plus des lecteurs.

La recherche sur ton titre de billet est un mauvais exemple, personne (a part toi) ne fais ce genre de recherche, l’important est de voir si tu ressort sur les mots clès que tu vises. Et là encore, s’ils se positionnent devant toi, au final les internautes intéressés finiront sur ton site.

imho, à moins de faire des progrès en référencement et être capable de passer devant eux, tu as tout intérêt à ce qu’il reprennent partiellement ton flux et te fasse des liens.

http://www.2803.com/seo/duplicate-content-sortez-les-armes/#comment-72596

4.Posté par philippe le 22/09/2007 20:33
imho, ok avec toi sur le fait de ne reprendre qu'une partie de mon fil. Mais, publiant moi même l'intégralité de mes billets sur le RSS, je ne suis pas certain que ces personnes fasse l'effort d'en publier qu'une partie. Il s utilsent des agrégateur librement instalable sur n'importe quel hebergement. Donc tu voi sce que je veux dire.

Maintenant, sachant cela, je pourrais envisager de ne publier qu'une partie du billet par RSS . Mais en faisant cela, je risque de me faire " pendre " par les abonnés à mon blog.

Tout ça est bien difficile donc.

Jean-Marie, seul le fil RSS republié sur ton blog ressort dans les moteurs. ;) Ce serait donc celui là à supprimer.

A moins qu'une personne me donne une solution miracle.

Ah oui, pour info, mon fil RSS est livré avec le'URL exacte du billet. Cela gene t il dans cette affaire ? Si tel est le cas, je peux envisager de retourner à l'ancien mode avec un URL fourni par Feedburner, mais je ne suis pas sur que cela serve à quelques chose

5.Posté par Serge le 22/09/2007 21:01
Ben moi, avec ce genre de remarque, j'ai tout simplement envie de couper le cordon. Tu vas gagner des places dans google mais tu vas perdre tes fidèles lecteurs. A toi de choisir.
Je garde le fil encore quelques temps... a+

6.Posté par philippe le 22/09/2007 21:21
Serge, je comprend pas ta remarque. Désolé si j'ai froissé quelqu'un, mais je parle essetiellement des site qui me republient sans m'avoir demandé mon avis.

Pourquoi vouloir couper le cordon ?

7.Posté par Emmanuel le 22/09/2007 23:47
Les contenus intégraux dasn les flux RSS sont un appel au duplicated content. Passe en mode incomplet mais prend soin de rédiger des chapeaux (résumés) efficaces.

8.Posté par philippe le 22/09/2007 23:55
emmanuel, le probleme des flux incomplets a souvent été abordé. Beaucoup d'abonnés de ce blog avait opté pour un flux complet et j'ai peur de décevoir tout le monde en passant dans un mode tronqué.

sujet délicat :)

9.Posté par LDCWeb2.0 le 23/09/2007 12:07
Pour ma part, j'indique sur mon blog mes sources d'informations et lectures dont Accessoweb fait bien entendu partie.
Le lecteur RSS intégré dans la sidebar ne listant que les titres des 3 derniers billets donc peu de risque que les google bots le considère comme du duplicate content mais plutôt comme du backlinks vers tes articles.

Néanmoins, n'hésites pas à m'indiquer par retour de mail si tu souhaites que je le retire.

http://famillesdalle.free.fr/blog/index.php/mes-lectures-sources-dinformations/

10.Posté par Gautier le 23/09/2007 12:10
moi, les flux tronqués ça ne me dérange pas du tout... je m'explique : dans mon netvibes je vois un titre d'article intérressant, je clique il s'ouvre en mode texte dans netvibes.. je ne vois que le debut de l'article si il est interressant je passe en mode "Voir site", je vois ainsi l'article complet sur le site directement depuis mon netvibes... et je peux ainsi continuer ma lecteur des mes flux sans avoir ouvert 15 onglets ... je n'y connais rien en seo mais a mon avis mettre un flux tronqués et la meilleure solution pour t'apporter des lecteurs et ne pas te faire dupliquer ...

11.Posté par Badoux C le 23/09/2007 14:18
Salut philippe,

Comme-tu le sais déjà, je suis actuellement sur un outil de veille (Pleegs), celui-ci est alimenté part les flux RSS, ce qui fait que je suis dans le vif du sujet.

Voila ce que j'en pense:
Dans Pleegs, le contenu est intégralement dupliqué pour la raison, qu'il est strictement impossible de lancer une recherche sur l'intégralité des flux pour une simple requête. Imagine que le site référence 100k de flux, imagine maintenant le temps qu'il faudrait pour une requête ! Entre nous, ce ne serait vraiment impossible de procéder à des recherches d'une telle manière ;)

De plus, je peux t'assurer que si cela serait possible, je n'aurais jamais développé un aspirateur qui récupère et stocke les articles dans une base de données (qui pèse énormément).

Pour modérer votre flux, il serait bien que vous indiquiez un e-mail dans celui-ci. Je m'explique, dans mon projet, chaque titulaire d'un flux référencé, dispose d'analyses détaillées sur le comportement des visiteurs envers celui-ci. Pour avoir accès à ces analyses, le membre doit automatiquement mettre a disposition à l'intérieur du flux, une adresse e-mail valable, afin qu'il puisse recevoir un code de confirmation pour accéder aux statistiques.
Pour en venir au faite, la modération serait beaucoup plus simple pour tous, si l'on disposerait d'un moyen de contact direct avec le titulaire du flux.

Concernant la duplication des articles, c'est un problème certain. J'aurais plutôt tendance à reposer la faute sur les principaux moteurs de recherche (type, Google, Yahoo, etc..) qui ne font pas le nécessaire afin que les sources ressortent en tête des recherches.
Plusieurs possibilités sont à leur porté, mais il est évident que c'est beaucoup plus rapide est simple d'aspirer en brut le contenu à travers le web.

Bref, je trouverai vraiment regrettable de brider le contenu de nos flux, pour la simple raison d'être trop mal référencé par les moteurs de recherche. Le partage de contenu est la base fondamentale du RSS, alors partir dans un format tronqué, serait le retour a un web restreint sans réel partage, tel qu'on essaye de produire avec le temps.

A vous de choisir, quel type de web vous souhaitez voir apparaitre et a quel profit ?

12.Posté par webstorm le 24/09/2007 12:39
Philippe,

outre le fait que des personnes utilisent ton fil rss, je pense que le problème vient également de ta réécriture d'url...

En effet j'ai constaté que tu avais réécrit tes url récemment... trés bonne initiative !

Mais n'aurais-tu pas oublié de signaler à Google ce changement ?
En effet tu risques toi même de te mettre en situation de duplicate content avec 2 urls pointant vers un contenu identique à 100%.

Pour pallier à ce problème as-tu fait une redirection 301 pour signaler que tes anciennes url ne sont plus d'actualité afin que googlebot n'indexe plus tes anciennes url ?

De plus j'ai constaté un PHPsessid dans tes urls... Ca aussi ca peut etre une source de duplicate content au sein même de ton site.

N'hésite pas à me contacter si t'as besoin d'aide ;)

Bonne continuation

Nouveau commentaire :
Facebook Twitter









Les derniers articles



Rechercher









Les autres sites du groupe : News-Mobiles, webOSfrance, En 1 image et AutoDay