每条记录由修改日期、修改人、修改内容大小、是否是微小修改、修改备注构成,当然每条修改记录有相对应的文章正文,只是这个正文需要点击链接进入另外一个页面找到(这个和DUMP中的数据不一样,查看《文章页面及历史版本》)。
这个页面由于是一个动态页面,因此无法从DUMP文件中找出,只能通过HTML格式的方式将页面保存下来。因为是HTML的格式,所以页面的源代码包括了大量的格式化的代码,而要取得所需信息,就需要定位所信息的位置,之后,通过分析代码的结构即可取得所需信息。
在HTML页面中,历史记录的位置在”id”为”pagehistory”的<ul>标签之间,每条记录以<li>的代码形式被保存着,如下
[html]
<ul id=”pagehistory”>
<li>…</li>
<li>…</li>
<li>…</li>
</ul>
[/html]
每条<li>的记录格式的内容结构如下:
[html]
<ul>
<li>
<span>(<a
href=”https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&diff=100272207&oldid=97547514″
title=”Histoire de la logique”>actu</a> | <a
href=”https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&diff=97547514&oldid=97547510″
title=”Histoire de la logique”>diff</a>)</span>
<input type=”radio” value=”97547514″ name=”oldid” id=”mw-oldid-97547514″ style=”visibility: visible;” />
<input type=”radio” value=”97547514″ name=”diff” id=”mw-diff-97547514″ style=”visibility: hidden;” />
<a href=”https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&oldid=97547514″
title=”Histoire de la logique”>17 octobre 2013 à 15:25</a>
<span>
<a href=”https://fr.wikipedia.org/wiki/Utilisateur:Salebot”
title=”Utilisateur:Salebot”>Salebot</a>
<span>(<a
href=”https://fr.wikipedia.org/wiki/Discussion_utilisateur:Salebot”
title=”Discussion utilisateur:Salebot”>discuter</a> | <a
href=”https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Contributions/Salebot”
title=”Spécial:Contributions/Salebot”>contributions</a>)</span>
</span>
<span>. .</span>
<span>(23 130 octets)</span>
<span dir=”ltr” title=”23 130 octets après changement”
>(-76)</span>
<span>. .</span>
<span>(bot : révocation de <a
href=”https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Contributions/193.253.229.112″
title=”Spécial:Contributions/193.253.229.112″>193.253.229.112</a>
(modification suspecte : -399), retour à la version 97088153 de Proz)</span>
(<span><a
href=”https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&action=edit&undoafter=97547510&undo=97547514″
title=”Histoire de la logique”>annuler</a></span>)
</li>
</ul>
[/html]
通过这个结构,我们可以找出一下内容:
- 版本(revision) 的ID(这个ID在整个维基百科中是唯一的):https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&oldid=97547514
- 版本时间:17 octobre 2013 à 15:25
- 这个版本的用户链接:https://fr.wikipedia.org/wiki/Utilisateur:Salebot
- 用户名:Salebot
- 文章内容大小:23 130 octets
- 修改内容大小:-76
- 文章编辑的记录:(bot : révocation de 193.253.229.112 (modification suspecte : -399), retour à la version 97088153 de Proz)
- 另外,微小编辑属于附加属性,在源代码中按以下方式保存:
<abbr title=”Cette modification est mineure.”>m</abbr>
发表回复