Uma URL (Uniform Resource Locator) é um formato de designação universal para designar um recurso na Internet. Trata-se de uma cadeia de caracteres ASCII imprimíveis que se decompõe em cinco partes :
· O nome do protocolo : quer dizer, em certa medida, a linguagem utilizada para comunicar na rede. O protocolo mais utilizado é o protocolo HTTP (HyperText Transfer Protocol), o protocolo que permite trocar páginas Web em formato HTML. Contudo, numerosos outros protocolos são utilizáveis (FTP, News, Mailto, Gopher,…)
· Identificador e palavra-passe: permite especificar os parâmetros de acesso a um servidor protegido. Esta opção é desaconselhada porque a palavra-passe é visível na URL
· O nome do Servidor : Trata-se de um nome de domínio o computador que aloja o recurso pedido. Repare que é possível utilizar o enderço IP do servidor, que torna em contrapartida a URL menos legível.
· O número de Port : trata-se de um número associado a um serviço que permite ao servidor saber que tipo de recurso é pedido. A porta associada por defeito ao protocolo é a porta número 80. Assim, quando o serviço Web do servidor é associado ao número de porta 80, o número de porta é facultativo
· O caminho de acesso ao recurso : Esta última parte permite ao servidor conhecer o lugar onde o recurso está situado, ou seja, o lugar (directório) e o nome do ficheiro pedido
Uma URL tem então a seguinte estrutura:
· ftp, para a consulta de sites FTP
· telnet ,para a ligação a um terminal distante
· malito, para o envio de um correio electrónico
· wais
· gopher
O nome de ficheiro na URL pode ser seguido de um ponto de interrogação e depois de dados no formato ASCII, tratam-se de dados suplementares enviados em parâmetro de uma aplicação sobre o servidor (um certificado CGI por exemplo). A URL assemelhar-se-á então a uma cadeia de caracteres Ex:
http://pt.exemplo.net/forum/index.php3?cat=1&page=2</code>
A codificação de uma URL
Já que a URL é um meio para enviar informações através da Internet (para enviar dados a um certificado CGI por exemplo), é necessário poder enviar caracteres especiais. Ora, as URL não podem conter caracteres especiais. Além disso, certos caracteres são reservados porque têm um significado (o slash permite especificar um subdirectório, os caracteres & e? servem para o envio de dados por
formulários, …). Por último, as URL podem ser incluídas num documento HTML, o que torna difícil a inserção de caracteres como <ou> na URL
É por isso que uma codificação é necessária! A codificação consiste em substituir os caracteres especiais pelo carácter % (ele mesmo um carácter especial) acompanhado do código ASCII do carácter a codificar em notação hexadecimal.
Eis a lista dos caracteres que necessitam uma codificação específica :
· O nome do protocolo : quer dizer, em certa medida, a linguagem utilizada para comunicar na rede. O protocolo mais utilizado é o protocolo HTTP (HyperText Transfer Protocol), o protocolo que permite trocar páginas Web em formato HTML. Contudo, numerosos outros protocolos são utilizáveis (FTP, News, Mailto, Gopher,…)
· Identificador e palavra-passe: permite especificar os parâmetros de acesso a um servidor protegido. Esta opção é desaconselhada porque a palavra-passe é visível na URL
· O nome do Servidor : Trata-se de um nome de domínio o computador que aloja o recurso pedido. Repare que é possível utilizar o enderço IP do servidor, que torna em contrapartida a URL menos legível.
· O número de Port : trata-se de um número associado a um serviço que permite ao servidor saber que tipo de recurso é pedido. A porta associada por defeito ao protocolo é a porta número 80. Assim, quando o serviço Web do servidor é associado ao número de porta 80, o número de porta é facultativo
· O caminho de acesso ao recurso : Esta última parte permite ao servidor conhecer o lugar onde o recurso está situado, ou seja, o lugar (directório) e o nome do ficheiro pedido
Uma URL tem então a seguinte estrutura:
Protocolo
|
palavra-passe (facultativa)
|
Nome do servidor
|
Porta (facultativa se 80)
|
Caminho
|
http://]
|
user:password@
|
pt.exemplo.net
|
:80
|
/glossair/glossair.php3
|
Os protocolos seguintes podem, por exemplo, ser utilizados através da URL :
· http, para a consulta de páginas web · ftp, para a consulta de sites FTP
· telnet ,para a ligação a um terminal distante
· malito, para o envio de um correio electrónico
· wais
· gopher
O nome de ficheiro na URL pode ser seguido de um ponto de interrogação e depois de dados no formato ASCII, tratam-se de dados suplementares enviados em parâmetro de uma aplicação sobre o servidor (um certificado CGI por exemplo). A URL assemelhar-se-á então a uma cadeia de caracteres Ex:
http://pt.exemplo.net/forum/index.php3?cat=1&page=2</code>
A codificação de uma URL
Já que a URL é um meio para enviar informações através da Internet (para enviar dados a um certificado CGI por exemplo), é necessário poder enviar caracteres especiais. Ora, as URL não podem conter caracteres especiais. Além disso, certos caracteres são reservados porque têm um significado (o slash permite especificar um subdirectório, os caracteres & e? servem para o envio de dados por
formulários, …). Por último, as URL podem ser incluídas num documento HTML, o que torna difícil a inserção de caracteres como <ou> na URL
É por isso que uma codificação é necessária! A codificação consiste em substituir os caracteres especiais pelo carácter % (ele mesmo um carácter especial) acompanhado do código ASCII do carácter a codificar em notação hexadecimal.
Eis a lista dos caracteres que necessitam uma codificação específica :
Carácter
|
Codificação
URL
|
Carácter
|
Codificação
URL
|
Carácter
|
Codificação
URL
|
Tabulação
|
%09
|
.
|
%2E
|
%5C
|
|
Espaço
|
%20
|
/
|
%2F
|
]
|
%5D
|
"
|
%22
|
:
|
%3A
|
^
|
%5E
|
#
|
%23
|
;
|
%3B
|
'
|
%60
|
%
|
%25
|
<
|
%3C
|
{
|
%7B
|
&
|
%26
|
=
|
%3D
|
|
|
%7C
|
(
|
%28
|
>
|
%3E
|
}
|
%7D
|
)
|
%29
|
?
|
%3F
|
~
|
%7E
|
+
|
%2B
|
@
|
%40
|
||
,
|
%2C
|
[
|
%5B
|
Comentários