Lição 2
Entities nomeadas vs numéricas
Compare formas nomeadas, decimal e hex de entities.
O mesmo caractere pode ser escrito em múltiplas formas de entity. Para copyright ©:
- Nomeada:
© - Decimal:
© - Hexadecimal:
©
Após o decode, as três produzem o mesmo caractere Unicode.
Legibilidade vs cobertura
Entities nomeadas são mais fáceis de ler em templates e campos de CMS. Editores reconhecem e < rapidamente.
Entities numéricas funcionam para qualquer code point Unicode, incluindo caracteres sem alias nomeado padrão. São essenciais para símbolos raros, pontuação próxima a emoji ou encodings legados.
Comportamento de round-trip
Quando você codifica texto e decodifica de novo, os bytes do texto original devem coincidir se você usar regras consistentes. Porém, a string de entity pode diferir:
©codificado como©vs©vs©- Um espaço vs
(non-breaking space é um caractere diferente de um espaço normal)
Sempre verifique se o seu workflow exige igualdade de caractere ou igualdade exata da string de entity.
Formas legadas sem ponto e vírgula
Algum conteúdo HTML antigo usa © sem ponto e vírgula final. Parsers modernos e decoders estritos podem tratar isso de forma diferente. Prefira a forma com ponto e vírgula em conteúdo novo.
Escolhendo um estilo
| Objetivo | Estilo sugerido |
|---|---|
| Templates legíveis para humanos | Nomeada quando disponível |
| Cobertura Unicode completa | Decimal ou hex |
| Logs compactos | Hex (muitas vezes mais curto para code points grandes) |
| Compatibilidade com CMS | Igualar ao exporter padrão da plataforma |