

Internationalisierte Domainnamen (IDN) / Punycode
source link: https://php-de.github.io/jumpto/idna/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Begriffserklärung
IDN (Internationalized domain name)
Als internationalisierte Domainnamen (englisch internationalized domain name; IDN), umgangssprachlich auch Umlautdomain oder Sonderzeichendomain, werden Domainnamen bezeichnet, die Umlaute, diakritische Zeichen oder Buchstaben aus anderen Alphabeten als dem lateinischen Alphabet enthalten. Solche Zeichen waren ursprünglich im Domain Name System nicht vorgesehen und wurden nachträglich durch den Internetstandard Internationalizing Domain Names in Applications (IDNA) ermöglicht.
Grundsätzlich sind alle Unicode-Zeichen in IDNs zulässig. Jede Vergabestelle für Domains regelt jedoch individuell, welche Zeichen sie für Domain-Registrierungen erlaubt.
Punycode
Punycode ist ein im RFC 3492 standardisiertes Kodierungsverfahren zum Umwandeln von Unicode-Zeichenketten in ASCII-kompatible Zeichenketten, die aus den Zeichen a bis z, 0 bis 9 und dem Bindestrich bestehen. Punycode wurde entworfen, um internationalisierte Domainnamen aus Unicode-Zeichen eindeutig und umkehrbar durch ASCII-Zeichen darzustellen.
Beipiele
Beispiele von IDN mit entsprechender Punycode-Darstellung:
müller.de → xn--mller-kva
übung.de → xn--bung-zra.de
dömäin.com → xn--dmin-moa0i.com
äaaa.com → xn--aaa-pla.com
déjà.vu.com → xn--dj-kia8a.vu.com
ñandú.com → xn--and-6ma2c.com
E-Mail-Adressen
Für E-Mail-Adressen gilt insgesamt selbiges wie oben erwähnt.
Pelé@example.com → [email protected]
δοκιμή@παράδειγμα.δοκιμή → [email protected]
чебурашка@ящик-с-апельсинами.рф → [email protected]
Anwendungsgebiete in PHP
Viele Funktionen, die Operationen mit Domains oder E-Mail-Adressen durchführen, benötigen bei der Anwendung mit Sonderzeichendomains eine vorherige Umwandlung in Punycode. Dies betrifft beispielsweise:
file_get_contents()
checkdnsrr()
filter_var($email, FILTER_VALIDATE_EMAIL)
zur E-Mail-Validierung
Zusatzinfo für cURL
Bei der Anwendung von cURL ist es möglicherweise nicht separat nötig, die Sonderzeichendomains (IDN) vorher in Punycode zu wandeln. Ob cURL bereits mit IDN-Unterstützung verfügbar ist, ist in der phpinfo() ersichtlich.
Konvertierung
Externe Punycode-Klasse
Für die Punycode-Umwandlung gibt es einige PHP-Klassen im Web. Dazu für aktuelle Ergebnisse am besten eine Suchmaschine befragen. Weit verbreitet ist die PHP-Klasse idna_convert von Matthias Sommerfeld. Dort gibt es zudem einen Online-Punycode-Konverter.
Einige Beispiele mit dieser Klasse:
require 'idna_convert.class.php';
$idn = new idna_convert();
// kein Unicode
$domain = 'example.com';
echo $idn->encode($domain);
// example.com
// deutsche Umlaute
$domain = 'frühlingsgefühle.de';
echo $idn->encode($domain);
// xn--frhlingsgefhle-hsbj.de
// griechische Zeichen
$domain = 'παράδειγμα.δοκιμή';
echo $idn->encode($domain);
// xn--hxajbheg2az3al.xn--jxalpdlp
// kyrillische Zeichen
$domain = 'ящик-с-апельсинами.рф';
echo $idn->encode($domain);
// xn-----8kcayoeblonkwzf2jqc1b.xn--p1ai
E-Mail-Adressen:
$email = 'pelé@example.com';
echo $idn->encode($email);
// [email protected]
$email = 'mail@übung.de';
echo $idn->encode($email);
// [email protected]
PHP-Boardmittel
Wenn folgende Voraussetzungen erfüllt sind…
PHP 5 >= 5.3.0, PECL intl >= 1.0.2, PECL idn >= 0.1
…, dann steht die Funktion idn_to_ascii() zur Konvertierung in Punycode direkt zur Verfügung. Somit könnte auf eine externe Klasse verzichtet werden.
Mit diesem Aufruf kann festgestellt werden, ob die Funktion verfügbar ist:
var_dump(function_exists('idn_to_ascii')); // true oder false
RFC zum Thema IDN(A) / Punycode
- RFC 3454 - Preparation of Internationalized Strings (“stringprep”)
- RFC 3490 - Internationalizing Domain Names in Applications (IDNA)
- RFC 3491 - Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN)
- RFC 3492 - Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA)
- RFC 5890 - Internationalized Domain Names for Applications (IDNA): Definitions and Document Framework
- RFC 5891 - Internationalized Domain Names in Applications (IDNA): Protocol
- RFC 5892 - The Unicode Code Points and Internationalized Domain Names for Applications (IDNA)
- RFC 5893 - Right-to-Left Scripts for Internationalized Domain Names for Applications (IDNA)
- RFC 5894 - Internationalized Domain Names for Applications (IDNA): Background, Explanation, and Rationale
</div
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK