유니코드는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 국제 표준입니다.
7비트, 영문 대소문자 및 기본 기호만 표현 (128자)
가변 길이 (1-4바이트), ASCII 호환, 웹 표준
가변 길이 (2-4바이트), BMP 대부분 2바이트
ASCII, UTF-8, UTF-16, HTML 엔티티, URL 인코딩으로 변환할 수 있습니다.
-
-
-
UTF-8은 웹에서 주로 사용되며 ASCII 호환성이 좋습니다. UTF-16은 동아시아 문자에 효율적이며 Java/Windows에서 사용됩니다.
주로 charset 선언 누락이나 서버/클라이언트 인코딩 불일치 때문입니다. 을 확인하세요.
UTF-8에서 대부분의 이모지는 4바이트로 인코딩됩니다. (예: 😊 = F0 9F 98 8A)