# Zeichen  _(characters)_, Zeichenketten _(strings)_ und Unicode

## Zeichencodierungen (Fr√ºhgeschichte)

Es gab - abh√§ngig von Hersteller, Land, Programmiersprache, Betriebsssystem,... - eine gro√üe Vielzahl von Codierungen. 

Bis heute relevant sind:


### ASCII 
Der _American Standard Code for Information Interchange_ wurde 1963 in den USA als Standard ver√∂ffentlicht. 

- definiert $2^7=128$ Zeichen:
  
  - 33 Steuerzeichen, wie `newline`, `escape`, `end of transmission/file`, `delete`
  - 95 graphisch darstellbare Zeichen:

    - 52 lateinische Buchstaben `a-z, A-Z`
    - 10 Ziffern `0-9`
    -  7 Satzzeichen `.,:;?!"`
    - 1 Leerzeichen  ` `
    - 6 Klammern  `[{()}]`
    - 7 mathematische Operationen `+-*/<>=`
    - 12 Sonderzeichen ``` #$%&'\^_|~`@ ``` 

- heute noch "kleinster gemeinsamer Nenner" im Codierungs-Chaos
- die ersten 128 Unicode-Zeichen sind identisch mit ASCII

### ISO 8859-Zeichens√§tze

- ASCII nutzt nur 7 Bits. 
- In einem Byte kann man durch Setzen des 8. Bits weitere 128 Zeichen unterbringen. 
- 1987/88 wurden im ISO 8859-Standard verschiedene 1-Byte-Codierungen festgelegt, die alle ASCII-kompatibel sind, darunter:

  |Codierung | Region  | Sprachen|
  |:-----------|:----------|:-------|
   |ISO 8859-1 (Latin-1)  |  Westeuropa | Deutsch, Franz√∂sisch,...,Isl√§ndisch
   |ISO 8859-2 (Latin-2)  |  Osteuropa  | slawische Sprachen mit lateinischer Schrift
   |ISO 8859-3 (Latin-3)  | S√ºdeuropa   | T√ºrkisch, Maltesisch,...
   |ISO 8859-4 (Latin-4)  | Nordeuropa  | Estnisch, Lettisch, Litauisch, Gr√∂nl√§ndisch, Sami
   |ISO 8859-5 (Latin/Cyrillic) | Osteuropa | slawische Sprachen mit kyrillischer Schrift
   |ISO 8859-6 (Latin/Arabic) | |
   |ISO 8859-7 (Latin/Greek)  | |
   |...| | 
   |ISO 8859-15 (Latin-9)| | 1999: Revision von Latin-1: jetzt mit Euro-Zeichen!  
   

   
## Unicode    

- Ziel: einheitliche Codierung f√ºr alle Schriften der Welt
- Unicode Version 1 erschien 1991
- Unicode Version 14 erschien 2021 mit 144 697 Zeichen (das sind 838 mehr als Unicode 13), darunter: 
   - 159 Schriften 
   - mathematische und technische Symbole
   - Emojis und andere Symbole, Steuer- und Formatierungszeichen
- davon entfallen √ºber 90 000 Zeichen auf die CJK-Schriften (Chinesisch/Japanisch/Koreanisch)     
   
   
### technische  Details

- Jedem Zeichen wird ein `codepoint` zugeordnet. Das ist einfach eine fortlaufende Nummer.
- Diese Nummer wird hexadezimal notiert

   - entweder 4-stellig als `U+XXXX` (0-te Ebene) 
   - oder 5...6-stellig als `U+XXXXXX`  (weitere Ebenen)
- Jede Ebene geht von `U+XY0000`  bis `U+XYFFFF`, kann also $2^{16}=65\;534$ Zeichen enthalten.    
- Vorgesehen sind bisher 17 Ebenen `XY=00` bis `XY=10`, also der  Wertebereich von `U+0000` bis `U+10FFFF`.
- Damit sind maximal 21 Bits pro Zeichen n√∂tig.
- Die Gesamtzahl der damit m√∂glichen Codepoints ist etwas kleiner als 0x10FFFF, da aus technischen Gr√ºnden gewisse Bereiche nicht verwendet werden. Sie betr√§gt etwa 1.1 Millionen, es ist also noch viel Platz. 
- Bisher wurden nur Codepoints aus den Ebenen 
     - Ebene 0 = BMP _Basic Multilingual Plane_  `U+0000 - U+FFFF`,
     - Ebene 1 = SMP _Supplementary Multilingual Plane_  `U+010000 - U+01FFFF`,
     - Ebene 2 = SIP _Supplementary Ideographic Plane_    `U+020000 - U+02FFFF`, 
     - Ebene 3 = TIP _Tertiary Ideographic Plane_     `U+030000 - U+03FFFF`   und
     - Ebene 14 = SSP _Supplementary Special-purpose Plane_ `U+0E0000 - U+0EFFFF` vergeben.
- `U+0000` bis `U+007F` ist identisch mit ASCII
- `U+0000` bis `U+00FF` ist identisch mit ISO 8859-1 (Latin-1)

### Eigenschaften von Unicode-Zeichen

Im Standard wird jedes Zeichen beschrieben duch

  - seinen Codepoint (Nummer) 
  - einen Namen (welcher nur aus ASCII-Gro√übuchstaben, Ziffern und Minuszeichen besteht) und 
  - verschiedene Attributen wie

    - Laufrichtung der Schrift 
    - Kategorie: Gro√übuchstabe, Kleinbuchstabe, modifizierender Buchstabe, Ziffer, Satzzeichen, Symbol, Seperator,....

Codepoint und Name:
```
...
U+0041 LATIN CAPITAL LETTER A
U+0042 LATIN CAPITAL LETTER B
U+0043 LATIN CAPITAL LETTER C
U+0044 LATIN CAPITAL LETTER D
...
U+00E9 LATIN SMALL LETTER E WITH ACUTE
U+00EA LATIN SMALL LETTER E WITH CIRCUMFLEX
...
U+0641 ARABIC LETTER FEH
U+0642 ARABIC LETTER QAF
...
U+21B4 RIGHTWARDS ARROW WITH CORNER DOWNWARDS
...
```


In [1]:
# Wie sieht 'RIGHTWARDS ARROW WITH CORNER DOWNWARDS' aus?

'\U21b4'

'‚Ü¥': Unicode U+21B4 (category So: Symbol, other)

In [2]:
"""
printuc(c, n):
print n characters from unicode table, starting with character c 
"""
function printuc(c, n)
    for i in 0:n-1
        print(c + i)
    end
end

printuc

__Kyrillisch__

In [3]:
printuc('\U0400', 100)

–Ä–Å–Ç–É–Ñ–Ö–Ü–á–à–â–ä–ã–å–ç–é–è–ê–ë–í–ì–î–ï–ñ–ó–ò–ô–ö–õ–ú–ù–û–ü–†–°–¢–£–§–•–¶–ß–®–©–™–´–¨–≠–Æ–Ø–∞–±–≤–≥–¥–µ–∂–∑–∏–π–∫–ª–º–Ω–æ–ø—Ä—Å—Ç—É—Ñ—Ö—Ü—á—à—â—ä—ã—å—ç—é—è—ê—ë—í—ì—î—ï—ñ—ó—ò—ô—ö—õ—ú—ù—û—ü—†—°—¢—£

__Tamilisch__

In [4]:
printuc('\U0be7',20)

‡Øß‡Ø®‡Ø©‡Ø™‡Ø´‡Ø¨‡Ø≠‡ØÆ‡ØØ‡Ø∞‡Ø±‡Ø≤‡Ø≥‡Ø¥‡Øµ‡Ø∂‡Ø∑‡Ø∏‡Øπ‡Ø∫

__Schach__

In [5]:
printuc('\U2654', 12)

‚ôî‚ôï‚ôñ‚ôó‚ôò‚ôô‚ôö‚ôõ‚ôú‚ôù‚ôû‚ôü

__mathematische Operatoren__

In [6]:
printuc('\U2200', 255)

‚àÄ‚àÅ‚àÇ‚àÉ‚àÑ‚àÖ‚àÜ‚àá‚àà‚àâ‚àä‚àã‚àå‚àç‚àé‚àè‚àê‚àë‚àí‚àì‚àî‚àï‚àñ‚àó‚àò‚àô‚àö‚àõ‚àú‚àù‚àû‚àü‚à†‚à°‚à¢‚à£‚à§‚à•‚à¶‚àß‚à®‚à©‚à™‚à´‚à¨‚à≠‚àÆ‚àØ‚à∞‚à±‚à≤‚à≥‚à¥‚àµ‚à∂‚à∑‚à∏‚àπ‚à∫‚àª‚àº‚àΩ‚àæ‚àø‚âÄ‚âÅ‚âÇ‚âÉ‚âÑ‚âÖ‚âÜ‚âá‚âà‚ââ‚âä‚âã‚âå‚âç‚âé‚âè‚âê‚âë‚âí‚âì‚âî‚âï‚âñ‚âó‚âò‚âô‚âö‚âõ‚âú‚âù‚âû‚âü‚â†‚â°‚â¢‚â£‚â§‚â•‚â¶‚âß‚â®‚â©‚â™‚â´‚â¨‚â≠‚âÆ‚âØ‚â∞‚â±‚â≤‚â≥‚â¥‚âµ‚â∂‚â∑‚â∏‚âπ‚â∫‚âª‚âº‚âΩ‚âæ‚âø‚äÄ‚äÅ‚äÇ‚äÉ‚äÑ‚äÖ‚äÜ‚äá‚äà‚äâ‚ää‚äã‚äå‚äç‚äé‚äè‚äê‚äë‚äí‚äì‚äî‚äï‚äñ‚äó‚äò‚äô‚äö‚äõ‚äú‚äù‚äû‚äü‚ä†‚ä°‚ä¢‚ä£‚ä§‚ä•‚ä¶‚äß‚ä®‚ä©‚ä™‚ä´‚ä¨‚ä≠‚äÆ‚äØ‚ä∞‚ä±‚ä≤‚ä≥‚ä¥‚äµ‚ä∂‚ä∑‚ä∏‚äπ‚ä∫‚äª‚äº‚äΩ‚äæ‚äø‚ãÄ‚ãÅ‚ãÇ‚ãÉ‚ãÑ‚ãÖ‚ãÜ‚ãá‚ãà‚ãâ‚ãä‚ãã‚ãå‚ãç‚ãé‚ãè‚ãê‚ãë‚ãí‚ãì‚ãî‚ãï‚ãñ‚ãó‚ãò‚ãô‚ãö‚ãõ‚ãú‚ãù‚ãû‚ãü‚ã†‚ã°‚ã¢‚ã£‚ã§‚ã•‚ã¶‚ãß‚ã®‚ã©‚ã™‚ã´‚ã¨‚ã≠‚ãÆ‚ãØ‚ã∞‚ã±‚ã≤‚ã≥‚ã¥‚ãµ‚ã∂‚ã∑‚ã∏‚ãπ‚ã∫‚ãª‚ãº‚ãΩ‚ãæ

__Runen__

In [7]:
printuc('\U16a0', 40)

·ö†·ö°·ö¢·ö£·ö§·ö•·ö¶·öß·ö®·ö©·ö™·ö´·ö¨·ö≠·öÆ·öØ·ö∞·ö±·ö≤·ö≥·ö¥·öµ·ö∂·ö∑·ö∏·öπ·ö∫·öª·öº·öΩ·öæ·öø·õÄ·õÅ·õÇ·õÉ·õÑ·õÖ·õÜ·õá

__Scheibe (Diskus) von Phaistos__

- Diese Schrift ist nicht entziffert. 
- Es ist unklar, welche Sprache dargestellt wird.
- Es gibt nur ein einziges Dokument in dieser Schrift: die Tonscheibe von Phaistos aus der Bronzezeit 


In [8]:
printuc('\U101D0', 46 )

êáêêáëêáíêáìêáîêáïêáñêáóêáòêáôêáöêáõêáúêáùêáûêáüêá†êá°êá¢êá£êá§êá•êá¶êáßêá®êá©êá™êá´êá¨êá≠êáÆêáØêá∞êá±êá≤êá≥êá¥êáµêá∂êá∑êá∏êáπêá∫êáªêáºêáΩ

### Unicode transformation formats: UTF-8, UTF-16, UTF-32

_Unicode transformation formats_ legen fest, wie eine Folge von Codepoints als eine Folge von Bytes dargestellt wird. 

Da die Codepoints unterschiedlich lang sind, kann man sie nicht einfach hintereinander schreiben. Wo h√∂rt einer auf und f√§ngt der n√§chste an? 

- __UTF-32__: Das einfachste, aber auch speicheraufw√§ndigste, ist, sie alle auf gleiche L√§nge zu bringen. Jeder Codepoint wird in 4 Bytes = 32 Bit kodiert. 
  
- Bei __UTF-16__ wird ein Codepoint entweder mit 2 Bytes oder mit 4 Bytes dargestellt. 

- Bei __UTF-8__  wird ein Codepoint mit 1,2,3 oder 4 Bytes dargestellt. 

- __UTF-8__ ist das Format mit der h√∂chsten Verbreitung. Es wird auch von Julia verwendet. 


#### UTF-8

- F√ºr jeden Codepoint werden 1, 2, 3 oder 4 volle Bytes verwendet. 
- Bei einer Codierung mit variabler L√§nge muss man erkennen k√∂nnen, welche Bytefolgen zusammengeh√∂ren:
   
    - Ein Byte der Form 0xxxxxxx  steht f√ºr einen ASCII-Codepoint der L√§nge 1.
    - Ein Byte der Form 110xxxxx  startet einen 2-Byte-Code.
    - Ein Byte der Form 1110xxxx  startet einen 3-Byte-Code.
    - Ein Byte der Form 11110xxx  startet einen 4-Byte-Code.
    - Alle weiteren Bytes eines 2-,3- oder 4-Byte-Codes haben die Form 10xxxxxx. 
    
- Damit ist der Platz, der f√ºr den Codepoint zur Verf√ºgung steht (Anzahl der x):
 
     - Ein-Byte-Code:  7 Bits
     - Zwei-Byte-Code: 5 + 6 = 11 Bits
     - Drei-Byte-Code: 4 + 6 + 6 = 16 Bits
     - Vier-Byte-Code: 3 + 6 + 6 + 6 = 21 Bits
     

- Damit ist jeder ASCII-Text automatisch auch ein korrekt codierter UTF-8-Text.

- Sollten die bisher f√ºr Unicode festgelegten 17 Ebenen = 21 Bit = 1.1 Mill. m√∂gliche Zeichen mal erweitert werden, dann wird UTF-8 auf 5- und 6-Byte-Codes erweitert.  
  

# Zeichen und Zeichenketten in Julia

## `Char` 

- einzelnes Zeichen in einfachen Anf√ºhrungszeichen:  `'a'`  
- 4 Bytes Speicher
- repres√§ntieren Unicode-Codepoints
- kann von/zu `UInt`s umgewandelt werden
- Integer-Wert = Unicode-codepoint

## `String`

- doppelte Anf√ºhrungszeichen: `"a"`
- UTF-8-codiert, d.h., ein Zeichen kann zwischen 1 und 4 Bytes lang sein


In [9]:
@show typeof('a') sizeof('a') typeof("a") sizeof("a");

typeof('a') = Char
sizeof('a') = 4
typeof("a") = String
sizeof("a") = 1


In [10]:
UInt('a')

0x0000000000000061

In [11]:
b = Char(0x2656)

'‚ôñ': Unicode U+2656 (category So: Symbol, other)

__Bei einem Nicht-ASCII-String unterscheiden sich Anzahl der Bytes und Anzahl der Zeichen:__

In [12]:
astr = "Hello World!"
@show length(astr) ncodeunits(astr);

length(astr) = 12
ncodeunits(astr) = 12


In [13]:
str = "üòÑ Hell√∂ üé∂"
@show length(str) ncodeunits(str);

length(str) = 9
ncodeunits(str) = 16


__Iteration √ºber einen String iteriert √ºber die Zeichen:__

In [14]:
for i in str
    println(i, "  ", typeof(i))
end

üòÑ  Char
   Char
H  Char
e  Char
l  Char
l  Char
√∂  Char
   Char
üé∂  Char


### Verkettung von Strings

"Strings mit Verkettung bilden ein nichtkommutatives Monoid."


In [15]:
 str * astr * str

"üòÑ Hell√∂ üé∂Hello World!üòÑ Hell√∂ üé∂"

In [16]:
str^3

"üòÑ Hell√∂ üé∂üòÑ Hell√∂ üé∂üòÑ Hell√∂ üé∂"

### Stringinterpolation

wird oft in print() usw. genutzt

In [17]:
a = 33.4
b = "x"

s = "Das Ergebnis f√ºr $b ist gleich: $a\n"

"Das Ergebnis f√ºr x ist gleich: 33.4\n"

### Backslash escape sequences 

Julia benutzt die von C und anderen Sprachen bekannten backslash-Codierungen:


In [18]:
s = "So bekommt man \'Anf√ºhrungszeichen\" und ein \$-Zeichen und einen\nZeilenumbruch und ein \\ usw... "
print(s)

So bekommt man 'Anf√ºhrungszeichen" und ein $-Zeichen und einen
Zeilenumbruch und ein \ usw... 

### Triple-Quotes

In dieser Form bleiben Zeilenumbr√ºche und Anf√ºhrungszeichen erhalten:

In [19]:
s = """
 Das soll
ein "l√§ngerer"  
  'Text' sein.
"""

print(s)

 Das soll
ein "l√§ngerer"  
  'Text' sein.


### Raw strings

In einem `raw string` sind alle backslash-Codierungen ausser `\"` abgeschaltet:

In [20]:
s = raw"Ein $ und ein \ und zwei \\ und ein 'bla'..."
print(s)

Ein $ und ein \ und zwei \\ und ein 'bla'...

## Weitere Funktionen f√ºr Zeichen und Strings (Auswahl)

### Tests f√ºr Zeichen

In [21]:
@show isdigit('0') isletter('Œ®') isascii('\U2655') islowercase('Œ±') isnumeric('¬Ω') iscntrl('\n') ispunct(';');

isdigit('0') = true
isletter('Œ®') = true
isascii('‚ôï') = false
islowercase('Œ±') = true
isnumeric('¬Ω') = true
iscntrl('\n') = true
ispunct(';') = true


### Anwendung auf Strings

Diese Tests lassen sich z.B. mit `all()`, `any()` oder `count()` auf Strings anwenden:

In [22]:
all(ispunct, ";.:")

true

In [23]:
any(isdigit,"Es ist 3 Uhr! üïí" )

true

In [24]:
count(islowercase,"Hello, du!!")

6

#### noch ein paar mehr...

In [25]:
@show startswith("Lampenschirm", "Lamp")  occursin("pensch", "Lampenschirm")  endswith("Lampenschirm", "irm"); 

startswith("Lampenschirm", "Lamp") = true
occursin("pensch", "Lampenschirm") = true
endswith("Lampenschirm", "irm") = true


In [26]:
@show uppercase("Eis") lowercase("Eis")  titlecase("eiSen");

uppercase("Eis") = "EIS"
lowercase("Eis") = "eis"
titlecase("eiSen") = "Eisen"


In [27]:
# remove newline from end of string

@show chomp("Eis\n")  chomp("Eis");

chomp("Eis\n") = "Eis"
chomp("Eis") = "Eis"


In [28]:
split("œÄ ist irrational.")

3-element Vector{SubString{String}}:
 "œÄ"
 "ist"
 "irrational."

In [29]:
replace("œÄ ist irrational.", "ist" => "ist angeblich")

"œÄ ist angeblich irrational."

### Strings und Indizes

- Strings sind indizierbar
- Besonderheiten:

  - der Index ist ein Byte-Index
  - bei einem nicht-ASCII-String sind nicht alle Indizes g√ºltig
  - ein g√ºltiger Index adressiert immer ein Unicode-Zeichen

In [30]:
str

"üòÑ Hell√∂ üé∂"

In [31]:
# das erste Zeichen

str[1]

'üòÑ': Unicode U+1F604 (category So: Symbol, other)

In [32]:
# da es 4 bytes lang ist, sind 2,3,4 alles ung√ºltige Indizes:

str[2]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'üòÑ', [5]=>' '

In [33]:
# erst das 5. Byte ist ein neues Zeichen:

str[5]

' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

In [34]:
# auch bei der Adressierung von Substrings m√ºssen Anfang und Ende 
# jeweils g√ºltige Indizes sein

str[1:7]

"üòÑ He"

In [35]:
# eachindex() liefert einen Iterator √ºber die g√ºltigen Indizes:

for i in eachindex(str)
    c = str[i]
    println("$i: $c")
end

1: üòÑ
5:  
6: H
7: e
8: l
9: l
10: √∂
12:  
13: üé∂


In [36]:
# ... und wie √ºblich macht collect() aus einem Iterator einen Vektor:

collect(eachindex(str))

9-element Vector{Int64}:
  1
  5
  6
  7
  8
  9
 10
 12
 13

In [37]:
# und nextind()  liefert den n√§chsten g√ºltigen Index

@show nextind(str, 1) nextind(str, 2);  

nextind(str, 1) = 5
nextind(str, 2) = 5


Warum? Effizienz! 

- In einem langen String, zB einem Buchtext, ist die Stelle `s[123455]` mit einem Byte-Index schnell zu finden. 
- Ein Zeichen-Index m√ºsste in der UTF-8-Codierung den ganzen String durchlaufen, um das n-te Zeichen zu finden, da die Zeichen 1,2,3 oder 4 Bytes lang sein k√∂nnen.


Einige Funktionen liefern Indizes oder Ranges als Resultat. Sie liefern immer g√ºltige Indizes:

In [38]:
findfirst('l', str)

8

In [39]:
findfirst("Hel", str)

6:8

In [40]:
str2 = "Œ±Œ≤Œ≥Œ¥œµ"^3

"Œ±Œ≤Œ≥Œ¥œµŒ±Œ≤Œ≥Œ¥œµŒ±Œ≤Œ≥Œ¥œµ"

In [41]:
n = findfirst('Œ≥', str2)

5

In [42]:
# Weitersuchen ab dem n√§chsten nach n=5 g√ºltigen Index:

findnext('Œ≥',str2, nextind(str2, n))

15