peterle
Forenkasper
Wie es der Betrieb von Foren so mit sich bringt, braucht man da Sprachpakete und die kommen in XML verpackt, was z.B. so aussieht:
Nun hat ja niemand Lust 22k Zeilen davon zu lesen und händisch zu übersetzen, also war die Frage, wie mache ich das maschinell.
Es gibt:
Mit "der Gogel" sind die Ergebnisse dem Anschein nach hinreichen gut, wenn man das XML per Copy&Paste ins Fenster schmeißt, aber er zerschießt einem die Syntax. Da fehlen nachher Abschlußtags, teilweise übersetzt er Tags, teilweise nicht. Einige Zeichen wirbelt er auch gerne durcheinander oder wirft sie einfach weg, auch hat er irgendwo eine Kiste Leerzeichen stehen, die er dringend in den Text werfen muß, was das Ergebnis nur aufwendig reparierbar macht.
Man kann auch nur 5000 Zeichen am Stück übersetzen lassen, was eine große Kopierorgie wird, bei der man sich tunlichst nicht vertut.
Apertium ist sehr charmant, kann aber Online nur romanische Sprachen. Man findet aber ein Sprachdatei für englisch/deutsch in der Installation. Die ist auch recht flott gemacht, wenn man sich nicht an irgendwelche Paketanbieter hält, sondern sich das Ding selber baut. Er macht das mit einem Installer zumindest auf Linux sehr elegant und fischt sich auch die gewünschten Sprachen bei Bedarf zusammen und installiert sie.
Erfreulicherweise kann er WXML und zwar vorwärts und rückwärts. Er macht sich quasi das XML mit Klammern so, daß er nur noch den Inhalt, aber nicht die Syntax übersetzt und nachher baut er das wieder zum XML zusammen.
Das ist eine feine Sache, aber die Übersetzung liest sich, wie ein Lehgasteniker auf Drogen ... kann man also so nicht brauchen.
(normale Texte muß ich mal probieren)
DeepL ist ein Aboanbieter und die Ergebnisse auf der Webseite per Copy&Paste zerschießen einem zumindest nicht mehr die Syntax, die Übersetzung ist auch gut, aber wenn man ihm ein 1MB XML füttert, dann kommen nachher doch einige Syntaxfehler zusammen. Vor allem fummelt er einem wie Google auch irgendwelche ESC-Sequenzen oder sonstwas unsichtbares rein, was ich da aktuell nur händisch mit Gefrickel wieder rauskriege. Ist aber besser als Google, da er nicht tausende Leerzeichen einfügt.
Generell problematisch sind die Phrasen, in denen nicht nur Text, sondern auch Code steht, wie diese hier z.B.
Wirklich interessant wäre es, wenn es auf einfache Art gelingen würde, entweder das XML in eine Liste zu verwandeln und nachher wieder zurück in eine, die man sich dann zerlegen und filtern könnte, um nur noch übersetzbare Phrasen als wie auch immer geartete Liste zu haben, die man dann übersetzen kann und dann wieder ein XML daraus bauen lassen kann.
XML Copy Editor und Vim haben sich übrigens beim bearbeiten bewährt.
Zur Info, aber wer Ideen hat, dem höre ich wie immer gerne zu. Die Übersetzungsprogramme sind mittlerweile so gut, daß der Weg endlich gangbar scheint.
Code:
<?xml version="1.0" encoding="UTF-8"?>
<language>
<app key="core" version="104012">
<word key="__app_core" js="0">System</word>
<word key="__indefart_personal_conversation" js="0">a personal conversation</word>
<word key="__indefart_personal_conversation_message" js="0">a message in a personal conversation</word>
<word key="__indefart_report" js="0">a report</word>
<word key="__indefart_report_comment" js="0">a comment on a report</word>
<word key="__indefart_status_reply" js="0">a reply to a status update</word>
<word key="__indefart_member_status" js="0">a status update</word>
<word key="__defart_personal_conversation" js="0">personal conversation</word>
<word key="__defart_personal_conversation_message" js="0">message in a personal conversation</word>
<word key="__defart_report" js="0">report</word>
...
Nun hat ja niemand Lust 22k Zeilen davon zu lesen und händisch zu übersetzen, also war die Frage, wie mache ich das maschinell.
Es gibt:
- https://translate.google.de/
- https://www.apertium.org/index.deu.html?dir=eng-glg#translation
- https://www.deepl.com/home
Mit "der Gogel" sind die Ergebnisse dem Anschein nach hinreichen gut, wenn man das XML per Copy&Paste ins Fenster schmeißt, aber er zerschießt einem die Syntax. Da fehlen nachher Abschlußtags, teilweise übersetzt er Tags, teilweise nicht. Einige Zeichen wirbelt er auch gerne durcheinander oder wirft sie einfach weg, auch hat er irgendwo eine Kiste Leerzeichen stehen, die er dringend in den Text werfen muß, was das Ergebnis nur aufwendig reparierbar macht.
Man kann auch nur 5000 Zeichen am Stück übersetzen lassen, was eine große Kopierorgie wird, bei der man sich tunlichst nicht vertut.
Apertium ist sehr charmant, kann aber Online nur romanische Sprachen. Man findet aber ein Sprachdatei für englisch/deutsch in der Installation. Die ist auch recht flott gemacht, wenn man sich nicht an irgendwelche Paketanbieter hält, sondern sich das Ding selber baut. Er macht das mit einem Installer zumindest auf Linux sehr elegant und fischt sich auch die gewünschten Sprachen bei Bedarf zusammen und installiert sie.
Erfreulicherweise kann er WXML und zwar vorwärts und rückwärts. Er macht sich quasi das XML mit Klammern so, daß er nur noch den Inhalt, aber nicht die Syntax übersetzt und nachher baut er das wieder zum XML zusammen.
Das ist eine feine Sache, aber die Übersetzung liest sich, wie ein Lehgasteniker auf Drogen ... kann man also so nicht brauchen.
(normale Texte muß ich mal probieren)
DeepL ist ein Aboanbieter und die Ergebnisse auf der Webseite per Copy&Paste zerschießen einem zumindest nicht mehr die Syntax, die Übersetzung ist auch gut, aber wenn man ihm ein 1MB XML füttert, dann kommen nachher doch einige Syntaxfehler zusammen. Vor allem fummelt er einem wie Google auch irgendwelche ESC-Sequenzen oder sonstwas unsichtbares rein, was ich da aktuell nur händisch mit Gefrickel wieder rauskriege. Ist aber besser als Google, da er nicht tausende Leerzeichen einfügt.
Generell problematisch sind die Phrasen, in denen nicht nur Text, sondern auch Code steht, wie diese hier z.B.
Code:
<word key="rss_feed_blurb" js="0"><![CDATA[RSS Feeds allow users to use an RSS Reader to see new content on your community. You can set up different RSS Feeds to cover different areas of your community. <a href='{internal.app=core&module=discovery&controller=streams}'>Activity Streams</a> automatically provide their own RSS Feed.]]></word>
<word key="_date_this_week_c" js="0">{!0#[0:Sunday][1:Monday][2:Tuesday][3:Wednesday][4:Thursday][5:Friday][6:Saturday]} at %s</word>
<word key="emoji_style_twemoji" js="0"><![CDATA[Twitter Style<br><div class='ipsType_large ipsSpacer_top ipsSpacer_half'><img src='https://twemoji.maxcdn.com/2/72x72/1f600.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f609.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f602.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f60d.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f918.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f926-200d-2640-fe0f.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f937-200d-2642-fe0f.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f37f.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f680.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f389.png' class='ipsEmoji'> <img src='https://twemoji.maxcdn.com/2/72x72/1f3f3-fe0f-200d-1f308.png' class='ipsEmoji'></div>]]></word>
Wirklich interessant wäre es, wenn es auf einfache Art gelingen würde, entweder das XML in eine Liste zu verwandeln und nachher wieder zurück in eine, die man sich dann zerlegen und filtern könnte, um nur noch übersetzbare Phrasen als wie auch immer geartete Liste zu haben, die man dann übersetzen kann und dann wieder ein XML daraus bauen lassen kann.
XML Copy Editor und Vim haben sich übrigens beim bearbeiten bewährt.
Zur Info, aber wer Ideen hat, dem höre ich wie immer gerne zu. Die Übersetzungsprogramme sind mittlerweile so gut, daß der Weg endlich gangbar scheint.