-
Type:
Improvement
-
Resolution: Unresolved
-
None
-
Affects Version/s: None
-
Component/s: t5memory
-
High
-
Added escaping UTF characters that are not allowed in XML 1.0 or 1.1 in comunication with t5memory
-
Emptyshow more show less
The problem:
There are errors in t5memory
t5memory-1.0-1 | E0518 09:20:16.877651 13 OTMTMXIE.cpp:1726] , with body = "\{ "sourceLang": "de-DE", "targetLang": "en-US", "markupTable": "OTMXUXLF", "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:", "documentName": "source", "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt Rückgang der Produktion → weniger Ersatzteilgeschäft Investitionen werden weiterhin verschoben Geringe Investitionsbereitschaft:</TMXSentence>) : t5memory-1.0-1 | E0518 09:20:16.898384 18 OTMTMXIE.cpp:1726] , with body = "\{ "sourceLang": "de-CH", "targetLang": "en", "markupTable": "OTMXUXLF", "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:", "documentName": "source", "context": null}" lb: \{ Error during FUZZY request, id = 20129, for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt Rückgang der Produktion → weniger Ersatzteilgeschäft Investitionen werden weiterhin verschoben Geringe Investitionsbereitschaft:</TMXSentence>) : t5memory-1.0-1 | E0518 09:20:16.900184 9 OTMTMXIE.cpp:1726] , with body = "\{ "sourceLang": "de", "targetLang": "en", "markupTable": "OTMXUXLF", "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:", "documentName": "source", "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt Rückgang der Produktion → weniger Ersatzteilgeschäft Investitionen werden weiterhin verschoben Geringe Investitionsbereitschaft:</TMXSentence>) : t5memory-1.0-1 | E0518 09:20:16.923496 12 OTMTMXIE.cpp:1726] , with body = "\{ "sourceLang": "de-DE", "targetLang": "en-US", "markupTable": "OTMXUXLF", "source": "Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen\u000bStarker Wettbewerbsdruck bei Partnern \u2013 deutlich geringeres Marktpotenzial als fr\u00fcher", "documentName": "source", "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen Starker Wettbewerbsdruck bei Partnern - deutlich geringeres Marktpotenzial als früher</TMXSentence>) : t5memory-1.0-1 | E0518 09:20:16.940343 17 OTMTMXIE.cpp:1726] , with body = "\{ "sourceLang": "de", "targetLang": "en", "markupTable": "OTMXUXLF", "source": "Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen\u000bStarker Wettbewerbsdruck bei Partnern \u2013 deutlich geringeres Marktpotenzial als fr\u00fcher", "documentName": "source", "context": null}"lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen Starker Wettbewerbsdruck bei Partnern - deutlich geringeres Marktpotenzial als früher</TMXSentence>) :
Errors appear due to UTF symbols that are not allowed to be in XML 1.0 and XML 1.1 (\u000b etc.).
https://en.wikipedia.org/wiki/Valid_characters_in_XML#:~:text=including%20non%2Dcharacters.-,The%20preceding%20code%20points%20ranges%20contain%20the%20following%20controls%20which,not%20all)%20C0%20control%20characters
Also need to check why \uXXXX format is using in XML as it is not allowed to be used there. XML requires actual UTF-8 characters or numeric character references, like: Mühldorf → Mühldorf or simply use the raw UTF-8 character ü.
Possible solution:
Replace not allowed UTF symbols by HTML entities when sending request to t5memory and decode back after response is received.
How to test
Import TMX from this issue into language resource for a task.
Create a task from xlf from this issue
Pre-translate task with language resource.
All segments should be translated
Export language resource. Check if it similar to one before import.
Most questionable characters here are 0x0b and 0x1f that can't be processed in raw form by t5memory.
- is duplicated by
-
TRANSLATE-5153 Some UTF symbols can not be saved to t5memory
- Done
- links to