Uploaded image for project: 'translate5'
  1. translate5
  2. TRANSLATE-4720

Escape UTF characters that are not allowed by XML

XMLWordPrintable

    • Icon: Improvement Improvement
    • Resolution: Unresolved
    • None
    • None
    • t5memory
    • High
    • Added escaping UTF characters that are not allowed in XML 1.0 or 1.1 in comunication with t5memory

      The problem:

      There are errors in t5memory

      t5memory-1.0-1  | E0518 09:20:16.877651    13 OTMTMXIE.cpp:1726] , with body = "\{    "sourceLang": "de-DE",    "targetLang": "en-US",    "markupTable": "OTMXUXLF",    "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:",    "documentName": "source",    "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt
                                Rückgang der Produktion → weniger Ersatzteilgeschäft
                                                                                    Investitionen werden weiterhin verschoben
                                                                                                                             Geringe Investitionsbereitschaft:</TMXSentence>)  :
      t5memory-1.0-1  | E0518 09:20:16.898384    18 OTMTMXIE.cpp:1726] , with body = "\{    "sourceLang": "de-CH",    "targetLang": "en",    "markupTable": "OTMXUXLF",    "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:",    "documentName": "source",    "context": null}" lb: \{ Error during FUZZY request, id = 20129, for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt
                                     Rückgang der Produktion → weniger Ersatzteilgeschäft
                                                                                         Investitionen werden weiterhin verschoben
                                                                                                                                  Geringe Investitionsbereitschaft:</TMXSentence>)  :
      t5memory-1.0-1  | E0518 09:20:16.900184     9 OTMTMXIE.cpp:1726] , with body = "\{    "sourceLang": "de",    "targetLang": "en",    "markupTable": "OTMXUXLF",    "source": "Wirtschaftliche Lage weiterhin massiv angespannt\u000bR\u00fcckgang der Produktion \u2192 weniger Ersatzteilgesch\u00e4ft\u000bInvestitionen werden weiterhin verschoben\u000bGeringe Investitionsbereitschaft:",    "documentName": "source",    "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Wirtschaftliche Lage weiterhin massiv angespannt
                             Rückgang der Produktion → weniger Ersatzteilgeschäft
                                                                                 Investitionen werden weiterhin verschoben
                                                                                                                          Geringe Investitionsbereitschaft:</TMXSentence>)  :
      t5memory-1.0-1  | E0518 09:20:16.923496    12 OTMTMXIE.cpp:1726] , with body = "\{    "sourceLang": "de-DE",    "targetLang": "en-US",    "markupTable": "OTMXUXLF",    "source": "Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen\u000bStarker Wettbewerbsdruck bei Partnern \u2013 deutlich geringeres Marktpotenzial als fr\u00fcher",    "documentName": "source",    "context": null}" lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen
                                          Starker Wettbewerbsdruck bei Partnern - deutlich geringeres Marktpotenzial als früher</TMXSentence>)  :
      t5memory-1.0-1  | E0518 09:20:16.940343    17 OTMTMXIE.cpp:1726] , with body = "\{    "sourceLang": "de",    "targetLang": "en",    "markupTable": "OTMXUXLF",    "source": "Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen\u000bStarker Wettbewerbsdruck bei Partnern \u2013 deutlich geringeres Marktpotenzial als fr\u00fcher",    "documentName": "source",    "context": null}"lb: \{ Error during FUZZY request, id = , for memory ""}::[T5ERROR]::parseSrc: :: error during parsing req(<TMXSentence>Bestehende Pumpen werden bis zur Belastungsgrenze genutzt, statt neue anzuschaffen
                                      Starker Wettbewerbsdruck bei Partnern - deutlich geringeres Marktpotenzial als früher</TMXSentence>)  :
      

      Errors appear due to UTF symbols that are not allowed to be in XML 1.0 and XML 1.1 (\u000b etc.).
      https://en.wikipedia.org/wiki/Valid_characters_in_XML#:~:text=including%20non%2Dcharacters.-,The%20preceding%20code%20points%20ranges%20contain%20the%20following%20controls%20which,not%20all)%20C0%20control%20characters

       

      Also need to check why \uXXXX format is using in XML as it is not allowed to be used there. XML requires actual UTF-8 characters or numeric character references, like: Mühldorf → Mühldorf or simply use the raw UTF-8 character ü.

       

       

      Posstible solution:
      Replace not allowed UTF symbols by HTML entities when sending request to t5memory and decode back after response is received.

            sanya@mittagqi.com Sanya Mikhliaiev
            leonkiz Leon Kiz
            Leon Kiz
            Votes:
            0 Vote for this issue
            Watchers:
            1 Start watching this issue

              Created:
              Updated: