天道酬勤,学无止境

utf-8

Convert parsed text, with php, to utf-8

In addition to my previous question about parsing images and text from complex xml, only problem about that now is that i don't get the right encoding. Text is in greek, the xml file has utf-8 encoding. This is the code to parse xml: $xml = simplexml_load_file('myfile.xml'); $descriptions = $xml->xpath('//item/description'); foreach ( $descriptions as $description_node ) { $description_dom = new DOMDocument(); $description_dom->loadHTML( (string)$description_node ); $description_sxml = simplexml_import_dom( $description_dom ); $imgs = $description_sxml->xpath('//img'); $text = $description

2021-10-26 00:34:40    分类:问答    php   encoding   utf-8   xml-parsing

Why can't insert my subject of gmail header info into a sqlite3 database?

The code have been tested that all the message_id,uid,subject gmail header info can be inserted into my sqlite3 database. <?php $db='/home/email.db'; // function get_gmail can get all the message_id,uid,subject gmail header info. function get_gmail(){ $email_data=array(); $hostname = '{imap.gmail.com:993/imap/ssl}'; $username = 'xxxx@gmail.com'; $password = 'yyyy'; $inbox = imap_open($hostname,$username,$password); $nums=imap_num_msg($inbox); for ($i=1;$i<=$nums;$i++){ $overview = imap_fetch_overview($inbox, $i, 0); $x1 = $overview[0]->message_id; $x2 = $overview[0]->uid; $x3 = $overview[0]-

2021-10-26 00:14:39    分类:问答    php   utf-8   sqlite   gmail   mime

How to replace/ignore invalid Unicode/UTF8 characters � from C stdio.h getline()?

On Python, there is this option errors='ignore' for the open Python function: open( '/filepath.txt', 'r', encoding='UTF-8', errors='ignore' ) With this, reading a file with invalid UTF8 characters will replace them with nothing, i.e., they are ignored. For example, a file with the characthers Føö»BÃ¥r is going to be read as FøöBår. If a line as Føö»BÃ¥r is read with getline() from stdio.h, it will be read as Føö�Bår: FILE* cfilestream = fopen( "/filepath.txt", "r" ); int linebuffersize = 131072; char* readline = (char*) malloc( linebuffersize ); while( true ) { if( getline( &readline,

2021-10-25 23:14:42    分类:问答    c++   c   c++11   unicode   utf-8

SAP PI 映射中 2 字节 UTF-8 序列的无效字节 2(Invalid byte 2 of 2-byte UTF-8 sequence in SAP PI mapping)

问题 这是 SAP PI 场景。 消息在 2 个系统之间交换。 源系统:IPOS 目标系统:ECC。一旦消息到达 PI 系统,就会生成与 IPOS 对应的 xml。 我必须将 IPOS 结构映射到 ECC 结构。 这里我使用 DOM 解析器。我使用 main() 进行测试。 public static void main (String str[]) throws FileNotFoundException, StreamTransformationException { ZcreateHomeDelivery obj = new ZcreateHomeDelivery(); try { InputStream inputStream = new FileInputStream("C:/Users/XYZ/workspace/input.xml"); FileOutputStream newOut = new FileOutputStream("C:/Users/XYZ/workspace/output.xml"); obj.execute(inputStream, newOut); }catch (Exception e ) { e.printStackTrace(); }} 我已经导入了所有必需的包.. import com.sap.aii.mapping.api

2021-10-25 22:33:12    分类:技术分享    xml   utf-8   sap-erp   sap-pi   sap-xi

Python 2.7 中的西里尔字符(Cyrillic characters in Python 2.7)

问题 该函数使用 Google Places API 返回半径范围内的地点。 确切地说,我使用这个库来处理任务。 问题是西里尔符号显示如下: ÐО СР± ÐµÑ € Ð ± Ð ° нк РоÑии, КиевÑкое оЄеР»Ð„еР»Ð¸ÐµÐ 我尝试了这些建议。 我也试过这个: pname = place.name uni = unicode(place.name) 和这个: convertedname = pname.encode(encoding='UTF-8', errors='strict') 没有任何帮助。 我还能尝试什么? 回答1 我的终端和浏览器编码是 utf-8,问题是在浏览器中显示文本时。 在我取消注释 webapp2 .py 文件中的行后,问题解决了: path = os.path.join(os.path.dirname(file), 'index.html') self.response.out.write(template.render(path, template_values)) 考虑模板之类的东西。 您的回答帮助我找到了解决方案。 谢谢! 回答2 列表(字节数组(“надра”)) [208, 189, 208, 176, 208, 180, 209, 128, 208, 176] 那是UTF-8

2021-10-25 22:11:39    分类:技术分享    python   python-2.7   utf-8   cyrillic

IMAP 消息获取 UnicodeDecodeError 'utf-8' 编解码器无法解码(IMAP message gets UnicodeDecodeError 'utf-8' codec can't decode)

问题 经过 5 个小时的尝试,是时候寻求帮助了。 筛选了所有与此相关的 stackoverflow 问题,但找不到答案。 该代码是一个 gmail 解析器 - 适用于大多数电子邮件,但某些电子邮件会导致 UnicodeDecodeError。 问题是“raw_email.decode('utf-8')”,但改变它(见评论)会导致下面的不同问题。 # Source: https://stackoverflow.com/questions/7314942/python-imaplib-to-get-gmail-inbox-subjects-titles-and-sender-name import datetime import time import email import imaplib import mailbox from vars import * import re # to remove links from str import string EMAIL_ACCOUNT = 'gmail_login' PASSWORD = 'gmail_psswd' mail = imaplib.IMAP4_SSL('imap.gmail.com') mail.login(EMAIL_ACCOUNT, PASSWORD) mail.list() mail.select('inbox'

2021-10-25 20:58:47    分类:技术分享    python   python-3.x   email   utf-8   imap

NSUTF8StringEncoding 给了我这个 %0A%20%20%20%20%22http://example.com/example.jpg%22%0A(NSUTF8StringEncoding gives me this %0A%20%20%20%20%22http://example.com/example.jpg%22%0A)

问题 我正在尝试从 twitter 加载图片。 如果我只使用 json 结果中的 URL 而没有编码,在dataWithContentsOfURL ,我得到 nil URL 参数。 如果我编码它,我得到如下 %0A%20%20%20%20%22http://example.com/example.jpg%22%0A。 我知道我可以使用rangeOfString:或stringByReplacingOccurrencesOfString:但我可以确定它总是相同的,有没有其他方法来处理这个问题,为什么我的 twitter 响应发生这种情况而不是我的 instagram 响应? 我也试过 stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet] 它什么也不做。 这是直接来自json的URL... 2013-11-08 22:09:31:812 JaVu[1839:1547] -[SingleEventTableViewController tableView:cellForRowAtIndexPath:] [Line 406] ( "http://pbs.twimg.com/media/BYWHiq1IYAAwSCR.jpg" ) 这是我的代码 if ([post

2021-10-25 19:17:46    分类:技术分享    ios   objective-c   utf-8   nsstring   nsurl

如何使用 Solr 正确索引西班牙语文档?(How do I correctly index Spanish language documents using Solr?)

问题 如何使用 Solr 正确索引西班牙语文档? 更具体地说,我尝试了两种不同的“字符折叠”技术来索引非 ASCII 字符,但似乎没有一种技术在 100% 的情况下都能正常工作。 这两种技术都可以让我找到一些带重音的字符,而不是其他的。 例如,我像这样使用 ASCIIFoldingFilterFactory: <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.ASCIIFoldingFilterFactory"/> <filter class="solr.StopFilterFactory" words="stopwordsspanish.txt" ignoreCase="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/

2021-10-25 16:47:18    分类:技术分享    utf-8   solr

这是什么字符编码?(What character encoding is this?)

问题 我正在与一个 Oracle DB 接口,它的编码有些混乱(根据 db 属性是 ASCII7,但实际上编码的是韩文字符)。 当我从 resultSet 中获取一些韩语字符串并查看字节时,结果发现它们与这个文件完全对应(我通过谷歌搜索一些字节序列找到了):http://211.115.85.9/files/原始文件.txt 有点吓人,因为它似乎是互联网上唯一与这种特定编码有关的东西...... 使用 EditPlus3 查看时,该文件显示 3 列。 第一列是按字母顺序排列的韩文字符列表。 第二个是我通过查看从 Oracle DB 传递的 Java 字符串发现的奇怪编码。 第三种是UTF8。 我想弄清楚中间列是用什么编码的。有人能指出我正确的方向吗? (我真的不想每次需要调用数据库时都必须实际读取这个文件......) 回答1 它是 EUC-KR(或类似)编码数据,解释为另一种 1 字节编码(ISO-8859-1 或类似)并使用 UTF-8 编码。 换句话说:它是编码错误的数据,但可能是可以挽救的: byte[] bytes = new byte[] { (byte) 0xc2, (byte) 0xb0, (byte) 0xc2, (byte) 0xa1 }; String str = new String(bytes, "UTF-8"); bytes = str.getBytes

2021-10-25 13:28:07    分类:技术分享    utf-8   character-encoding

NSUTF8StringEncoding gives me this %0A%20%20%20%20%22http://example.com/example.jpg%22%0A

I'm trying to load pictures from twitter. If i just use the URL in the json results without encoding, in the dataWithContentsOfURL, I get nil URL argument. If I encode it, I get as follow's %0A%20%20%20%20%22http://example.com/example.jpg%22%0A. I know I can use rangeOfString: or stringByReplacingOccurrencesOfString: but can I be sure that it will always be the same, is there another way to handle this, and why is this happening to my twitter response and not my instagram response? I have also tried stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet] and it does

2021-10-25 09:48:26    分类:问答    ios   objective-c   utf-8   nsstring   nsurl