找回密码
 立即注册

智能引号

2022-2-21 07:39| 发布者: 笨鸟自学网| 查看: 2312| 评论: 0

摘要: 使用Unicode时,Beautiful Soup还会智能的把引号转换成HTML或XML中的特殊字符:markup = b"pI just \x93love\x94 Microsoft Word\x92s smart quotes/p" UnicodeDammit(markup, , smart_quotes_to="html").unicode_mark ...

使用Unicode时,Beautiful Soup还会智能的把引号 [10] 转换成HTML或XML中的特殊字符:

markup = b"<p>I just \x93love\x94 Microsoft Word\x92s smart quotes</p>"

UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="html").unicode_markup
# u'<p>I just &ldquo;love&rdquo; Microsoft Word&rsquo;s smart quotes</p>'

UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="xml").unicode_markup
# u'<p>I just &#x201C;love&#x201D; Microsoft Word&#x2019;s smart quotes</p>'

也可以把引号转换为ASCII码:

UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="ascii").unicode_markup
# u'<p>I just "love" Microsoft Word\'s smart quotes</p>'

很有用的功能,但是Beautiful Soup没有使用这种方式.默认情况下,Beautiful Soup把引号转换成Unicode:

UnicodeDammit(markup, ["windows-1252"]).unicode_markup
# u'<p>I just \u201clove\u201d Microsoft Word\u2019s smart quotes</p>'
上一篇:编码下一篇:矛盾的编码

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-9-14 03:05 , Processed in 0.022042 second(s), 18 queries .

© 2001-2020

返回顶部