feat: support byte string literal in bq (#802)

* rebase * review * lint
2025-08-16 20:20:15 +00:00 · 2023-02-20 00:38:03 +09:00 · 2023-02-20 00:38:03 +09:00 · 0c0d088ec2
commit 0c0d088ec2
parent c35dcc93a7
4 changed files with 58 additions and 1 deletions
--- a/src/tokenizer.rs
+++ b/src/tokenizer.rs
@ -35,7 +35,7 @@ use serde::{Deserialize, Serialize};
 use sqlparser_derive::{Visit, VisitMut};

 use crate::ast::DollarQuotedString;
-use crate::dialect::SnowflakeDialect;
+use crate::dialect::{BigQueryDialect, GenericDialect, SnowflakeDialect};
 use crate::dialect::{Dialect, MySqlDialect};
 use crate::keywords::{Keyword, ALL_KEYWORDS, ALL_KEYWORDS_INDEX};

@ -58,6 +58,10 @@ pub enum Token {
    DoubleQuotedString(String),
    /// Dollar quoted string: i.e: $$string$$ or $tag_name$string$tag_name$
    DollarQuotedString(DollarQuotedString),
+    /// Byte string literal: i.e: b'string' or B'string'
+    SingleQuotedByteStringLiteral(String),
+    /// Byte string literal: i.e: b"string" or B"string"
+    DoubleQuotedByteStringLiteral(String),
    /// "National" string literal: i.e: N'string'
    NationalStringLiteral(String),
    /// "escaped" string literal, which are an extension to the SQL standard: i.e: e'first \n second' or E 'first \n second'
@ -189,6 +193,8 @@ impl fmt::Display for Token {
            Token::NationalStringLiteral(ref s) => write!(f, "N'{s}'"),
            Token::EscapedStringLiteral(ref s) => write!(f, "E'{s}'"),
            Token::HexStringLiteral(ref s) => write!(f, "X'{s}'"),
+            Token::SingleQuotedByteStringLiteral(ref s) => write!(f, "B'{s}'"),
+            Token::DoubleQuotedByteStringLiteral(ref s) => write!(f, "B\"{s}\""),
            Token::Comma => f.write_str(","),
            Token::Whitespace(ws) => write!(f, "{ws}"),
            Token::DoubleEq => f.write_str("=="),
@ -493,6 +499,25 @@ impl<'a> Tokenizer<'a> {
                    }
                    Ok(Some(Token::Whitespace(Whitespace::Newline)))
                }
+                // BigQuery uses b or B for byte string literal
+                b @ 'B' | b @ 'b' if dialect_of!(self is BigQueryDialect | GenericDialect) => {
+                    chars.next(); // consume
+                    match chars.peek() {
+                        Some('\'') => {
+                            let s = self.tokenize_quoted_string(chars, '\'')?;
+                            Ok(Some(Token::SingleQuotedByteStringLiteral(s)))
+                        }
+                        Some('\"') => {
+                            let s = self.tokenize_quoted_string(chars, '\"')?;
+                            Ok(Some(Token::DoubleQuotedByteStringLiteral(s)))
+                        }
+                        _ => {
+                            // regular identifier starting with an "b" or "B"
+                            let s = self.tokenize_word(b, chars);
+                            Ok(Some(Token::make_word(&s, None)))
+                        }
+                    }
+                }
                // Redshift uses lower case n for national string literal
                n @ 'N' | n @ 'n' => {
                    chars.next(); // consume, to check the next char