เมื่อเร็ว ๆ นี้ Openai ได้ประกาศการอัปเดตที่สำคัญเกี่ยวกับ API แบบเรียลไทม์เปิดตัวตัวเลือกเสียงใหม่ห้าตัวเลือกและลดค่าใช้จ่ายแคชโดยมีวัตถุประสงค์เพื่อให้นักพัฒนาซอฟต์แวร์แอปพลิเคชันเสียงที่มีราคาไม่แพงมากขึ้น
วันนี้ Openai ประกาศอัปเดต API แบบเรียลไทม์ซึ่งยังคงอยู่ในเบต้า ไฮไลต์ของการอัปเดตนี้คือการเปิดตัวตัวเลือกเสียงใหม่ห้าตัวเลือกที่ออกแบบมาสำหรับแอพพลิเคชั่นเสียงเป็นเสียงในขณะเดียวกันก็ลดค่าธรรมเนียมแคชที่เกี่ยวข้องทำให้นักพัฒนามีราคาไม่แพงมากขึ้นเมื่อใช้งาน
จากเสียงใหม่ห้าเสียงที่เปิดตัว Openai แสดงเสียงใหม่สามเสียงเหล่านี้ในบทความเกี่ยวกับ X, Ash, Verse และ Ballad ที่ทำให้เกิดเสียงของสหราชอาณาจักร ไม่เพียง แต่เสียงเหล่านี้จะสดใสและปรับได้มากขึ้นเท่านั้น แต่ยังให้ประสบการณ์การสื่อสารที่เป็นธรรมชาติมากขึ้น OpenAI กล่าวถึงเอกสาร API ว่าคุณลักษณะเสียงด้วยเสียงแบบดั้งเดิมนี้ช่วยลดการประมวลผลการจัดรูปแบบข้อความกลางทำให้สามารถใช้เวลาแฝงต่ำและเอาต์พุตที่ละเอียดอ่อนยิ่งขึ้น
อย่างไรก็ตาม OpenAI ยังเตือนผู้ใช้ว่าเนื่องจาก API แบบเรียลไทม์ยังอยู่ในขั้นตอนการทดสอบจึงไม่สามารถให้การรับรองความถูกต้องของลูกค้าได้ชั่วคราว นอกจากนี้การประมวลผลเสียงแบบเรียลไทม์อาจได้รับผลกระทบจากเงื่อนไขเครือข่ายซึ่งยังก่อให้เกิดความท้าทายในการส่งสัญญาณเสียงขนาดใหญ่ OpenAI ชี้ให้เห็นว่าการสร้างความมั่นใจว่าการส่งสัญญาณเสียงที่เชื่อถือได้นั้นเป็นงานที่ยากเมื่อเงื่อนไขเครือข่ายไม่เสถียร
ประวัติการพัฒนาของ Openai ในเทคโนโลยีเสียงก็เป็นที่ถกเถียงกันเช่นกัน ในเดือนมีนาคมพวกเขาเปิดตัว Voice Engine ซึ่งเป็นแพลตฟอร์มการโคลนนิ่งเสียงซึ่งพยายามแข่งขันกับสิบเอ็ดคน แต่เปิดให้นักวิจัยเพียงไม่กี่คนเท่านั้น ด้วยการสาธิต GPT-4O และโหมดเสียง Openai ใช้เสียงหยุดชั่วคราวที่เรียกว่า "Sky" ในเดือนพฤษภาคมในขณะที่นักแสดงหญิงฮอลลีวูดสการ์เลตต์จอห์นสันแสดงความไม่พอใจกับมันเชื่อว่ามันคล้ายกับเสียงของเธอมากเกินไป
ในเดือนกันยายน OpenAI เปิดตัวโหมดเสียงขั้นสูงของ ChatGPT สำหรับสมาชิกที่ชำระเงินซึ่งผู้ใช้สามารถใช้งานได้เช่น ChatGPT Plus, Enterprise, Teams และ EDU ด้วยเทคโนโลยีเสียงเป็นเสียงนี้องค์กรสามารถสร้างการตอบสนองแบบเรียลไทม์ได้เร็วขึ้นและปรับปรุงประสิทธิภาพของการบริการลูกค้าอย่างมาก
ลดต้นทุนมากกว่า 50%เกี่ยวกับการกำหนดราคาของ API แบบเรียลไทม์ OpenAI มีราคาอยู่ที่ $ 0.06 ในการเปิดตัวก่อนหน้านี้ที่ $ 0.06 ในนาทีของการป้อนข้อมูลเสียงและ $ 0.24 ในการส่งออกเสียงซึ่งค่อนข้างสูงสำหรับนักพัฒนา อย่างไรก็ตามหลังจากการอัปเดตนี้ค่าใช้จ่ายในการใช้อินพุตข้อความแคชจะลดลง 50%ในขณะที่ค่าใช้จ่ายของการป้อนเสียงแคชจะสูงถึง 80%
OpenAI ประกาศคุณสมบัติใหม่ของ "การแคชพรอมต์" ในวันนักพัฒนาซึ่งสามารถบันทึกบริบทของคำขอบ่อยครั้งในหน่วยความจำของโมเดลซึ่งจะช่วยลดจำนวนโทเค็นที่จำเป็นในการสร้างการตอบกลับ ด้วยการลดราคาอินพุต Openai หวังที่จะดึงดูดนักพัฒนาซอฟต์แวร์ให้ใช้ API มากขึ้น
นอกจากนี้ บริษัท อื่น ๆ เช่นมานุษยวิทยาได้เปิดตัวคุณสมบัติการแคชที่คล้ายกันเพื่อเพิ่มความน่าดึงดูดของเทคโนโลยีเสียงของพวกเขา
ประเด็นสำคัญ:
มีการเพิ่มเสียงธรรมชาติใหม่ห้าเสียงเพื่อปรับปรุงประสบการณ์การใช้เสียง
API แบบเรียลไทม์ช่วยลดต้นทุนการป้อนผ่านแคชทำให้นักพัฒนาประหยัดค่าใช้จ่ายมากขึ้น
การประมวลผลเสียงแบบเรียลไทม์ได้รับผลกระทบจากเงื่อนไขเครือข่ายและความน่าเชื่อถือจะต้องได้รับความสนใจ
การอัปเดตของ OpenAI นี้ไม่เพียง แต่ปรับปรุงประสบการณ์การใช้งานของเทคโนโลยีเสียง แต่ยังดึงดูดนักพัฒนามากขึ้นด้วยการลดต้นทุนส่งเสริมการเพิ่มความนิยมและการพัฒนาเทคโนโลยีเสียง