Java調用Python Spark程序卡死:如何解決Runtime.getRuntime().exec()阻塞問題?

Java調用python代碼卡住問題分析與解決

在使用java調用python代碼的過程中,經常會遇到一些棘手的問題,例如程序卡住無法繼續執行。本文將針對一個具體的案例進行分析,并提供相應的解決方案。

問題描述:開發者使用java的runtime.getruntime().exec()方法執行python腳本python腳本利用spark進行數據處理。在java端,通過process對象獲取python腳本的輸出,但在python腳本執行到sorted_word_count.take(20)這一行之后,java端程序便卡住,無法繼續執行。

python腳本代碼如下:

spark = sparksession.builder.appname("read from java backend").master("local[*]").getorcreate();  # 獲取傳遞的參數 comment = sys.argv[1]  # 將json字符串轉換為python對象 comment = json.loads(comment)  # 將 comment 列表轉換為 rdd comment_rdd = spark.sparkcontext.parallelize(comment)  # 將 rdd 轉換為 dataframe df = spark.createdataframe(comment_rdd.map(lambda x: row(**x)))  # 加載停用詞庫 stop_words = spark.sparkcontext.textfile("c:/users/10421/downloads/baidu_stopwords.txt").collect()  # ... (此處省略部分代碼) ...  # 計算每個單詞的出現次數 word_count = df.rdd.map(lambda x: (x.word, 1)).reducebykey(lambda x, y: x + y) sorted_word_count = word_count.sortby(lambda x: x[1], ascending=false) top_20_words = sorted_word_count.take(20) column = 0 for row in top_20_words:     print(row[column])

java代碼片段如下:

立即學習Java免費學習筆記(深入)”;

process process = runtime.getruntime().exec(args1);  // 獲取程序執行結果 inputstream inputstream = process.getinputstream(); bufferedreader reader = new bufferedreader(new inputstreamreader(inputstream,"gb2312")); // ... (此處省略部分代碼) ...

問題分析:經測試發現,java程序卡住的原因在于python腳本中sorted_word_count.take(20)這部分代碼的執行。 這部分代碼會阻塞,直到spark處理完成并返回結果。由于process.getinputstream()是阻塞的,如果python程序的輸出沒有及時輸出到標準輸出流,java程序就會一直等待,導致卡住。

解決方案:問題很可能出在字符編碼上。 原始代碼使用gb2312編碼讀取python的輸出,這可能與python腳本的輸出編碼不一致,導致數據讀取阻塞。 修改java代碼,使用utf-8編碼讀取python的輸出,可以解決此問題。

修改后的java代碼:

BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, "UTF-8")); BufferedReader reader2 = new BufferedReader(new InputStreamReader(errorStream, "UTF-8"));

通過將java代碼中讀取輸入流和錯誤流的編碼修改為utf-8,可以解決java程序卡住的問題。 需要注意的是,python腳本也需要確保其輸出使用utf-8編碼。 如果問題仍然存在,則需要進一步檢查spark作業的執行效率以及python腳本中是否存在其他潛在的阻塞操作。

? 版權聲明
THE END
喜歡就支持一下吧
點贊12 分享